論文の概要: Fine-Tuning Diffusion-Based Recommender Systems via Reinforcement Learning with Reward Function Optimization
- arxiv url: http://arxiv.org/abs/2511.06937v1
- Date: Mon, 10 Nov 2025 10:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.201129
- Title: Fine-Tuning Diffusion-Based Recommender Systems via Reinforcement Learning with Reward Function Optimization
- Title(参考訳): 逆関数最適化を用いた強化学習による微調整拡散に基づくレコメンダシステム
- Authors: Yu Hou, Hua Li, Ha Young Kim, Won-Yong Shin,
- Abstract要約: 拡散モデルは、ユーザ・イテム相互作用の生成過程をモデル化することによって、最先端のパフォーマンスを提供する。
ReFiTはReinforcement Learning(RL)ベースのFin-Tuningを拡散型レコメンデータシステムに統合する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 21.769717387197943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models recently emerged as a powerful paradigm for recommender systems, offering state-of-the-art performance by modeling the generative process of user-item interactions. However, training such models from scratch is both computationally expensive and yields diminishing returns once convergence is reached. To remedy these challenges, we propose ReFiT, a new framework that integrates Reinforcement learning (RL)-based Fine-Tuning into diffusion-based recommender systems. In contrast to prior RL approaches for diffusion models depending on external reward models, ReFiT adopts a task-aligned design: it formulates the denoising trajectory as a Markov decision process (MDP) and incorporates a collaborative signal-aware reward function that directly reflects recommendation quality. By tightly coupling the MDP structure with this reward signal, ReFiT empowers the RL agent to exploit high-order connectivity for fine-grained optimization, while avoiding the noisy or uninformative feedback common in naive reward designs. Leveraging policy gradient optimization, ReFiT maximizes exact log-likelihood of observed interactions, thereby enabling effective post hoc fine-tuning of diffusion recommenders. Comprehensive experiments on wide-ranging real-world datasets demonstrate that the proposed ReFiT framework (a) exhibits substantial performance gains over strong competitors (up to 36.3% on sequential recommendation), (b) demonstrates strong efficiency with linear complexity in the number of users or items, and (c) generalizes well across multiple diffusion-based recommendation scenarios. The source code and datasets are publicly available at https://anonymous.4open.science/r/ReFiT-4C60.
- Abstract(参考訳): 拡散モデルは近年,ユーザ・イテム相互作用の生成過程をモデル化することによって,最先端のパフォーマンスを提供する,レコメンデータシステムのための強力なパラダイムとして登場した。
しかし、そのようなモデルをスクラッチからトレーニングすることは計算的に高価であり、収束に達すると利得が低下する。
これらの課題を解決するために、ReFiTはReinforcement Learning(RL)ベースのFin-Tuningを拡散ベースのレコメンデータシステムに統合する新しいフレームワークである。
外部報酬モデルに依存する拡散モデルに対する従来のRLアプローチとは対照的に、ReFiTはタスク整合設計を採用しており、マルコフ決定プロセス(MDP)として認知軌道を定式化し、推奨品質を直接反映する協調信号認識報酬関数を組み込んでいる。
この報酬信号とMDP構造を密結合することにより、ReFiTはRLエージェントに高次接続を利用して微粒な最適化を行い、ノイズや非形式的なフィードバックを回避できる。
ポリシー勾配の最適化を活用して、ReFiTは観測された相互作用の正確なログ類似度を最大化し、拡散推奨者の効果的なポストホック微調整を可能にする。
広帯域実世界のデータセットに関する総合実験 : 提案したReFiTフレームワークについて
(a)強い競争相手(逐次推薦で最大36.3%)に対する実質的なパフォーマンス向上を示す。
(b)ユーザ数や項目数に線形複雑度を伴い,高い効率性を示す。
(c)複数の拡散に基づく推薦シナリオをうまく一般化する。
ソースコードとデータセットはhttps://anonymous.4open.science/r/ReFiT-4C60で公開されている。
関連論文リスト
- Reinforced Preference Optimization for Recommendation [28.87206911186567]
本稿では,レコメンデーションのためのReinforced Preference Optimization for Recommendation (ReRe)を提案する。
ReReは制約ビーム探索を取り入れてサンプリング効率を改善し、ハードネガを多様化する。
ReRe は従来型と LLM ベースのレコメンデータのランク付け性能を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-14T07:04:33Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Plug-and-Play Prompt Refinement via Latent Feedback for Diffusion Model Alignment [54.17386822940477]
PromptLoopはプラグインとプレイの強化学習フレームワークで、遅延フィードバックをステップワイドな即興改善に組み込む。
この設計は、プロンプトベースのアライメントの柔軟性と一般性を維持しながら、拡散RLアプローチと構造的な類似性を実現する。
論文 参考訳(メタデータ) (2025-10-01T02:18:58Z) - GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO [3.189559302776161]
人間のフィードバックから強化学習の効率性とスケーラビリティを高めるためには,高性能な報酬モデルを数ショットデータでトレーニングする能力が重要である。
本稿では,小規模データセットでトレーニングした生成報酬モデルが大規模データセットでトレーニングしたモデルに匹敵するパフォーマンスを実現するためのデータ拡張拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T16:37:13Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Efficient and Robust Regularized Federated Recommendation [52.24782464815489]
推薦システム(RSRS)は、ユーザの好みとプライバシの両方に対処する。
通信効率を向上させるために,非一様勾配勾配勾配を取り入れた新しい手法を提案する。
RFRecFの強靭性は、多様なベースラインに比べて優れている。
論文 参考訳(メタデータ) (2024-11-03T12:10:20Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Collaborative Filtering Based on Diffusion Models: Unveiling the Potential of High-Order Connectivity [10.683635786183894]
CF-Diffは新しい拡散モデルに基づく協調フィルタリング手法である。
マルチホップの隣人と一緒に、協調的な信号を完全に活用することができる。
最高の競争相手に比べて7.29%も上昇している。
論文 参考訳(メタデータ) (2024-04-22T14:49:46Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。