論文の概要: Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation
- arxiv url: http://arxiv.org/abs/2603.03820v1
- Date: Wed, 04 Mar 2026 08:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.229323
- Title: Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation
- Title(参考訳): 国家との公正性:対話的勧告における階層的強化学習のための潜在的選好の浄化
- Authors: Yun Lu, Xiaoyu Shi, Hong Xie, Xiangyu Zhao, Mingsheng Shang,
- Abstract要約: 本報告では,不公平を意識した推薦を潜在状態浄化問題として再定義するフレームワークである textbfDSRM-HRL を提案する。
DSRM-HRLは「リッチ・ゲット・リッチ・フィードバック・ループ」を効果的に破り、レコメンデーションユーティリティーと露出エクイティとの間に優れたフロンティアを達成できることを示す。
- 参考スコア(独自算出の注目度): 23.667292152163068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive recommender systems (IRS) are increasingly optimized with Reinforcement Learning (RL) to capture the sequential nature of user-system dynamics. However, existing fairness-aware methods often suffer from a fundamental oversight: they assume the observed user state is a faithful representation of true preferences. In reality, implicit feedback is contaminated by popularity-driven noise and exposure bias, creating a distorted state that misleads the RL agent. We argue that the persistent conflict between accuracy and fairness is not merely a reward-shaping issue, but a state estimation failure. In this work, we propose \textbf{DSRM-HRL}, a framework that reformulates fairness-aware recommendation as a latent state purification problem followed by decoupled hierarchical decision-making. We introduce a Denoising State Representation Module (DSRM) based on diffusion models to recover the low-entropy latent preference manifold from high-entropy, noisy interaction histories. Built upon this purified state, a Hierarchical Reinforcement Learning (HRL) agent is employed to decouple conflicting objectives: a high-level policy regulates long-term fairness trajectories, while a low-level policy optimizes short-term engagement under these dynamic constraints. Extensive experiments on high-fidelity simulators (KuaiRec, KuaiRand) demonstrate that DSRM-HRL effectively breaks the "rich-get-richer" feedback loop, achieving a superior Pareto frontier between recommendation utility and exposure equity.
- Abstract(参考訳): 対話型レコメンダシステム(IRS)は、ユーザシステムダイナミクスのシーケンシャルな性質を捉えるために強化学習(Reinforcement Learning, RL)によってますます最適化されている。
しかし、既存の公正を意識した手法は、観察されたユーザの状態が真の嗜好の忠実な表現であると仮定する、根本的な監視に悩まされることが多い。
実際には、暗黙のフィードバックは人気主導のノイズと露出バイアスによって汚染され、RLエージェントを誤解させる歪んだ状態を生み出す。
正確性と公平性の間の永続的な衝突は、単に報酬形成の問題ではなく、状態推定の失敗である、と我々は主張する。
本研究では,不公平を意識したリコメンデーションを潜在状態浄化問題として再定義し,次いで階層的意思決定を分離するフレームワークである「textbf{DSRM-HRL}」を提案する。
本研究では,高エントロピー・雑音相互作用履歴から低エントロピー遅延選好多様体を復元する拡散モデルに基づくDenoising State Representation Module (DSRM)を提案する。
階層強化学習(Hierarchical Reinforcement Learning, HRL)エージェントは、対立する目的を分離するために使用される: 高レベルポリシーは長期的な公正な軌道を規制し、低レベルポリシーはこれらの動的な制約の下での短期的な関与を最適化する。
高忠実度シミュレーター(KuaiRec, KuaiRand)の大規模な実験により、DSRM-HRLは「リッチ・ゲット・リッチ」フィードバックループを効果的に破り、推奨ユーティリティと露出エクイティの間に優れたパレートフロンティアを達成できることを示した。
関連論文リスト
- Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation [8.112649652437705]
この解決策は、ノイズの多い行動方針に絡み合った潜伏した高品質な分布を厳格に特定することにあると我々は主張する。
このDRO目標に対してハードフィルタが正確な解であることを証明するため,DRPOは発散雑音を厳密に排除しつつ,高品質な動作を最適に回復することができる。
論文 参考訳(メタデータ) (2026-02-11T02:18:27Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Counterfactual Reward Model Training for Bias Mitigation in Multimodal Reinforcement Learning [0.5204229323525671]
本稿では,マルチモーダル表現学習による因果推論を導入し,非教師付きバイアス耐性報酬信号を提供する。
我々は, フレーミングバイアス, クラス不均衡, 分散ドリフトを示すマルチモーダルフェイク対真のニュースデータセット上で, フレームワークの評価を行った。
その結果、偽ニュースの検出において89.12%の精度を達成し、ベースライン報酬モデルを上回った。
論文 参考訳(メタデータ) (2025-08-27T04:54:33Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - A Novel Generative Model with Causality Constraint for Mitigating Biases in Recommender Systems [20.672668625179526]
遅延共起バイアスは、ユーザのフィードバックとアイテムの露出の間の真の因果関係を曖昧にする可能性がある。
本稿では,Recommender Systemsにおける表現学習のための遅延因果制約(Latent Causality Constraints)と呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:09:39Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。