論文の概要: Revisiting Fairness-aware Interactive Recommendation: Item Lifecycle as a Control Knob
- arxiv url: http://arxiv.org/abs/2511.16248v1
- Date: Thu, 20 Nov 2025 11:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.588652
- Title: Revisiting Fairness-aware Interactive Recommendation: Item Lifecycle as a Control Knob
- Title(参考訳): 公正を意識したインタラクティブレコメンデーションの再考:コントロールノブとしてのアイテムライフサイクル
- Authors: Yun Lu, Xiaoyu Shi, Hong Xie, Chongjun Xia, Zhenhui Gong, Mingsheng Shang,
- Abstract要約: 本稿では,新しい制御ノブ,すなわちアイテムのライフサイクルを導入することで,公平性に配慮したインタラクティブなレコメンデーションを再考する。
ライフサイクルを意識した階層型強化学習フレームワークであるLHRLを紹介する。
複数の実世界のインタラクティブなレコメンデーションの実験では、LHRLは公平性とユーザエンゲージメントの両方を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 11.023574014254663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper revisits fairness-aware interactive recommendation (e.g., TikTok, KuaiShou) by introducing a novel control knob, i.e., the lifecycle of items. We make threefold contributions. First, we conduct a comprehensive empirical analysis and uncover that item lifecycles in short-video platforms follow a compressed three-phase pattern, i.e., rapid growth, transient stability, and sharp decay, which significantly deviates from the classical four-stage model (introduction, growth, maturity, decline). Second, we introduce LHRL, a lifecycle-aware hierarchical reinforcement learning framework that dynamically harmonizes fairness and accuracy by leveraging phase-specific exposure dynamics. LHRL consists of two key components: (1) PhaseFormer, a lightweight encoder combining STL decomposition and attention mechanisms for robust phase detection; (2) a two-level HRL agent, where the high-level policy imposes phase-aware fairness constraints, and the low-level policy optimizes immediate user engagement. This decoupled optimization allows for effective reconciliation between long-term equity and short-term utility. Third, experiments on multiple real-world interactive recommendation datasets demonstrate that LHRL significantly improves both fairness and user engagement. Furthermore, the integration of lifecycle-aware rewards into existing RL-based models consistently yields performance gains, highlighting the generalizability and practical value of our approach.
- Abstract(参考訳): 本稿では,新しい制御ノブ,すなわちアイテムのライフサイクルを導入することで,公正に配慮した対話的レコメンデーション(例えば,TikTok,KuaiShou)を再考する。
私たちは3倍の貢献をします。
まず,短いビデオプラットフォームにおけるアイテムのライフサイクルが圧縮された3相パターン,すなわち急激な成長,過渡的な安定性,急激な崩壊に従っていることを明らかにする。
第二に、ライフサイクルを意識した階層的強化学習フレームワークであるLHRLを導入し、位相特異的露光ダイナミクスを活用することにより、公平性と精度を動的に調和させる。
LHRLは、(1)STL分解とアテンション機構を組み合わせた軽量エンコーダ、(2)高レベルポリシーが位相認識公正性制約を課す2レベルHRLエージェント、そして低レベルポリシーが即時ユーザエンゲージメントを最適化する。
この分離された最適化は、長期的株式と短期的ユーティリティの効果的な和解を可能にする。
第3に、複数の実世界の対話型レコメンデーションデータセットの実験により、LHRLは公正性とユーザエンゲージメントの両方を著しく改善することを示した。
さらに、ライフサイクルアウェア報酬を既存のRLモデルに組み込むことは、我々のアプローチの一般化可能性と実践的価値を浮き彫りにして、一貫してパフォーマンスの向上をもたらす。
関連論文リスト
- From Exploration to Exploitation: A Two-Stage Entropy RLVR Approach for Noise-Tolerant MLLM Training [38.8378349968766]
Reinforcement Learning with Verifiable Rewards (RLVR) は高品質なラベル付きデータに依存している。
既存の教師なしRLVR法は、純粋なエントロピー最小化を含む、誤ったラベルに過度に適合する。
RLVRのための2段階のトークンレベルのエントロピー最適化手法を提案する。
論文 参考訳(メタデータ) (2025-11-11T01:42:37Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis [0.43988112145759295]
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
論文 参考訳(メタデータ) (2025-07-16T10:49:30Z) - A Principled Framework for Multi-View Contrastive Learning [23.97266762318814]
コントラスト学習(CL)は、自己監督学習(SSL)における主要なパラダイムである
現在のCLメソッドは、異なるペアの目的を単純に集約することで、追加のビューを亜最適に処理する。
本稿では,MV-InfoNCE と MV-DHEL の2つの新しい損失関数を用いて,これらの制限に対処する。
論文 参考訳(メタデータ) (2025-07-09T16:07:17Z) - Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。
共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T06:41:07Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。