論文の概要: Revisiting Fairness-aware Interactive Recommendation: Item Lifecycle as a Control Knob
- arxiv url: http://arxiv.org/abs/2511.16248v1
- Date: Thu, 20 Nov 2025 11:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.588652
- Title: Revisiting Fairness-aware Interactive Recommendation: Item Lifecycle as a Control Knob
- Title(参考訳): 公正を意識したインタラクティブレコメンデーションの再考:コントロールノブとしてのアイテムライフサイクル
- Authors: Yun Lu, Xiaoyu Shi, Hong Xie, Chongjun Xia, Zhenhui Gong, Mingsheng Shang,
- Abstract要約: 本稿では,新しい制御ノブ,すなわちアイテムのライフサイクルを導入することで,公平性に配慮したインタラクティブなレコメンデーションを再考する。
ライフサイクルを意識した階層型強化学習フレームワークであるLHRLを紹介する。
複数の実世界のインタラクティブなレコメンデーションの実験では、LHRLは公平性とユーザエンゲージメントの両方を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 11.023574014254663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper revisits fairness-aware interactive recommendation (e.g., TikTok, KuaiShou) by introducing a novel control knob, i.e., the lifecycle of items. We make threefold contributions. First, we conduct a comprehensive empirical analysis and uncover that item lifecycles in short-video platforms follow a compressed three-phase pattern, i.e., rapid growth, transient stability, and sharp decay, which significantly deviates from the classical four-stage model (introduction, growth, maturity, decline). Second, we introduce LHRL, a lifecycle-aware hierarchical reinforcement learning framework that dynamically harmonizes fairness and accuracy by leveraging phase-specific exposure dynamics. LHRL consists of two key components: (1) PhaseFormer, a lightweight encoder combining STL decomposition and attention mechanisms for robust phase detection; (2) a two-level HRL agent, where the high-level policy imposes phase-aware fairness constraints, and the low-level policy optimizes immediate user engagement. This decoupled optimization allows for effective reconciliation between long-term equity and short-term utility. Third, experiments on multiple real-world interactive recommendation datasets demonstrate that LHRL significantly improves both fairness and user engagement. Furthermore, the integration of lifecycle-aware rewards into existing RL-based models consistently yields performance gains, highlighting the generalizability and practical value of our approach.
- Abstract(参考訳): 本稿では,新しい制御ノブ,すなわちアイテムのライフサイクルを導入することで,公正に配慮した対話的レコメンデーション(例えば,TikTok,KuaiShou)を再考する。
私たちは3倍の貢献をします。
まず,短いビデオプラットフォームにおけるアイテムのライフサイクルが圧縮された3相パターン,すなわち急激な成長,過渡的な安定性,急激な崩壊に従っていることを明らかにする。
第二に、ライフサイクルを意識した階層的強化学習フレームワークであるLHRLを導入し、位相特異的露光ダイナミクスを活用することにより、公平性と精度を動的に調和させる。
LHRLは、(1)STL分解とアテンション機構を組み合わせた軽量エンコーダ、(2)高レベルポリシーが位相認識公正性制約を課す2レベルHRLエージェント、そして低レベルポリシーが即時ユーザエンゲージメントを最適化する。
この分離された最適化は、長期的株式と短期的ユーティリティの効果的な和解を可能にする。
第3に、複数の実世界の対話型レコメンデーションデータセットの実験により、LHRLは公正性とユーザエンゲージメントの両方を著しく改善することを示した。
さらに、ライフサイクルアウェア報酬を既存のRLモデルに組み込むことは、我々のアプローチの一般化可能性と実践的価値を浮き彫りにして、一貫してパフォーマンスの向上をもたらす。
関連論文リスト
- Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval [3.1241290518951197]
大規模なeコマース検索要求は、長い尾のノイズの多いクエリに一般化される。
セマンティックテキスト埋め込みのための2段階の「Mine and Refine」コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-19T18:56:36Z) - Compress, Cross and Scale: Multi-Level Compression Cross Networks for Efficient Scaling in Recommender Systems [5.897678894426804]
MLCCは階層的な圧縮と動的合成によって機能横断を組織する構造化された機能相互作用アーキテクチャである。
MC-MLCCはマルチチャネル拡張であり、並列部分空間に特徴的相互作用を分解する。
提案モデルでは,高いDLRMスタイルのベースラインを最大0.52AUCで上回り,モデルパラメータとFLOPを最大26$times$で削減した。
論文 参考訳(メタデータ) (2026-02-12T15:06:46Z) - WorldCompass: Reinforcement Learning for Long-Horizon World Models [81.03997753254023]
この研究は、インタラクティブなビデオベースの世界モデルのための新しい強化学習(RL)フレームワークであるWorldを提示する。
本稿では,自己回帰ビデオ生成パラダイムに合わせた3つのコアイノベーションを紹介する。
様々なシナリオにおけるインタラクションの精度と視覚的忠実度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2026-02-09T18:59:47Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - LORE: A Large Generative Model for Search Relevance [23.808303249081117]
本稿では,eコマース検索における大規模生成モデルに基づく関連性の体系的枠組みであるLOREを紹介する。
LOREは3年にわたってデプロイされ、反復され、オンラインGoodRateメトリクスの累積+27%の改善を実現した。
論文 参考訳(メタデータ) (2025-12-02T18:50:42Z) - From Exploration to Exploitation: A Two-Stage Entropy RLVR Approach for Noise-Tolerant MLLM Training [38.8378349968766]
Reinforcement Learning with Verifiable Rewards (RLVR) は高品質なラベル付きデータに依存している。
既存の教師なしRLVR法は、純粋なエントロピー最小化を含む、誤ったラベルに過度に適合する。
RLVRのための2段階のトークンレベルのエントロピー最適化手法を提案する。
論文 参考訳(メタデータ) (2025-11-11T01:42:37Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis [0.43988112145759295]
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
論文 参考訳(メタデータ) (2025-07-16T10:49:30Z) - A Principled Framework for Multi-View Contrastive Learning [23.97266762318814]
コントラスト学習(CL)は、自己監督学習(SSL)における主要なパラダイムである
現在のCLメソッドは、異なるペアの目的を単純に集約することで、追加のビューを亜最適に処理する。
本稿では,MV-InfoNCE と MV-DHEL の2つの新しい損失関数を用いて,これらの制限に対処する。
論文 参考訳(メタデータ) (2025-07-09T16:07:17Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。
共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T06:41:07Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。