論文の概要: Don't Let Bandit Feedback Pull Continual LLM-Recommender Updates Off Target
- arxiv url: http://arxiv.org/abs/2605.18899v1
- Date: Sun, 17 May 2026 11:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.859952
- Title: Don't Let Bandit Feedback Pull Continual LLM-Recommender Updates Off Target
- Title(参考訳): BanditのフィードバックでLLM-Recommenderがターゲットからアップデートされる
- Authors: Taesan Kim, Hyeongjun Yun, Jaegul Choo, Chung Park,
- Abstract要約: ジェネレーティブレコメンダ(LLM-Rec)は、デプロイ後の継続的な更新を必要とする。
デプロイメントログはポリシ形式のコンテキスト帯フィードバックのみを提供する。
連続LDM-Rec更新のためのアンコレッド帯域ポリシー最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.681980014826536
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative LLM-based recommenders (LLM-Rec) require continual post-deployment updates, yet deployment logs provide only policy-shaped contextual bandit feedback: outcomes are observed solely for items exposed by a prior serving policy, inducing exposure bias and yielding partial, asymmetric signals consisting of relatively reliable positive responses and ambiguous no-responses. We propose an Anchored Bandit Policy Optimization (ABPO) framework for continual LLM-Rec updates that combines group-relative policy optimization (GRPO) with explicit treatment of exposure bias and feedback ambiguity. Specifically, we insert the exposed recommendation as a logged anchor into each GRPO rollout group, so that group-relative normalization is calibrated against the action actually exposed by the prior policy rather than against newly sampled rollouts alone. Because both positive- and no-responses are observed only through prior-policy exposure, we apply self-normalized inverse propensity scoring to the fixed anchor for both feedback types to correct for policy mismatch. At the same time, we treat the two feedback types asymmetrically in reliability: positive responses provide relatively direct endorsement signals, whereas no-responses remain ambiguous because they may reflect either true disinterest or unobserved external factors. To avoid overly aggressive updates from ambiguous no-responses, we temper their penalties with self-certainty, using the model's output-token confidence as a verifier-free reliability signal. Across five domains from Amazon Reviews and MovieLens, our method yields consistent post-update gains in recommendation accuracy while mitigating prior-policy-induced exposure bias more effectively than prior baselines.
- Abstract(参考訳): ジェネレーティブLSMベースのレコメンデータ(LLM-Rec)は、継続的なデプロイ後更新を必要とするが、デプロイメントログはポリシー型のコンテキスト的バンディットフィードバックのみを提供する。
本稿では,グループ相対的政策最適化(GRPO)と露出バイアスの明示的処理とフィードバックあいまいさを併用した,連続的なLCM-Rec更新のためのABPO(Anchored Bandit Policy Optimization)フレームワークを提案する。
具体的には、各GRPOロールアウトグループにログ付きアンカーとして露出したレコメンデーションを挿入し、グループ相対正規化を、新しくサンプリングされたロールアウトのみに対してではなく、実際に前のポリシーによって露呈されたアクションに対して校正する。
自己正規化逆確率スコアを固定アンカーに印加し、両フィードバックタイプでポリシーミスマッチを補正する。
正応答は相対的に直接的支持信号を提供するが、非応答は真の非関心または観測されていない外部要因を反映する可能性があるためあいまいなままである。
不明瞭な無責任から過度に攻撃的な更新を避けるため、モデルの出力に対する信頼度を検証不要な信頼性信号として利用して、自己確実性で罰則を抑える。
Amazon ReviewsとMovieLensの5つのドメインにまたがって、我々の方法は、事前政治による露出バイアスを以前のベースラインよりも効果的に軽減しつつ、推奨精度の更新後の一貫した上昇をもたらす。
関連論文リスト
- Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective [10.958642517467721]
RLVRにおけるコントラストシーケンスレベルのポリシー最適化のためのフレームワークを提案する。
ConSPOはGRPOのクリップされた比率ベースのスコアを、長さ正規化されたシーケンスログ確率に置き換える。
ConSPOは、挑戦的な数学的推論ベンチマークにおいて、いくつかの強力なRLVRベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-13T04:02:36Z) - The Reciprocity Gradient [52.35929743862925]
コミュニケーションは、戦略的相互作用における相互性と協力を維持するための基本である。
学習エージェントに特有の集中的最適化の難しさとして,影響帰属問題を同定し,定式化する。
これを解決するために、公衆の観察から訓練された相手の政策の個人推定器を通して、報酬勾配を明示的に逆伝搬する相互性勾配を導入する。
論文 参考訳(メタデータ) (2026-05-08T16:29:52Z) - SiMPO: Measure Matching for Online Diffusion Reinforcement Learning [52.46919717963149]
一般単調関数を持つ拡散RLにおける再重み付けスキームを一般化する,シンプルで統一的なフレームワークであるSiMPOを紹介する。
SiMPOは2段階の測度マッチングレンズを介して拡散RLを再考する。
我々は、負の再重み付けが準最適行動から政策を積極的に反映していることを示す幾何学的解釈を提供する。
論文 参考訳(メタデータ) (2026-03-10T22:01:13Z) - Mitigating Mismatch within Reference-based Preference Optimization [55.07698254211876]
直接選好最適化(DPO)は、大規模な言語モデルのオフライン選好アライメントのデファクトスタンダードとなっている。
DPOは、信頼された領域内で更新を規則化することでトレーニングを安定化する参照に対して、各更新を重み付けする。
この依存は、参照モデルが拒否された応答を好む悲観的なペアにとって問題となる。
DPOを変更して、$_-_mathrmref$を$_-max0,_mathrmref$に置き換えることで、悲観的な場合、参照を中立的に扱うようにします。
論文 参考訳(メタデータ) (2026-02-12T12:55:51Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。