論文の概要: Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers
- arxiv url: http://arxiv.org/abs/2602.08244v1
- Date: Mon, 09 Feb 2026 03:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.056515
- Title: Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers
- Title(参考訳): コンテクストにおける学習 : 変圧器を用いた強化学習のための逆フリーパラダイム
- Authors: Juncheng Dong, Bowen He, Moyang Guo, Ethan X. Fang, Zhuoran Yang, Vahid Tarokh,
- Abstract要約: 本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 55.33468902405567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context reinforcement learning (ICRL) leverages the in-context learning capabilities of transformer models (TMs) to efficiently generalize to unseen sequential decision-making tasks without parameter updates. However, existing ICRL methods rely on explicit reward signals during pretraining, which limits their applicability when rewards are ambiguous, hard to specify, or costly to obtain. To overcome this limitation, we propose a new learning paradigm, In-Context Preference-based Reinforcement Learning (ICPRL), in which both pretraining and deployment rely solely on preference feedback, eliminating the need for reward supervision. We study two variants that differ in the granularity of feedback: Immediate Preference-based RL (I-PRL) with per-step preferences, and Trajectory Preference-based RL (T-PRL) with trajectory-level comparisons. We first show that supervised pretraining, a standard approach in ICRL, remains effective under preference-only context datasets, demonstrating the feasibility of in-context reinforcement learning using only preference signals. To further improve data efficiency, we introduce alternative preference-native frameworks for I-PRL and T-PRL that directly optimize TM policies from preference data without requiring reward signals nor optimal action labels.Experiments on dueling bandits, navigation, and continuous control tasks demonstrate that ICPRL enables strong in-context generalization to unseen tasks, achieving performance comparable to ICRL methods trained with full reward supervision.
- Abstract(参考訳): In-context reinforcement learning (ICRL)は、トランスフォーマーモデル(TM)のインコンテキスト学習機能を活用し、パラメータ更新なしでシーケンシャルな意思決定タスクを効率的に一般化する。
しかし、既存のICRL法は事前訓練中に明確な報酬信号に依存しており、報酬があいまいで、特定が困難で、取得にコストがかかる場合、適用性が制限される。
この制限を克服するために、我々は、事前学習とデプロイメントの両方が好みのフィードバックに頼っている新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
フィードバックの粒度に異なる2つの変種について検討した。即時優先型RL(I-PRL)と軌道レベル比較型T-PRL(T-PRL)である。
まず、ICRLの標準手法である教師付き事前学習が、嗜好のみの文脈データセットの下で有効であることを示し、嗜好信号のみを用いたコンテキスト内強化学習の実現可能性を示す。
データ効率をさらに向上するため,I-PRL と T-PRL の代替フレームワークを導入し,報酬信号や最適なアクションラベルを必要とせず,TM ポリシーを直接最適化する。
関連論文リスト
- In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior [53.21550098214227]
テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。
本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。
本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
論文 参考訳(メタデータ) (2026-01-06T13:41:31Z) - DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。
我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。
RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文 参考訳(メタデータ) (2025-10-02T16:57:24Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Policy-labeled Preference Learning: Is Preference Enough for RLHF? [8.378137704007038]
本研究では,行動政策情報を反映した,後悔を伴う人間の嗜好をモデル化することで,ミスマッチの可能性を解消するための政策ラベル付き嗜好学習(PPL)を提案する。
高次元連続制御タスクの実験は、PPLがオフラインのRLHF性能を大幅に改善し、オンライン環境での有効性を示した。
論文 参考訳(メタデータ) (2025-05-06T15:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。