論文の概要: Scalable In-Context Q-Learning
- arxiv url: http://arxiv.org/abs/2506.01299v1
- Date: Mon, 02 Jun 2025 04:21:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.026519
- Title: Scalable In-Context Q-Learning
- Title(参考訳): スケーラブルなインコンテキストQ-Learning
- Authors: Jinmei Liu, Fuhong Liu, Jianye Hao, Bo Wang, Huaxiong Li, Chunlin Chen, Zhi Wang,
- Abstract要約: textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
- 参考スコア(独自算出の注目度): 42.80296905313835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in language models have demonstrated remarkable in-context learning abilities, prompting the exploration of in-context reinforcement learning (ICRL) to extend the promise to decision domains. Due to involving more complex dynamics and temporal correlations, existing ICRL approaches may face challenges in learning from suboptimal trajectories and achieving precise in-context inference. In the paper, we propose \textbf{S}calable \textbf{I}n-\textbf{C}ontext \textbf{Q}-\textbf{L}earning (\textbf{SICQL}), an innovative framework that harnesses dynamic programming and world modeling to steer ICRL toward efficient reward maximization and task generalization, while retaining the scalability and stability of supervised pretraining. We design a prompt-based multi-head transformer architecture that simultaneously predicts optimal policies and in-context value functions using separate heads. We pretrain a generalized world model to capture task-relevant information, enabling the construction of a compact prompt that facilitates fast and precise in-context inference. During training, we perform iterative policy improvement by fitting a state value function to an upper-expectile of the Q-function, and distill the in-context value functions into policy extraction using advantage-weighted regression. Extensive experiments across a range of discrete and continuous environments show consistent performance gains over various types of baselines, especially when learning from suboptimal data. Our code is available at https://github.com/NJU-RL/SICQL
- Abstract(参考訳): 近年の言語モデルの発展により、文脈内学習能力が顕著に向上し、文脈内強化学習(ICRL)の探索が進められ、決定領域への約束が拡張された。
より複雑なダイナミクスや時間的相関が伴うため、既存のICRLアプローチは、最適な軌道から学習し、正確な文脈内推論を達成する上で困難に直面する可能性がある。
本稿では、動的プログラミングと世界モデリングを活用し、ICRLを効率的な報酬最大化とタスク一般化に向けて操りながら、教師付き事前学習のスケーラビリティと安定性を維持しつつ、ICRLを操る革新的なフレームワークである、 \textbf{S}calable \textbf{I}n-\textbf{C}ontext \textbf{Q}-\textbf{L}earning (\textbf{SICQL})を提案する。
我々は,異なるヘッダを用いて最適なポリシとコンテキスト内値関数を同時に予測する,プロンプトベースのマルチヘッドトランスアーキテクチャを設計する。
我々は、タスク関連情報をキャプチャするために一般化された世界モデルを事前訓練し、高速で正確なコンテキスト内推論を容易にするコンパクトなプロンプトの構築を可能にする。
トレーニング中、状態値関数をQ関数の上述語に適合させて反復的な政策改善を行い、利点重み付け回帰を用いた政策抽出にコンテキスト内値関数を蒸留する。
離散的および連続的な環境における広範囲な実験は、特に最適以下のデータから学習する場合、様々な種類のベースラインに対して一貫したパフォーマンス向上を示す。
私たちのコードはhttps://github.com/NJU-RL/SICQLで利用可能です。
関連論文リスト
- Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation [28.63391989014238]
連続時間強化学習(CTRL)は、相互作用が時間とともに継続的に進化する環境において、シーケンシャルな意思決定のための原則的なフレームワークを提供する。
サンプルと計算効率の両方を実現するモデルベースアルゴリズムを提案する。
我々は,$N$の測定値を用いて,$tildeO(sqrtd_mathcalR + d_mathcalFN-1/2)$の準最適解を求めることができることを示す。
論文 参考訳(メタデータ) (2025-05-20T18:37:51Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。