論文の概要: In-Context Compositional Q-Learning for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.24067v1
- Date: Sun, 28 Sep 2025 20:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.613464
- Title: In-Context Compositional Q-Learning for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための文脈構成Q-Learning
- Authors: Qiushui Xu, Yuhao Huang, Yushu Jiang, Lei Song, Jinyu Wang, Wenliang Zheng, Jiang Bian,
- Abstract要約: In-context compositional Q-Learning (textttICQL) は、Qラーニングを文脈推論問題として定式化する最初のオフラインRLフレームワークである。
局所的なQ-関数の線形近似と正確なウェイト推定の2つの仮定の下で、textttICQLは有界Q-関数近似誤差を達成する。
経験的に言えば、 textttICQLはオフライン設定のパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 21.45273716299317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately estimating the Q-function is a central challenge in offline reinforcement learning. However, existing approaches often rely on a single global Q-function, which struggles to capture the compositional nature of tasks involving diverse subtasks. We propose In-context Compositional Q-Learning (\texttt{ICQL}), the first offline RL framework that formulates Q-learning as a contextual inference problem, using linear Transformers to adaptively infer local Q-functions from retrieved transitions without explicit subtask labels. Theoretically, we show that under two assumptions--linear approximability of the local Q-function and accurate weight inference from retrieved context--\texttt{ICQL} achieves bounded Q-function approximation error, and supports near-optimal policy extraction. Empirically, \texttt{ICQL} substantially improves performance in offline settings: improving performance in kitchen tasks by up to 16.4\%, and in Gym and Adroit tasks by up to 8.6\% and 6.3\%. These results highlight the underexplored potential of in-context learning for robust and compositional value estimation, positioning \texttt{ICQL} as a principled and effective framework for offline RL.
- Abstract(参考訳): Q関数の正確な推定は、オフライン強化学習における中心的な課題である。
しかし、既存のアプローチはしばしば単一のグローバルQ-関数に依存し、多様なサブタスクを含むタスクの構成的性質を捉えるのに苦労する。
In-context compositional Q-Learning (\texttt{ICQL}) は、文脈推論問題としてQ-ラーニングを定式化した最初のオフラインRLフレームワークであり、線形変換器を用いて、明示的なサブタスクラベルなしで検索された遷移から局所的なQ-関数を適応的に推測する。
理論的には、局所的なQ-関数の線形近似性と、検索した文脈からの正確な重み推定の2つの仮定の下で、-\texttt{ICQL} は有界Q-関数近似誤差を達成し、ほぼ最適ポリシー抽出をサポートする。
実証的に、‘texttt{ICQL} はオフライン環境でのパフォーマンスを大幅に改善する。キッチンタスクのパフォーマンスを最大16.4\%向上し、Gym と Adroitタスクでは最大8.6\%と6.3\%向上する。
これらの結果は、ロバストで構成的な値推定のためのコンテキスト内学習の未探索の可能性を強調し、オフラインRLの原則的かつ効果的なフレームワークとして \texttt{ICQL} を位置づけた。
関連論文リスト
- Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文 参考訳(メタデータ) (2025-04-30T05:26:51Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning [46.67828766038463]
本稿では,Q-Learning(ACL-QL)における適応保守レベル(Adaptive Conservative Level in Q-Learning, ACL-QL)を提案する。
ACL-QLは、各状態-作用ペアに対する保守的なレベルの適応的な制御を可能にする。
理論解析により,2つの学習可能な適応重み関数を用いて各遷移の保守レベルを制御する新しいアルゴリズム ACL-QL を提案する。
論文 参考訳(メタデータ) (2024-12-22T04:18:02Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。