論文の概要: One for All: A Non-Linear Transformer can Enable Cross-Domain Generalization for In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.09727v1
- Date: Sun, 10 May 2026 19:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.394655
- Title: One for All: A Non-Linear Transformer can Enable Cross-Domain Generalization for In-Context Reinforcement Learning
- Title(参考訳): すべてのための一:非線形変換器は、文脈強化学習のためのクロスドメイン一般化を可能にする
- Authors: Bowen He, Juncheng Dong, Lin Lin, Xiang Cheng,
- Abstract要約: 強化学習(RL)における中心的な課題は、訓練対象のタスクを超えて一般化するモデルを学習することである。
近年、トランスフォーマーアーキテクチャが有望なアプローチとして登場し、コンテキスト内学習による新しいタスクへの適応を可能にしている。
本研究では,非線形変換器とカーネルに基づく時間差分学習の関連性を確立する。
- 参考スコア(独自算出の注目度): 12.672720180188348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central challenge in reinforcement learning (RL) is to learn models that generalize beyond the tasks on which they are trained, a goal traditionally pursued through multi-task and meta RL. Recently, transformer architectures have emerged as a promising approach, enabling adaptation to new tasks via in-context learning without explicit parameter updates. From a functional perspective, a transformer can be viewed as a functional operator that maps a context to a task-specific function. It is thus fundamental to understand and design this operator to support stronger generalization in RL. In this work, we address this resulting question of generalization from a kernel-based perspective by establishing a connection between non-linear transformers and kernel-based temporal difference learning. By interpreting the transformer as performing regression in a Reproducing Kernel Hilbert Space (RKHS), we show that value functions from different domains can be represented using a shared set of weights, provided they lie within the same RKHS. Experiments on multiple MetaWorld domains support this interpretation, demonstrating convergence of the temporal-difference objective.
- Abstract(参考訳): 強化学習(RL)の中心的な課題は、訓練対象のタスクを超えて一般化するモデルを学習することであり、これは伝統的にマルチタスクとメタRLを通じて追求される目標である。
近年、トランスフォーマーアーキテクチャが有望なアプローチとして登場し、明示的なパラメータ更新なしにコンテキスト内学習による新しいタスクへの適応を可能にしている。
機能の観点からは、コンテクストをタスク固有の関数にマッピングする関数演算子と見なすことができる。
したがって、RL のより強い一般化をサポートするために、この作用素を理解し設計することが基本である。
本研究では、非線形変換器とカーネルに基づく時間差分学習との接続を確立することにより、カーネルベースの観点からの一般化の問題に対処する。
再生カーネルヒルベルト空間(RKHS)における回帰として変換器を解釈することにより、同じRKHS内にある場合、異なる領域の値関数を共有重み集合で表現できることを示す。
複数のMetaWorldドメインの実験は、この解釈をサポートし、時間差の目的の収束を実証している。
関連論文リスト
- Heuristic Transformer: Belief Augmented In-Context Reinforcement Learning [1.8791091507292152]
Heuristic Transformer (HT) はコンテキスト内強化学習アプローチであり、より優れた意思決定を実現するために、報酬に対する信念分布でコンテキスト内データセットを増強する。
HTは、有効性と一般化の両方の観点から、同等のベースラインを一貫して超越していることが示される。
提案手法は,信念に基づく拡張とトランスフォーマーに基づく意思決定のギャップを埋める,有望な方向を示す。
論文 参考訳(メタデータ) (2025-11-13T12:32:36Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Transformers are Meta-Reinforcement Learners [0.060917028769172814]
本稿では,トランスアーキテクチャを用いたメモリ再配置機構を模倣したメタRLエージェントTrMRLを提案する。
本稿では,各層におけるベイズリスクを最小限に抑えるコンセンサス表現を自己注意で計算することを示す。
その結果, TrMRLは同等あるいは優れた性能, サンプル効率, アウト・オブ・ディストリビューションの一般化を示すことがわかった。
論文 参考訳(メタデータ) (2022-06-14T06:21:13Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。