Fugu-MT 論文翻訳(概要): Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning

論文の概要: Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning

arxiv url: http://arxiv.org/abs/2405.13861v3
Date: Wed, 31 Jul 2024 15:10:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-02 13:55:00.780662
Title: Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning
Title（参考訳）: 変圧器は文脈強化学習のための時間差分法を学習する
Authors: Jiuqi Wang, Ethan Blaser, Hadi Daneshmand, Shangtong Zhang,
Abstract要約: インコンテキスト学習(In-context learning)とは、パラメータを適応することなく、推論時間中にモデルの学習能力をいう。本稿では,変換器が前方パスで時間差(TD)学習を実装できることを示す。我々は,マルチタスクTDアルゴリズムを用いてトランスフォーマーを訓練した後の文脈内TDの出現を理論的解析とともに示す。
参考スコア（独自算出の注目度）: 17.714908233024847
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning refers to the learning ability of a model during inference time without adapting its parameters. The input (i.e., prompt) to the model (e.g., transformers) consists of both a context (i.e., instance-label pairs) and a query instance. The model is then able to output a label for the query instance according to the context during inference. A possible explanation for in-context learning is that the forward pass of (linear) transformers implements iterations of gradient descent on the instance-label pairs in the context. In this paper, we prove by construction that transformers can also implement temporal difference (TD) learning in the forward pass, a phenomenon we refer to as in-context TD. We demonstrate the emergence of in-context TD after training the transformer with a multi-task TD algorithm, accompanied by theoretical analysis. Furthermore, we prove that transformers are expressive enough to implement many other policy evaluation algorithms in the forward pass, including residual gradient, TD with eligibility trace, and average-reward TD.
Abstract（参考訳）: インコンテキスト学習(In-context learning)とは、パラメータを適応することなく、推論時間中にモデルの学習能力をいう。モデルへの入力(例えば、プロンプト)(例えば、トランスフォーマー)は、コンテキスト(例えば、インスタンスとラベルのペア)とクエリインスタンスの両方から構成される。モデルでは、推論中にコンテキストに応じてクエリインスタンスのラベルを出力することができる。文脈内学習の可能な説明として、(線形)変換器の前方通過は、コンテキスト内のインスタンスとラベルのペアに勾配降下の繰り返しを実装する。本稿では,変換器が前方パスで時間差(TD)学習を実装できることを示す。我々は,マルチタスクTDアルゴリズムを用いてトランスフォーマーを訓練した後の文脈内TDの出現を理論的解析とともに示す。さらに, 変圧器は, 残差勾配, 可視性トレース付きTD, 平均回帰TDなど, フォワードパスで多くのポリシー評価アルゴリズムを実装するのに十分であることを示す。

関連論文リスト

A Survey of In-Context Reinforcement Learning [41.74105124619678]
一部のエージェントは、追加のコンテキストを条件付けするだけで、パラメータを更新することなく、新しいタスクを解決できる。本稿では,テキスト内強化学習(in-context reinforcement learning)として知られる,そのような行動に関する調査を行う。
論文参考訳（メタデータ） (2025-02-11T21:52:19Z)
One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文参考訳（メタデータ） (2024-11-16T16:12:42Z)
On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。 We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文参考訳（メタデータ） (2024-10-29T03:27:56Z)
Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descent [26.764893400499354]
線形ループ変換器は、コンテキスト内学習において、多段階勾配勾配を効率よく実装できることを示す。この結果から,入力データが一定条件数である場合,$n = O(d)$であれば,線形ループ変換器の誤差は小さくなることがわかった。
論文参考訳（メタデータ） (2024-10-15T04:44:23Z)
Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context [25.360386832940875]
線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
論文参考訳（メタデータ） (2024-10-02T17:30:21Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
Can Transformers Learn Sequential Function Classes In Context? [0.0]
インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。
論文参考訳（メタデータ） (2023-12-19T22:57:13Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文参考訳（メタデータ） (2022-07-29T14:52:47Z)
Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse Skills [28.39150937658635]
最適輸送理論を用いた政策融合のためのポストホック手法を提案する。これにより、新しいタスクを学習するためのニューラルネットワークポリシの初期化が改善される。以上の結果から,専門知識を「ルネッサンスエージェント」に統合し,新たなスキルの学習を迅速に行うことが可能であることが示唆された。
論文参考訳（メタデータ） (2022-07-03T08:15:41Z)
Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文参考訳（メタデータ） (2022-06-05T08:49:16Z)
Lean Evolutionary Reinforcement Learning by Multitasking with Importance Sampling [20.9680985132322]
本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
論文参考訳（メタデータ） (2022-03-21T10:06:16Z)
What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文参考訳（メタデータ） (2021-04-29T20:34:39Z)
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-11-19T18:47:40Z)
Transient Non-Stationarity and Generalisation in Deep Reinforcement Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文参考訳（メタデータ） (2020-06-10T13:26:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。