論文の概要: From Memories to Maps: Mechanisms of In-Context Reinforcement Learning in Transformers
- arxiv url: http://arxiv.org/abs/2506.19686v2
- Date: Thu, 26 Jun 2025 17:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 13:31:57.745548
- Title: From Memories to Maps: Mechanisms of In-Context Reinforcement Learning in Transformers
- Title(参考訳): 記憶から地図へ:トランスフォーマーにおける文脈強化学習のメカニズム
- Authors: Ching Fang, Kanaka Rajan,
- Abstract要約: 本研究は,げっ歯類行動にインスパイアされた計画課題の分布について,コンテクスト内強化学習のためのトランスフォーマーを訓練する。
モデルに現れる学習アルゴリズムを特徴付ける。
メモリは計算資源として機能し、フレキシブルな動作をサポートするために生のエクスペリエンスとキャッシュされた計算の両方を格納する。
- 参考スコア(独自算出の注目度): 2.4554686192257424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans and animals show remarkable learning efficiency, adapting to new environments with minimal experience. This capability is not well captured by standard reinforcement learning algorithms that rely on incremental value updates. Rapid adaptation likely depends on episodic memory -- the ability to retrieve specific past experiences to guide decisions in novel contexts. Transformers provide a useful setting for studying these questions because of their ability to learn rapidly in-context and because their key-value architecture resembles episodic memory systems in the brain. We train a transformer to in-context reinforcement learn in a distribution of planning tasks inspired by rodent behavior. We then characterize the learning algorithms that emerge in the model. We first find that representation learning is supported by in-context structure learning and cross-context alignment, where representations are aligned across environments with different sensory stimuli. We next demonstrate that the reinforcement learning strategies developed by the model are not interpretable as standard model-free or model-based planning. Instead, we show that in-context reinforcement learning is supported by caching intermediate computations within the model's memory tokens, which are then accessed at decision time. Overall, we find that memory may serve as a computational resource, storing both raw experience and cached computations to support flexible behavior. Furthermore, the representations developed in the model resemble computations associated with the hippocampal-entorhinal system in the brain, suggesting that our findings may be relevant for natural cognition. Taken together, our work offers a mechanistic hypothesis for the rapid adaptation that underlies in-context learning in artificial and natural settings.
- Abstract(参考訳): 人間と動物は目覚ましい学習効率を示し、最小限の経験を持つ新しい環境に適応する。
この機能は、インクリメンタルな値更新に依存する標準的な強化学習アルゴリズムではうまく捉えられません。
急激な適応はエピソード記憶に依存している可能性が高い -- 特定の過去の経験を回収し、新しい文脈における決定を導く能力である。
トランスフォーマーは、文脈内で素早く学習する能力と、そのキーバリューアーキテクチャが脳のエピソード記憶システムに似ているため、これらの質問を研究するのに有用な設定を提供する。
本研究は,げっ歯類行動にインスパイアされた計画課題の分布について,コンテクスト内強化学習のためのトランスフォーマーを訓練する。
次に、モデルに現れる学習アルゴリズムを特徴付ける。
我々はまず,表現学習がコンテキスト内構造学習とコンテキスト間アライメントによって支援されることを見いだした。
次に、モデルによって開発された強化学習戦略が、標準モデルフリーやモデルベースプランニングとして解釈できないことを実証する。
その代わりに、モデルのメモリトークン内の中間計算をキャッシュすることで、コンテキスト内強化学習がサポートされ、決定時にアクセスされることを示す。
全体として、メモリは計算資源として機能し、フレキシブルな振る舞いをサポートするために生のエクスペリエンスとキャッシュされた計算の両方を格納する。
さらに,脳の海馬-内鼻系に関する計算に類似し,本モデルで開発された表現は自然認知に関連があることが示唆された。
協調して、我々の研究は、人工的および自然的な環境での文脈内学習の基盤となる、迅速な適応に関する機械論的仮説を提供する。
関連論文リスト
- Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Evolving Reservoirs for Meta Reinforcement Learning [1.6874375111244329]
本稿では,そのようなプロセスを実現する機構を研究するための計算モデルを提案する。
進化のスケールでは、リカレントニューラルネットワークの族である貯水池を進化させます。
我々は、強化学習(RL)を通じた行動政策の学習を容易にするために、これらの進化した貯水池を利用する。
以上の結果から,貯水池の進化は多様な課題の学習を改善することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T16:11:48Z) - Is attention required for ICL? Exploring the Relationship Between Model Architecture and In-Context Learning Ability [39.42414275888214]
そこで本研究では,テキスト内学習タスクのスイート間で因果言語モデリングが可能な13のモデルを評価する。
検討されたアーキテクチャはすべて、以前文書化されたよりも幅広い条件下でコンテキスト内学習を行うことができる。
いくつかの注意すべき代替手段は、トランスフォーマーよりもコンテキスト内学習者と競合することがある。
論文 参考訳(メタデータ) (2023-10-12T05:43:06Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z) - Decoupling Knowledge from Memorization: Retrieval-augmented Prompt
Learning [113.58691755215663]
一般化と記憶のバランスをとるためにRetroPromptを開発した。
バニラプロンプト学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックナレッジストアを構築する。
大規模な実験により、RetroPromptは、数ショットとゼロショットの両方で、より良いパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2022-05-29T16:07:30Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。