論文の概要: Think Before You Act: Decision Transformers with Internal Working Memory
- arxiv url: http://arxiv.org/abs/2305.16338v1
- Date: Wed, 24 May 2023 01:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:12:49.728386
- Title: Think Before You Act: Decision Transformers with Internal Working Memory
- Title(参考訳): 行動する前に考える:内部の作業記憶を持つ決定変換器
- Authors: Jikun Kang, Romain Laroche, Xindi Yuan, Adam Trischler, Xue Liu, Jie
Fu
- Abstract要約: 大規模言語モデル(LLM)に基づく意思決定エージェントは、複数のタスクをまたいで一般化する能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
本稿では,異なる下流タスクの情報を格納,ブレンド,検索するための内部動作メモリモジュールを提案する。
- 参考スコア(独自算出の注目度): 39.321873516095714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based decision-making agents have shown the
ability to generalize across multiple tasks. However, their performance relies
on massive data and compute. We argue that this inefficiency stems from the
forgetting phenomenon, in which a model memorizes its behaviors in parameters
throughout training. As a result, training on a new task may deteriorate the
model's performance on previous tasks. In contrast to LLMs' implicit memory
mechanism, the human brain utilizes distributed memory storage, which helps
manage and organize multiple skills efficiently, mitigating the forgetting
phenomenon. Thus inspired, we propose an internal working memory module to
store, blend, and retrieve information for different downstream tasks.
Evaluation results show that the proposed method improves training efficiency
and generalization in both Atari games and meta-world object manipulation
tasks. Moreover, we demonstrate that memory fine-tuning further enhances the
adaptability of the proposed architecture.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく意思決定エージェントは、複数のタスクをまたいで一般化する能力を示している。
しかし、その性能は大量のデータと計算に依存する。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると主張する。
その結果、新しいタスクのトレーニングは、前のタスクにおけるモデルのパフォーマンスを低下させる可能性がある。
LLMの暗黙記憶機構とは対照的に、人間の脳は分散メモリストレージを利用して複数のスキルを効率的に管理し、整理し、忘れる現象を緩和する。
そこで我々は,様々な下流タスクに関する情報を保存,ブレンド,検索するための内部動作メモリモジュールを提案する。
評価の結果,本手法はatariゲームとメタワールドオブジェクト操作タスクの両方において,トレーニング効率と一般化を改善した。
さらに,メモリの微調整により,提案アーキテクチャの適応性はさらに向上することを示す。
関連論文リスト
- Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Recurrent Memory Decision Transformer [55.41644538483948]
本稿では,リカレントメモリ決定変換器(RMDT)を提案する。
我々は,アタリゲームと MuJoCo 制御問題に関する徹底的な実験を行い,提案モデルが再帰的なメモリ機構を伴わずに,そのモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - A Memory Model for Question Answering from Streaming Data Supported by
Rehearsal and Anticipation of Coreference Information [19.559853775982386]
本稿では,ストリーミングデータから質問応答タスクを解くための重要な情報に入力を処理しながら,リハーサルと予測を行うメモリモデルを提案する。
我々は,bAbIデータセットと大規模テキスト(Narrative QA)およびビデオ(ActivityNet-QA)質問応答データセットを用いて,我々のモデルを検証した。
論文 参考訳(メタデータ) (2023-05-12T15:46:36Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。