Fugu-MT 論文翻訳(概要): Think Before You Act: Decision Transformers with Internal Working Memory

論文の概要: Think Before You Act: Decision Transformers with Internal Working Memory

arxiv url: http://arxiv.org/abs/2305.16338v1
Date: Wed, 24 May 2023 01:20:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 19:12:49.728386
Title: Think Before You Act: Decision Transformers with Internal Working Memory
Title（参考訳）: 行動する前に考える:内部の作業記憶を持つ決定変換器
Authors: Jikun Kang, Romain Laroche, Xindi Yuan, Adam Trischler, Xue Liu, Jie Fu
Abstract要約: 大規模言語モデル(LLM)に基づく意思決定エージェントは、複数のタスクをまたいで一般化する能力を示している。この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。本稿では,異なる下流タスクの情報を格納,ブレンド,検索するための内部動作メモリモジュールを提案する。
参考スコア（独自算出の注目度）: 39.321873516095714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM)-based decision-making agents have shown the ability to generalize across multiple tasks. However, their performance relies on massive data and compute. We argue that this inefficiency stems from the forgetting phenomenon, in which a model memorizes its behaviors in parameters throughout training. As a result, training on a new task may deteriorate the model's performance on previous tasks. In contrast to LLMs' implicit memory mechanism, the human brain utilizes distributed memory storage, which helps manage and organize multiple skills efficiently, mitigating the forgetting phenomenon. Thus inspired, we propose an internal working memory module to store, blend, and retrieve information for different downstream tasks. Evaluation results show that the proposed method improves training efficiency and generalization in both Atari games and meta-world object manipulation tasks. Moreover, we demonstrate that memory fine-tuning further enhances the adaptability of the proposed architecture.
Abstract（参考訳）: 大規模言語モデル(LLM)に基づく意思決定エージェントは、複数のタスクをまたいで一般化する能力を示している。しかし、その性能は大量のデータと計算に依存する。この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると主張する。その結果、新しいタスクのトレーニングは、前のタスクにおけるモデルのパフォーマンスを低下させる可能性がある。 LLMの暗黙記憶機構とは対照的に、人間の脳は分散メモリストレージを利用して複数のスキルを効率的に管理し、整理し、忘れる現象を緩和する。そこで我々は,様々な下流タスクに関する情報を保存,ブレンド,検索するための内部動作メモリモジュールを提案する。評価の結果,本手法はatariゲームとメタワールドオブジェクト操作タスクの両方において,トレーニング効率と一般化を改善した。さらに,メモリの微調整により,提案アーキテクチャの適応性はさらに向上することを示す。

関連論文リスト

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。現在の手法はコストと精度のトレードオフに直面している。 MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文参考訳（メタデータ） (2026-03-03T02:57:38Z)
Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2026-02-27T18:53:41Z)
AtomMem : Learnable Dynamic Agentic Memory with Atomic Memory Operation [40.1709026042412]
本稿では,メモリ管理を動的意思決定問題として再設計するAtomMemを提案する。教師付き微調整と強化学習を組み合わせることで、AtomMemは、メモリの振る舞いをオーケストレーションする自律的なタスク整合ポリシーを学ぶ。 3つの長期コンテキストベンチマークの実験結果から、トレーニング済みのAtomMem-8Bは、従来の静的ワークフローメモリメソッドよりも一貫して優れていたことが示されている。
論文参考訳（メタデータ） (2026-01-13T08:22:28Z)
Dynamic Affective Memory Management for Personalized LLM Agents [1.7600011132381626]
情緒的シナリオのための新しいメモリ管理システムを提案する。本システムは,パーソナライズ,論理コヒーレンス,精度において優れた性能を発揮する。我々の研究は、長期記憶システムの設計に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-10-31T12:12:51Z)
Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文参考訳（メタデータ） (2025-10-22T16:24:47Z)
Memp: Exploring Agent Procedural Memory [72.41472703974935]
LLM(Large Language Models)ベースのエージェントは様々なタスクをこなすが、静的パラメータで手動で設計または絡み合うような不安定なプロシージャメモリに悩まされる。本稿では,過去のエージェントの軌跡をステップバイステップの細粒度と高レベルなスクリプトライクな抽象化の両方に蒸留するMempを提案する。メモリレポジトリが洗練されるにつれて、エージェントは着実に高い成功率と類似タスクの効率を達成できることを示す。
論文参考訳（メタデータ） (2025-08-08T16:20:56Z)
How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [49.62361184944454]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文参考訳（メタデータ） (2025-05-21T22:35:01Z)
Breaking Memory Limits: Gradient Wavelet Transform Enhances LLMs Training [45.225732322141994]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで優れたパフォーマンスを発揮する。彼らの膨大な数のパラメータは、トレーニング中に大きな記憶障害を引き起こします。既存のメモリ効率のアルゴリズムは、特異値分解プロジェクションや重み凍結のような技術に依存していることが多い。本稿では,グラディエントウェーブレット変換(GWT)と呼ばれる新しい解を提案する。
論文参考訳（メタデータ） (2025-01-13T11:35:09Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
PARMESAN: Parameter-Free Memory Search and Transduction for Dense Prediction Tasks [5.5127111704068374]
この研究は、トランスダクティブ推論によるディープラーニングの柔軟性に対処する。我々は,高密度予測タスクを解くためにメモリモジュールを活用するスケーラブルな手法であるPARMESANを提案する。提案手法は,一般的なアーキテクチャと互換性があり,標準で1D,2D,3Dグリッドベースのデータに転送する。
論文参考訳（メタデータ） (2024-03-18T12:55:40Z)
Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文参考訳（メタデータ） (2024-02-23T07:46:30Z)
Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文参考訳（メタデータ） (2023-06-15T19:29:08Z)
A Memory Model for Question Answering from Streaming Data Supported by Rehearsal and Anticipation of Coreference Information [19.559853775982386]
本稿では,ストリーミングデータから質問応答タスクを解くための重要な情報に入力を処理しながら,リハーサルと予測を行うメモリモデルを提案する。我々は,bAbIデータセットと大規模テキスト(Narrative QA)およびビデオ(ActivityNet-QA)質問応答データセットを用いて,我々のモデルを検証した。
論文参考訳（メタデータ） (2023-05-12T15:46:36Z)
A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文参考訳（メタデータ） (2022-10-10T08:27:28Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文参考訳（メタデータ） (2020-10-20T15:05:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。