論文の概要: Learning Memory Mechanisms for Decision Making through Demonstrations
- arxiv url: http://arxiv.org/abs/2411.07954v1
- Date: Tue, 12 Nov 2024 17:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:20:07.359242
- Title: Learning Memory Mechanisms for Decision Making through Demonstrations
- Title(参考訳): デモによる意思決定のための記憶機構の学習
- Authors: William Yue, Bo Liu, Peter Stone,
- Abstract要約: textbfAttentionTunerを導入し、Transformerのメモリ依存ペアを活用する。
標準的なTransformerに比べて、いくつかのタスクで大幅に改善されている。
- 参考スコア(独自算出の注目度): 34.02510598090704
- License:
- Abstract: In Partially Observable Markov Decision Processes, integrating an agent's history into memory poses a significant challenge for decision-making. Traditional imitation learning, relying on observation-action pairs for expert demonstrations, fails to capture the expert's memory mechanisms used in decision-making. To capture memory processes as demonstrations, we introduce the concept of \textbf{memory dependency pairs} $(p, q)$ indicating that events at time $p$ are recalled for decision-making at time $q$. We introduce \textbf{AttentionTuner} to leverage memory dependency pairs in Transformers and find significant improvements across several tasks compared to standard Transformers when evaluated on Memory Gym and the Long-term Memory Benchmark. Code is available at https://github.com/WilliamYue37/AttentionTuner .
- Abstract(参考訳): 部分的に観察可能なマルコフ決定プロセスでは、エージェントの履歴をメモリに統合することは意思決定において重要な課題となる。
伝統的な模倣学習は、専門家のデモンストレーションのために観察と行動のペアに依存するが、意思決定に使用される専門家の記憶機構を捉えない。
メモリプロセスをデモとしてキャプチャするために、 \textbf{Memory dependency pairs} $(p, q)$という概念を紹介します。
メモリGymとLong-term Memory Benchmarkで評価した場合、Transformerのメモリ依存性ペアを活用するためにtextbf{AttentionTuner}を導入し、標準のTransformerと比較して、いくつかのタスクで大幅な改善が見られた。
コードはhttps://github.com/WilliamYue37/AttentionTunerで入手できる。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - MCML: A Novel Memory-based Contrastive Meta-Learning Method for Few Shot
Slot Tagging [17.205431506768125]
textbfMemory ベースの textbfContrastive textbfMeta-textbfLearning (別名 MCML) 法を提案する。
実験の結果、MCMLはSNIPSとNERの両方のデータセット上で、最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-26T08:02:21Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。