論文の概要: PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft
- arxiv url: http://arxiv.org/abs/2605.27762v2
- Date: Mon, 01 Jun 2026 19:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.081592
- Title: PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft
- Title(参考訳): PEAM:マインクラフトでの体験のコントラスト内化によるパラメトリック・エボダイドエージェントメモリ
- Authors: Yuchen Guo, Junli Gong, Weicheng Wang, Hongmin Cai, Yiu-ming Cheung, Weifeng Su,
- Abstract要約: 本稿では,MinecraftのParametric Embodied Agent MemoryフレームワークであるPEAMを紹介する。
PEAMは、エージェントメモリを推論時間検索から経験を通して内部化されたパラメータレジデントスキルに変換する。
PEAMは,長時間のタスクパフォーマンスを改善し,従来と統合されていたスキルの忘れを軽減し,パラメトリック・ヴァーサス・検索効率を向上させる。
- 参考スコア(独自算出の注目度): 59.80301645617478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PEAM, a Parametric Embodied Agent Memory framework in Minecraft that transforms agent memory from inference-time retrieval into parameter-resident skills internalized through experience. PEAM pairs a slow deliberative LLM for open-ended reasoning with a fast parametric module for reflexive execution of consolidated skills. The fast module is a multimodal Mixture-of-Experts LoRA architecture with per-category physically isolated adapters, enabling parameter-level continual learning without catastrophic forgetting. We treat failure as a first-class training signal: failure--correction trajectory pairs are internalized through a joint behavioral-cloning and contrastive objective, so the agent learns not only what succeeds but also how corrected actions differ from failed ones. To govern consolidation, PEAM introduces a parameterization-worthiness score for deciding which experience should be internalized, and a scale-free self-triggered consolidation mechanism for deciding when to internalize without task-specific hand-tuned thresholds, making the agent self-evolving as the trigger transfers across task distributions without re-tuning. Experiments in Minecraft show that PEAM improves long-horizon task performance, mitigates forgetting on previously consolidated skills, and improves parametric-versus-retrieval efficiency over retrieval-based embodied agents and parametric memory variants.
- Abstract(参考訳): 提案するPEAMは,エージェントメモリを推論時間検索から,経験を通じて内部化されたパラメータ登録スキルに変換する,Minecraftのパラメトリック・エボダイド・エージェントメモリフレームワークである。
PEAMは、オープンエンド推論のためのゆっくりとした熟考的LLMと、統合されたスキルの反射的実行のための高速パラメトリックモジュールをペアリングする。
高速モジュールはマルチモーダルなMixture-of-Experts LoRAアーキテクチャであり、カテゴリごとに物理的に分離されたアダプタを持ち、壊滅的な忘れをせずにパラメータレベルの連続学習を可能にする。
障害訂正軌道対は、共同行動閉包およびコントラスト目的によって内部化されるので、エージェントは、成功だけでなく、失敗とどのように修正されたアクションが異なるかを学習する。
統合を管理するため、PEAMは、どの体験を内在化すべきかを決定するためのパラメータ化・可否スコアと、タスク固有の手動閾値なしで内在化をいつ行うかを決定するためのスケールフリーな自己訓練統合メカニズムを導入し、エージェントを再調整することなくタスク分布間のトリガ転送として自己進化させる。
Minecraftの実験では、PEAMは長期タスクのパフォーマンスを改善し、以前統合されたスキルを忘れないようにし、検索ベースのエンボディエージェントやパラメトリックメモリの変種よりもパラメトリック対検索効率を向上させる。
関連論文リスト
- EvoIR-Agent: Self-Evolving Image Restoration Agentic System via Experience-Driven Learning [39.60899845728349]
マルチモーダル大言語モデル(MLLM)による画像復元は,分解結合シナリオの有効性を示す。
トレーニングベースのメソッドは、固有の経験をパラメータに組み込んで、高い推論効率を実現するが、新しいツールや分解との互換性に欠ける。
EvoIR-Agentは、まず、トレーニング不要の画像復元エージェントの経験成分を体系的に定式化する。
論文 参考訳(メタデータ) (2026-05-21T09:14:25Z) - Dynamic Mixture of Latent Memories for Self-Evolving Agents [57.20419419302731]
MoLEMは、動的混合(MoE)に基づく潜在メモリフレームワークの生成混合物である。
我々は、数学、科学、コードドメインにまたがる連続的な学習シーケンスに基づいて、このフレームワークを訓練する。
連続学習を完了した後、Vanilla事前学習ベースラインよりも平均精度を10.40%向上させる。
論文 参考訳(メタデータ) (2026-05-21T03:35:10Z) - AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文 参考訳(メタデータ) (2026-04-14T13:49:19Z) - MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning [12.196384894535827]
我々は,新しいMixed-Precision Interactive Side Mixture-of-Expertsフレームワーク(MP-ISMoE)を提案する。
MP-ISMoEは、同等のパラメータとメモリ効率を維持しながら、最先端のMETLアプローチと比較して精度を著しく向上させる。
論文 参考訳(メタデータ) (2026-04-10T08:00:28Z) - ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents [31.24386037416211]
LLM駆動のエージェントは、繰り返し発生するシナリオにおいても、オンザフライの推論、再帰的なソリューションに依存していることが多い。
この経験の再利用が不十分なため、計算冗長性と実行不安定性が生じる。
本稿では,プロシージャメモリをパラメータ更新なしに対話体験から自律的に学習するフレームワークであるProcMEMを提案する。
論文 参考訳(メタデータ) (2026-02-02T09:43:12Z) - Optimal Brain Iterative Merging: Mitigating Interference in LLM Merging [11.708743111945727]
大きな言語モデル(LLM)は印象的な能力を示しているが、その高い計算コストはカスタマイズに困難をもたらす。
モデルマージはコスト効率の良い代替手段を提供するが、既存のメソッドはパラメータ間の干渉に悩まされ、パフォーマンスが低下する。
本稿では,モデル内干渉とモデル間干渉を緩和する新しい手法である,最適脳反復法を提案する。
論文 参考訳(メタデータ) (2025-02-17T09:07:49Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。