論文の概要: Agentic Learner with Grow-and-Refine Multimodal Semantic Memory
- arxiv url: http://arxiv.org/abs/2511.21678v1
- Date: Wed, 26 Nov 2025 18:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.25811
- Title: Agentic Learner with Grow-and-Refine Multimodal Semantic Memory
- Title(参考訳): マルチモーダル・セマンティック記憶を用いたエージェント学習
- Authors: Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li,
- Abstract要約: ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
- 参考スコア(独自算出の注目度): 50.81667005063605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.
- Abstract(参考訳): MLLMは、分離されたクエリに対して強い推論を示すが、それらはde novoを運用する -- 各問題を独立して解決し、しばしば同じミスを繰り返す。
既存のメモリ拡張エージェントは、主に再利用のために過去のトラジェクトリを格納する。
しかし、トラジェクトリベースの記憶は簡潔性バイアスに悩まされ、徐々に重要なドメイン知識が失われる。
さらに重要なのは、真のマルチモーダルな問題解決設定であっても、過去の行動の単一モダリティの痕跡しか記録せず、視覚的注意と論理的推論がソリューションにどのように貢献したかを保存することができなかったことである。
セマンティックメモリはマルチモーダルと統合の両方であり、コーディネートされているが、異なる表現ストリームを通して視覚的および抽象的な知識を保存する。
そこで我々は、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークであるViLoMemを紹介した。
視覚的障害パターンと論理的推論エラーを別々にエンコードし、MLLMは成功し失敗した経験から学ぶことができる。
成長と再定義の原則に従い、システムは多モーダルなセマンティック知識を漸進的に蓄積し、更新する。
6つのマルチモーダルベンチマークで、ViLoMemは一貫してpass@1の精度を改善し、繰り返し視覚的および論理的エラーを低減する。
アブレーションにより、二重ストリームメモリの必要性が明らかとなり、生涯およびクロスドメインエージェント学習におけるエラー認識型マルチモーダルメモリの価値が示された。
私たちのプロジェクトページはhttps://weihao-bo.github.io/ViLoMeo-pageで公開されます。
関連論文リスト
- Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - EvoMem: Improving Multi-Agent Planning with Dual-Evolving Memory [2.9578217823740065]
本稿では,デュアル進化メモリ機構上に構築されたマルチエージェントフレームワークであるEvoMemを紹介する。
旅行計画、会議計画、カレンダースケジューリングにおける一貫したパフォーマンス改善を示す。
この成功は、マルチエージェント計画の強化におけるメモリの重要性を強調している。
論文 参考訳(メタデータ) (2025-11-01T01:38:07Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。
また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。
結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文 参考訳(メタデータ) (2025-09-11T14:37:37Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models [26.32657568461926]
マルチモーダルな大言語モデル(MLLM)は幻覚を起こす傾向がある。
MemVRは共通の認知にインスパイアされた新しいデコードパラダイムである。
MemVRは様々なMLLMの幻覚を著しく緩和する。
論文 参考訳(メタデータ) (2024-10-04T16:30:54Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。