論文の概要: Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
- arxiv url: http://arxiv.org/abs/2508.09736v1
- Date: Wed, 13 Aug 2025 12:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.876798
- Title: Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
- Title(参考訳): 長期記憶を持つマルチモーダルエージェントの閲覧, 聴取, 記憶, 推論
- Authors: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li,
- Abstract要約: 本稿では,長期記憶を備えた新しいフレームワークであるM3-Agentを紹介する。
M3-Agentは、リアルタイムの視覚および聴覚入力を処理して、長期記憶の構築と更新を行うことができる。
我々は,M3-Benchという長ビデオ質問応答ベンチマークを開発した。
- 参考スコア(独自算出の注目度): 11.692415274565478
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce M3-Agent, a novel multimodal agent framework equipped with long-term memory. Like humans, M3-Agent can process real-time visual and auditory inputs to build and update its long-term memory. Beyond episodic memory, it also develops semantic memory, enabling it to accumulate world knowledge over time. Its memory is organized in an entity-centric, multimodal format, allowing deeper and more consistent understanding of the environment. Given an instruction, M3-Agent autonomously performs multi-turn, iterative reasoning and retrieves relevant information from memory to accomplish the task. To evaluate memory effectiveness and memory-based reasoning in multimodal agents, we develop M3-Bench, a new long-video question answering benchmark. M3-Bench comprises 100 newly recorded real-world videos captured from a robot's perspective (M3-Bench-robot) and 929 web-sourced videos across diverse scenarios (M3-Bench-web). We annotate question-answer pairs designed to test key capabilities essential for agent applications, such as human understanding, general knowledge extraction, and cross-modal reasoning. Experimental results show that M3-Agent, trained via reinforcement learning, outperforms the strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o, achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web and VideoMME-long, respectively. Our work advances the multimodal agents toward more human-like long-term memory and provides insights into their practical design. Model, code and data are available at https://github.com/bytedance-seed/m3-agent
- Abstract(参考訳): 本稿では,長期メモリを備えた新しいマルチモーダルエージェントフレームワークであるM3-Agentを紹介する。
人間のように、M3-Agentはリアルタイムの視覚的および聴覚的入力を処理して、長期記憶の構築と更新を行うことができる。
エピソードメモリ以外にもセマンティックメモリも開発しており、時間とともに世界の知識を蓄積することができる。
メモリはエンティティ中心のマルチモーダルフォーマットで構成され、環境をより深く、より一貫した理解を可能にする。
命令が与えられた後、M3-Agentは自動でマルチターン、反復推論を行い、そのタスクを達成するためにメモリから関連情報を検索する。
マルチモーダルエージェントにおけるメモリ効率とメモリベース推論を評価するため,M3-Benchという長ビデオ質問応答ベンチマークを開発した。
M3-Benchは、ロボットの視点から捉えた100の新しい実世界のビデオ(M3-Bench-robot)と、さまざまなシナリオ(M3-Bench-web)にわたる929のWebソースビデオで構成されている。
我々は,人間の理解,一般知識抽出,モーダル間推論など,エージェントアプリケーションに必要な重要な機能をテストするために設計された質問応答ペアについて注釈を付ける。
その結果,M3-Agentは,M3-Bench-robot,M3-Bench-web,VideoMME-longにおいて,Gemini-1.5-pro,GPT-4oを併用し,それぞれ6.7%,7.7%,5.3%の精度を達成した。
我々の研究は、マルチモーダルエージェントをより人間的な長期記憶に進化させ、その実践的設計に関する洞察を提供する。
Model, code and data are available at https://github.com/bytedance-seed/m3-agent
関連論文リスト
- MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - Memory-Centric Embodied Question Answer [39.3863762723862]
EQA(Embodied Question Answering)は、エージェントが文脈に依存した質問に答えるために、環境を自律的に探索し理解することを要求する。
メモリ中心のEQAフレームワークであるMemoryEQAを提案する。
メモリモジュールが他のモジュールと完全に相互作用できないプランナー中心のEQAモデルとは異なり、MemoryEQAはメモリ情報を全てのモジュールにフレキシブルに供給する。
論文 参考訳(メタデータ) (2025-05-20T05:27:57Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
本稿では,長期記憶設計をインデックス化,検索,読解の3段階に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。