論文の概要: Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
- arxiv url: http://arxiv.org/abs/2508.09736v3
- Date: Sun, 28 Sep 2025 06:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.461434
- Title: Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
- Title(参考訳): 長期記憶を持つマルチモーダルエージェントの閲覧, 聴取, 記憶, 推論
- Authors: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li,
- Abstract要約: 本稿では,長期メモリを備えた新しいマルチモーダルエージェントフレームワークであるM3-Agentを紹介する。
M3-Agentは、リアルタイムの視覚的および聴覚的入力を処理し、エピソードおよびセマンティックメモリの構築と更新を行う。
命令が与えられた後、M3-Agentは自動でマルチターン推論を行い、関連するメモリを取得してタスクを完了させる。
- 参考スコア(独自算出の注目度): 18.51609024172195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce M3-Agent, a novel multimodal agent framework equipped with long-term memory. Like humans, M3-Agent can process real-time visual and auditory inputs to build and update episodic and semantic memories, gradually accumulating world knowledge. Its memory is organized in an entity-centric, multimodal manner, enabling deeper and more consistent understanding of the environment. Given an instruction, M3-Agent autonomously performs multi-turn reasoning and retrieves relevant memories to complete tasks. To evaluate memory effectiveness and memory-based reasoning in multimodal agents, we develop M3-Bench, a long-video question answering benchmark comprising 100 newly recorded robot-perspective videos (M3-Bench-robot) and 920 diverse web-sourced videos (M3-Bench-web). We annotate QA pairs designed to test capabilities essential for agent applications, such as person understanding, general knowledge extraction, and cross-modal reasoning. Experimental results show that M3-Agent, trained via reinforcement learning, outperforms the strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o, achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web and VideoMME-long, respectively. Our work advances multimodal agents toward more human-like long-term memory and provides insights for their practical design. Model, code and data are available at https://github.com/bytedance-seed/m3-agent.
- Abstract(参考訳): 本稿では,長期メモリを備えた新しいマルチモーダルエージェントフレームワークであるM3-Agentを紹介する。
人間のように、M3-Agentはリアルタイムで視覚と聴覚の入力を処理し、エピソード記憶と意味記憶を構築し更新し、徐々に世界の知識を蓄積する。
メモリはエンティティ中心のマルチモーダルな方法で構成され、環境をより深く、より一貫した理解を可能にする。
命令が与えられた後、M3-Agentは自動でマルチターン推論を行い、関連するメモリを取得してタスクを完了させる。
マルチモーダルエージェントにおけるメモリ効率とメモリベース推論を評価するため,M3-Bench-web(M3-Bench-robot)とM3-Bench-web(M3-Bench-web)の多種多様なWebソースビデオ(M3-Bench-web)を新たに記録した100のロボットパースペクティブビデオ(M3-Bench-robot)からなる長ビデオ質問応答ベンチマークを開発した。
我々は,人的理解,一般知識抽出,モーダル間推論など,エージェントアプリケーションに必要な機能をテストするために設計されたQAペアについて注釈を付ける。
その結果,M3-Agentは,M3-Bench-robot,M3-Bench-web,VideoMME-longにおいて,Gemini-1.5-pro,GPT-4oを併用し,それぞれ6.7%,7.7%,5.3%の精度を達成した。
我々の研究は、より人間的な長期記憶に向けたマルチモーダルエージェントを推進し、実践的な設計のための洞察を提供する。
モデル、コード、データはhttps://github.com/bytedance-seed/m3-agent.comで入手できる。
関連論文リスト
- MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - Memory-Centric Embodied Question Answer [39.3863762723862]
EQA(Embodied Question Answering)は、エージェントが文脈に依存した質問に答えるために、環境を自律的に探索し理解することを要求する。
メモリ中心のEQAフレームワークであるMemoryEQAを提案する。
メモリモジュールが他のモジュールと完全に相互作用できないプランナー中心のEQAモデルとは異なり、MemoryEQAはメモリ情報を全てのモジュールにフレキシブルに供給する。
論文 参考訳(メタデータ) (2025-05-20T05:27:57Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
本稿では,長期記憶設計をインデックス化,検索,読解の3段階に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。