論文の概要: M2A: Multimodal Memory Agent with Dual-Layer Hybrid Memory for Long-Term Personalized Interactions
- arxiv url: http://arxiv.org/abs/2602.07624v1
- Date: Sat, 07 Feb 2026 17:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.727855
- Title: M2A: Multimodal Memory Agent with Dual-Layer Hybrid Memory for Long-Term Personalized Interactions
- Title(参考訳): M2A:長期パーソナライズされたインタラクションのための2層ハイブリッドメモリを用いたマルチモーダルメモリエージェント
- Authors: Junyu Feng, Binxiao Xu, Jiayi Chen, Mengyu Dai, Cenyang Wu, Haodong Li, Bohan Zeng, Yunliu Xie, Hao Liang, Ming Lu, Wentao Zhang,
- Abstract要約: M2Aは、オンライン更新を通じてパーソナライズされたマルチモーダル情報を保持するエージェント二重層ハイブリッドメモリシステムである。
ChatAgentはユーザーインタラクションを管理し、メモリの問い合わせや更新のタイミングを自律的に決定する。
MemoryManagerは、ChatAgentからのメモリ要求を2層メモリバンクの詳細な操作に分解する。
- 参考スコア(独自算出の注目度): 29.497569352308037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the challenge of personalized question answering in long-term human-machine interactions: when conversational history spans weeks or months and exceeds the context window, existing personalization mechanisms struggle to continuously absorb and leverage users' incremental concepts, aliases, and preferences. Current personalized multimodal models are predominantly static-concepts are fixed at initialization and cannot evolve during interactions. We propose M2A, an agentic dual-layer hybrid memory system that maintains personalized multimodal information through online updates. The system employs two collaborative agents: ChatAgent manages user interactions and autonomously decides when to query or update memory, while MemoryManager breaks down memory requests from ChatAgent into detailed operations on the dual-layer memory bank, which couples a RawMessageStore (immutable conversation log) with a SemanticMemoryStore (high-level observations), providing memories at different granularities. In addition, we develop a reusable data synthesis pipeline that injects concept-grounded sessions from Yo'LLaVA and MC-LLaVA into LoCoMo long conversations while preserving temporal coherence. Experiments show that M2A significantly outperforms baselines, demonstrating that transforming personalization from one-shot configuration to a co-evolving memory mechanism provides a viable path for high-quality individualized responses in long-term multimodal interactions. The code is available at https://github.com/Little-Fridge/M2A.
- Abstract(参考訳): 会話履歴が数週間から数ヶ月にわたってコンテキストウィンドウを超えた場合、既存のパーソナライゼーションメカニズムは、ユーザの漸進的概念、エイリアス、嗜好を継続的に吸収し活用するのに苦労する。
現在のパーソナライズされたマルチモーダルモデルは、主に初期化時に固定された静的概念であり、相互作用の間は進化できない。
オンライン更新を通じてパーソナライズされたマルチモーダル情報を保持するエージェント二重層ハイブリッドメモリシステムであるM2Aを提案する。
ChatAgentはユーザのインタラクションを管理し、メモリのクエリや更新のタイミングを自律的に決定する一方で、MemoryManagerはChatAgentからのメモリ要求を2層メモリバンクの詳細な操作に分解する。
また, 時間的コヒーレンスを保ちながら, Yo'LLaVA と MC-LLaVA のセッションを LoCoMo の長い会話に注入する再利用可能なデータ合成パイプラインを開発した。
実験により、M2Aはベースラインを著しく上回り、ワンショット構成からコ進化するメモリ機構へのパーソナライゼーションが、長期的なマルチモーダル相互作用における高品質な個別化応答の実行可能なパスを提供することを示した。
コードはhttps://github.com/Little-Fridge/M2Aで入手できる。
関連論文リスト
- OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents [55.27061195244624]
オーバーパーソナライゼーションを3つのタイプに分類する。
エージェントは不要な場合でも、ユーザメモリを取得およびオーバーアタッチする傾向があります。
我々の研究は、メモリ拡張対話システムにおいて、より制御可能で適切なパーソナライズに向けた最初の一歩を踏み出した。
論文 参考訳(メタデータ) (2026-01-20T08:27:13Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - HiMeS: Hippocampus-inspired Memory System for Personalized AI Assistants [7.477189210398971]
短期記憶と長期記憶を融合したAI補助アーキテクチャであるHiMeSを提案する。
短期記憶と長期記憶を融合したAI補助アーキテクチャであるHiMeSを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:05:50Z) - Memoria: A Scalable Agentic Memory Framework for Personalized Conversational AI [0.6840655769002751]
エージェントメモリは大規模言語モデル(LLM)のキーイネーブラーとして登場しつつある
我々は,LLMベースの会話システムを永続的,解釈可能,コンテキストに富んだメモリで拡張するモジュール型メモリフレームワークであるMemoriaを紹介する。
我々は、ステートレスLLMインタフェースとエージェントメモリシステムとのギャップを埋めることで、Memoriaがスケーラブルでパーソナライズされた対話型人工知能(AI)を実現する方法を実証する。
論文 参考訳(メタデータ) (2025-12-14T13:38:06Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - MemoryBank: Enhancing Large Language Models with Long-Term Memory [7.654404043517219]
本稿では,大規模言語モデルに適した新しいメモリ機構であるMemoryBankを提案する。
MemoryBankは、モデルが関連するメモリを呼び出し、継続的なメモリ更新を通じて継続的に進化し、過去のインタラクションから情報を合成することで、ユーザの個性に適応することを可能にする。
論文 参考訳(メタデータ) (2023-05-17T14:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。