論文の概要: EgoMem: Lifelong Memory Agent for Full-duplex Omnimodal Models
- arxiv url: http://arxiv.org/abs/2509.11914v1
- Date: Mon, 15 Sep 2025 13:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.309418
- Title: EgoMem: Lifelong Memory Agent for Full-duplex Omnimodal Models
- Title(参考訳): EgoMem: フル二重モードモデルのための生涯記憶エージェント
- Authors: Yiqun Yao, Naitong Yu, Xiang Li, Xin Jiang, Xuezhi Fang, Wenjia Ma, Xuying Meng, Jing Li, Aixin Sun, Yequan Wang,
- Abstract要約: EgoMemは、リアルタイムのOmnimodalストリーム用に調整された生涯記憶エージェントである。
本システムは,リアルタイムのパーソナライズダイアログにおいて,事実一貫性スコアを87%以上達成する。
- 参考スコア(独自算出の注目度): 40.712154207072594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce EgoMem, the first lifelong memory agent tailored for full-duplex models that process real-time omnimodal streams. EgoMem enables real-time models to recognize multiple users directly from raw audiovisual streams, to provide personalized response, and to maintain long-term knowledge of users' facts, preferences, and social relationships extracted from audiovisual history. EgoMem operates with three asynchronous processes: (i) a retrieval process that dynamically identifies user via face and voice, and gathers relevant context from a long-term memory; (ii) an omnimodal dialog process that generates personalized audio responses based on the retrieved context; and (iii) a memory management process that automatically detects dialog boundaries from omnimodal streams, and extracts necessary information to update the long-term memory. Unlike existing memory agents for LLMs, EgoMem relies entirely on raw audiovisual streams, making it especially suitable for lifelong, real-time, and embodied scenarios. Experimental results demonstrate that EgoMem's retrieval and memory management modules achieve over 95% accuracy on the test set. When integrated with a fine-tuned RoboEgo omnimodal chatbot, the system achieves fact-consistency scores above 87% in real-time personalized dialogs, establishing a strong baseline for future research.
- Abstract(参考訳): EgoMemは、実時間オムニモーダルストリームを処理するフル二重モデルに適した、最初の生涯記憶エージェントである。
EgoMemは、リアルタイムモデルにより、生のオーディオヴィジュアルストリームから直接複数のユーザーを認識でき、パーソナライズされた応答を提供し、オーディオヴィジュアル履歴から抽出されたユーザの事実、好み、社会的関係に関する長期的な知識を維持することができる。
EgoMemは3つの非同期プロセスで動作します。
一 ユーザを顔と声で動的に識別し、長期記憶から関連するコンテキストを収集する検索方法
二 検索した文脈に基づいてパーソナライズされた音声応答を生成する全方位対話処理
三 オールニモーダルストリームからダイアログ境界を自動的に検出し、長期記憶を更新するための必要な情報を抽出するメモリ管理プロセス。
LLMの既存のメモリエージェントとは異なり、EgoMemは完全に生のオーディオヴィジュアル・ストリームに依存しており、特に寿命、リアルタイム、エンボディのシナリオに適している。
実験の結果,EgoMemの検索およびメモリ管理モジュールはテストセットで95%以上精度が得られた。
微調整されたRoboEgo omnimodalチャットボットと統合すると、リアルタイムパーソナライズされたダイアログの事実一貫性スコアが87%を超え、将来の研究の強力なベースラインを確立する。
関連論文リスト
- Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
本稿では,長期記憶設計をインデックス化,検索,読解の3段階に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - A Full-duplex Speech Dialogue Scheme Based On Large Language Models [23.994130020644842]
シームレスな対話を可能にする 生成生成対話システムです
システムは問い合わせ応答のためのトークンを生成し、ユーザを待ち、あるいは操作するために自律的な決定を行う。
論文 参考訳(メタデータ) (2024-05-29T20:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。