論文の概要: Evaluating Memory Capability in Continuous Lifelog Scenario
- arxiv url: http://arxiv.org/abs/2604.11182v1
- Date: Mon, 13 Apr 2026 08:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.435074
- Title: Evaluating Memory Capability in Continuous Lifelog Scenario
- Title(参考訳): 継続的ライフサイクルシナリオにおけるメモリ能力の評価
- Authors: Jianjie Zheng, Zhichen Liu, Zhanyu Shen, Jingxiang Qu, Guanhua Chen, Yile Wang, Yang Xu, Yang Liu, Sijie Cheng,
- Abstract要約: 既存のベンチマークは主に、オンラインの1対1チャットや人間とAIのインタラクションに焦点を当てている。
textbftextscLifeDialBenchをキュレートするための階層型合成フレームワークを提案する。
現在の高度なメモリシステムは、単純なRAGベースのベースラインを上回りません。
- 参考スコア(独自算出の注目度): 18.42798691109198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, wearable devices can continuously lifelog ambient conversations, creating substantial opportunities for memory systems. However, existing benchmarks primarily focus on online one-on-one chatting or human-AI interactions, thus neglecting the unique demands of real-world scenarios. Given the scarcity of public lifelogging audio datasets, we propose a hierarchical synthesis framework to curate \textbf{\textsc{LifeDialBench}}, a novel benchmark comprising two complementary subsets: \textbf{EgoMem}, built on real-world egocentric videos, and \textbf{LifeMem}, constructed using simulated virtual community. Crucially, to address the issue of temporal leakage in traditional offline settings, we propose an \textbf{Online Evaluation} protocol that strictly adheres to temporal causality, ensuring systems are evaluated in a realistic streaming fashion. Our experimental results reveal a counterintuitive finding: current sophisticated memory systems fail to outperform a simple RAG-based baseline. This highlights the detrimental impact of over-designed structures and lossy compression in current approaches, emphasizing the necessity of high-fidelity context preservation for lifelog scenarios. We release our code and data at https://github.com/qys77714/LifeDialBench.
- Abstract(参考訳): 現在、ウェアラブルデバイスは周囲の会話を継続的に記録し、メモリシステムにとって大きなチャンスを生み出している。
しかし、既存のベンチマークは主にオンライン1対1のチャットや人間とAIのインタラクションに焦点を当てており、現実世界のシナリオのユニークな要求を無視している。
実世界のエゴセントリックなビデオ上に構築された \textbf{EgoMem} とシミュレートされた仮想コミュニティを用いて構築された \textbf{LifeMem} という2つの補完的なサブセットからなる新しいベンチマークである \textbf{\textsc{LifeDialBench}} をキュレートする階層的合成フレームワークを提案する。
従来型のオフライン環境での時間的リーク問題に対処するため,時間的因果性に厳格に準拠し,現実的なストリーミング方式でシステム評価を行うためのプロトコル「textbf{Online Evaluation}」を提案する。
現在の高度なメモリシステムは、単純なRAGベースのベースラインを上回りません。
これは、過度に設計された構造と、現在のアプローチにおける損失のある圧縮による有害な影響を強調し、ライフログシナリオにおける高忠実度コンテキスト保存の必要性を強調している。
コードとデータはhttps://github.com/qys77714/LifeDialBench.comで公開しています。
関連論文リスト
- AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks [96.60530830276281]
RuleSafeは、スケーラブルなLLM支援シミュレーションフレームワーク上に構築された、新しいオペレーティングベンチマークである。
VQ-Memoryはベクトル量子化変分オートエンコーダを用いたコンパクトで構造化された時間表現である。
論文 参考訳(メタデータ) (2026-03-10T11:13:54Z) - Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues [27.69314585543646]
textbfProStreamは,ストリーム対話のためのアクティブな階層型メモリフレームワークである。
マルチグラニュラー蒸留による連続ストリームを推論することで、オンデマンドでのアドホックメモリリコールを可能にする。
実験によると、ProStreamは精度と効率の両方でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-05T07:25:25Z) - LifeBench: A Benchmark for Long-Horizon Multi-Source Memory [22.24847456134897]
本稿では,密結合型長距離イベントシミュレーションを特徴とするLifebenchを紹介する。
Lifebenchは、AIエージェントを単純なリコールを超えて、宣言的および宣言的でないメモリ推論の統合を必要とする。
性能評価の結果、最先端の最先端のメモリシステムは55.2%の精度にしか達していない。
論文 参考訳(メタデータ) (2026-03-04T06:42:17Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents [19.76627324918285]
我々は,cue-trigger セマンティック・ディコネクションの下で認知記憶を評価するためのベンチマークである textbfLoCoMo-Plus を紹介する。
従来の文字列マッチングの指標と明示的なタスクタイププロンプトが,このようなシナリオと一致していないことを示す。
多様なバックボーンモデル、検索ベースの方法、メモリシステムによる実験は、認知記憶が依然として困難であることを証明している。
論文 参考訳(メタデータ) (2026-02-11T10:22:35Z) - FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse [4.210760734549566]
FlashMemは、計算再利用を通じて、過渡的推論状態から直接固有のメモリを蒸留するフレームワークである。
実験によると、FlashMemは5倍の推論遅延を減らしながら、重いベースラインのパフォーマンスと一致している。
論文 参考訳(メタデータ) (2026-01-09T03:27:43Z) - SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation [29.545442480332515]
プリコンパイルされたリンクではなく静的を超越する統一メモリアーキテクチャであるSynapseを紹介する。
この結果から,Synapseは時間的およびマルチホップの複雑な推論タスクにおいて,最先端の手法を著しく上回ることがわかった。
私たちのコードとデータは受け入れ次第公開されます。
論文 参考訳(メタデータ) (2026-01-06T06:19:58Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。