論文の概要: LifeSide: Benchmarking Agents as Lifelong Digital Companions
- arxiv url: http://arxiv.org/abs/2606.04660v1
- Date: Wed, 03 Jun 2026 09:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 07:07:40.484939
- Title: LifeSide: Benchmarking Agents as Lifelong Digital Companions
- Title(参考訳): LifeSide: 生涯デジタルコンパニオンとしてのベンチマークエージェント
- Authors: Yuqian Wu, Zhijie Deng, Wei Chen, Junwei Li, Yutian Jiang, Junle Chen, Zhengjun Huang, Qingxiang Liu, Jing Tang, Jiaheng Wei, Yuxuan Liang,
- Abstract要約: ベンチマークはマルチセッションのtextitMemory-Emotion-Environmentループを中心としたベンチマークである。
階層化されたプロファイルとイベントトラジェクトリを持つ永続的な世界としてユーザをモデル化することで、ベンチマークはマルチエージェントシミュレーションを使用して、環境ダイナミクスを対話に投影する。
現在のメモリベンチマークを飽和させるモデルでさえ、正確なユーザ理解と真の相性を維持することができず、長い地平線上での真の相性を維持することができません。
- 参考スコア(独自算出の注目度): 47.43438363687746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lifelong digital companions must integrate cross-session cues, continually update their understanding of users, and adapt to shifting privacy boundaries. Existing evaluations fail to capture this, testing memory recall and short-term empathy in isolation. To bridge this gap, we introduce \benchmark, a benchmark centered on multi-session \textit{Memory-Emotion-Environment} loops. By modeling users as persistent worlds with layered profiles and event trajectories, \benchmark uses multi-agent simulation to project environmental dynamics into dialogue, preserving the critical gap between latent thoughts and observable expressions. Evaluating 2,000 personas and 111K tasks across memory tracking, user understanding, privacy control, and emotional companionship, our experiment results reveal a stark reality: even models that saturate current memory benchmarks fail to sustain accurate user understanding and true companionship over long horizons.
- Abstract(参考訳): 生涯にわたるデジタルコンパニオンは、クロスセッションの手段を統合し、ユーザに対する理解を継続的に更新し、プライバシー境界のシフトに適応する必要があります。
既存の評価では、これをキャプチャできず、メモリリコールと短期的な共感を分離してテストする。
このギャップを埋めるために、マルチセッション \textit{Memory-Emotion-Environment} ループを中心としたベンチマークである \benchmark を導入する。
階層化されたプロファイルとイベントトラジェクトリを持つ永続的な世界としてユーザをモデル化することで、Shabenchmarkはマルチエージェントシミュレーションを使用して、環境ダイナミクスを対話に投影し、潜在思考と観測可能な表現の間に重要なギャップを保存する。
メモリトラッキングやユーザ理解,プライバシコントロール,感情的なコンパニオンシップといった,2,000のペルソナと111Kタスクの評価結果から,現在のメモリベンチマークを飽和させたモデルでさえ,長い地平線上で正確なユーザ理解と真のコンパニオンを維持できないという,極めて現実的な結果が得られました。
関連論文リスト
- PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments [72.02445514666428]
静的な嗜好リコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを紹介する。
PerMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。
実験により、関連するインタラクションをリンクすることで、高度なメモリシステムはより正確な好みを抽出し、トークン消費を減らすことができることが示された。
論文 参考訳(メタデータ) (2026-03-24T14:04:11Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - LifeBench: A Benchmark for Long-Horizon Multi-Source Memory [22.24847456134897]
本稿では,密結合型長距離イベントシミュレーションを特徴とするLifebenchを紹介する。
Lifebenchは、AIエージェントを単純なリコールを超えて、宣言的および宣言的でないメモリ推論の統合を必要とする。
性能評価の結果、最先端の最先端のメモリシステムは55.2%の精度にしか達していない。
論文 参考訳(メタデータ) (2026-03-04T06:42:17Z) - RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction [21.670389104174536]
RealMem**は、現実的なプロジェクトのシナリオに基礎を置いた最初のベンチマークです。
RealMemは11つのシナリオにわたる2,000以上のクロスセッション対話で構成され、評価に自然なユーザクエリを利用する。
本稿では,メモリの動的進化をシミュレートするために,Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory synthesis and Schedule Managementを統合するパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-11T15:49:36Z) - MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments [6.12783571098263]
MEMTRACKは、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマークである。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
ベンチマークでは、取得、選択、競合解決などのメモリ機能をテストしています。
論文 参考訳(メタデータ) (2025-10-01T18:34:03Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。