論文の概要: VehicleMemBench: An Executable Benchmark for Multi-User Long-Term Memory in In-Vehicle Agents
- arxiv url: http://arxiv.org/abs/2603.23840v1
- Date: Wed, 25 Mar 2026 01:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.084456
- Title: VehicleMemBench: An Executable Benchmark for Multi-User Long-Term Memory in In-Vehicle Agents
- Title(参考訳): VehicleMemBench: 車載エージェントのマルチユーザ長期メモリのための実行可能なベンチマーク
- Authors: Yuhao Chen, Yi Xu, Xinyun Ding, Xiang Fang, Shuochen Liu, Luxi Lin, Qingyu Zhang, Ya Li, Quan Liu, Tong Xu,
- Abstract要約: 車両をベースとしたエージェントは、単純なアシスタントから長期のコンパニオンへと進化している。
既存のベンチマークでは、好みの時間的進化と、実車環境のマルチユーザ、ツール-インタラクティブな性質を捉えられていない。
本稿では,車内シミュレーション環境上に構築されたマルチユーザ長コンテキストメモリベンチマークであるVabyMemBenchを紹介する。
- 参考スコア(独自算出の注目度): 26.570500371051903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing demand for intelligent in-vehicle experiences, vehicle-based agents are evolving from simple assistants to long-term companions. This evolution requires agents to continuously model multi-user preferences and make reliable decisions in the face of inter-user preference conflicts and changing habits over time. However, existing benchmarks are largely limited to single-user, static question-answer settings, failing to capture the temporal evolution of preferences and the multi-user, tool-interactive nature of real vehicle environments. To address this gap, we introduce VehicleMemBench, a multi-user long-context memory benchmark built on an executable in-vehicle simulation environment. The benchmark evaluates tool use and memory by comparing the post-action environment state with a predefined target state, enabling objective and reproducible evaluation without LLM-based or human scoring. VehicleMemBench includes 23 tool modules, and each sample contains over 80 historical memory events. Experiments show that powerful models perform well on direct instruction tasks but struggle in scenarios involving memory evolution, particularly when user preferences change dynamically. Even advanced memory systems struggle to handle domain-specific memory requirements in this environment. These findings highlight the need for more robust and specialized memory management mechanisms to support long-term adaptive decision-making in real-world in-vehicle systems. To facilitate future research, we release the data and code.
- Abstract(参考訳): インテリジェントな車内体験の需要が高まる中、車載エージェントは単純なアシスタントから長期的な仲間へと進化している。
この進化には、複数のユーザの嗜好を継続的にモデル化し、ユーザ間の嗜好の対立や時間の経過とともに習慣の変化に直面した上で、信頼できる決定を行うエージェントが必要である。
しかし、既存のベンチマークは、主にシングルユーザ、静的な質問応答設定に限られており、好みの時間的進化と、実際の車両環境のマルチユーザ、ツール-インタラクティブな性質を捉えていない。
そこで本研究では,車載シミュレーション環境上に構築されたマルチユーザ長コンテキストメモリベンチマークであるVabyMemBenchを紹介する。
このベンチマークは、動作後の環境状態を予め定義された目標状態と比較することにより、ツールの使用と記憶を評価し、LCMベースや人間スコアを使わずに、客観的かつ再現可能な評価を可能にする。
VehicleMemBenchには23のツールモジュールがあり、各サンプルには80以上の履歴メモリイベントが含まれている。
実験によると、強力なモデルは直接命令タスクでうまく機能するが、特にユーザの好みが動的に変化する場合、記憶の進化を伴うシナリオで苦労する。
高度なメモリシステムでさえ、この環境でドメイン固有のメモリ要件を扱うのに苦労する。
これらの知見は,車載システムにおける長期適応意思決定を支援するため,より堅牢で特殊なメモリ管理機構の必要性を浮き彫りにしている。
今後の研究を容易にするため、私たちはデータとコードを公開します。
関連論文リスト
- PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments [72.02445514666428]
静的な嗜好リコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを紹介する。
PerMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。
実験により、関連するインタラクションをリンクすることで、高度なメモリシステムはより正確な好みを抽出し、トークン消費を減らすことができることが示された。
論文 参考訳(メタデータ) (2026-03-24T14:04:11Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations [61.6579785305668]
AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。
我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
論文 参考訳(メタデータ) (2026-03-02T15:15:11Z) - Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents [20.357475946040054]
textscMem2ActBenchは、エージェントがツールベースのアクションを実行するために長期的なメモリを積極的に活用できるかどうかを評価するベンチマークである。
リバースジェネレーション法は400のツール使用タスクを生成し、ヒトの評価は91.3%が強いメモリ依存であることを確認した。
論文 参考訳(メタデータ) (2026-01-13T06:22:32Z) - RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction [21.670389104174536]
RealMem**は、現実的なプロジェクトのシナリオに基礎を置いた最初のベンチマークです。
RealMemは11つのシナリオにわたる2,000以上のクロスセッション対話で構成され、評価に自然なユーザクエリを利用する。
本稿では,メモリの動的進化をシミュレートするために,Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory synthesis and Schedule Managementを統合するパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-11T15:49:36Z) - MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments [6.12783571098263]
MEMTRACKは、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマークである。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
ベンチマークでは、取得、選択、競合解決などのメモリ機能をテストしています。
論文 参考訳(メタデータ) (2025-10-01T18:34:03Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。