Fugu-MT 論文翻訳(概要): LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

論文の概要: LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

arxiv url: http://arxiv.org/abs/2603.12152v1
Date: Thu, 12 Mar 2026 16:49:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.232598
Title: LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation
Title（参考訳）: LifeSim:パーソナライズされたアシスタント評価のための長期ユーザーライフシミュレータ
Authors: Feiyu Duan, Xuanjing Huang, Zhongyu Wei,
Abstract要約: LifeSimはユーザ認識をBDI(Belief-Desire-Intention)モデルでモデル化するユーザシミュレータである。 LifeSim-Evalは8つの生命ドメインと1200の多様なシナリオをカバーし、モデルの能力を評価するためにマルチターンインタラクティブメソッドを採用している。
参考スコア（独自算出の注目度）: 63.37419733369833
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of large language models (LLMs) has accelerated progress toward universal AI assistants. However, existing benchmarks for personalized assistants remain misaligned with real-world user-assistant interactions, failing to capture the complexity of external contexts and users' cognitive states. To bridge this gap, we propose LifeSim, a user simulator that models user cognition through the Belief-Desire-Intention (BDI) model within physical environments for coherent life trajectories generation, and simulates intention-driven user interactive behaviors. Based on LifeSim, we introduce LifeSim-Eval, a comprehensive benchmark for multi-scenario, long-horizon personalized assistance. LifeSim-Eval covers 8 life domains and 1,200 diverse scenarios, and adopts a multi-turn interactive method to assess models' abilities to complete explicit and implicit intentions, recover user profiles, and produce high-quality responses. Under both single-scenario and long-horizon settings, our experiments reveal that current LLMs face significant limitations in handling implicit intention and long-term user preference modeling.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩は、ユニバーサルAIアシスタントへの進歩を加速させている。しかし、パーソナライズされたアシスタントのための既存のベンチマークは、外的コンテキストやユーザの認知状態の複雑さを捉えるのに失敗し、現実世界のユーザアシスタントのインタラクションと相容れないままである。このギャップを埋めるため,BDI(Belief-Desire-Intention)モデルを用いてユーザ認知をモデル化し,コヒーレントなライフトラジェクトリを生成するユーザシミュレータLifeSimを提案する。 LifeSimをベースとしたLifeSim-Evalは、マルチシナリオ、長距離パーソナライズされたパーソナライズされた支援のための総合的なベンチマークである。 LifeSim-Evalは8つの生命ドメインと1200の多様なシナリオをカバーし、モデルが明示的で暗黙的な意図を完了し、ユーザプロファイルを回復し、高品質な応答を生成する能力を評価するためのマルチターン対話的手法を採用している。本実験では,従来のLLMでは,暗黙的意図と長期的ユーザの嗜好モデリングに重大な制約が課されていることを明らかにした。

関連論文リスト

Mind the Sim2Real Gap in User Simulation for Agentic Tasks [101.69142591891234]
ユーザシミュレーションにおけるSim2Realのギャップを形式化し、実際の人間に対して$$$-benchプロトコルを実行する最初の研究を示す。 LLMシミュレータは過度に協調的であり、スタイリスティックに均一であり、現実的なフラストレーションや曖昧さを欠いている。これらの知見は, LLMベースのユーザシミュレータをエージェント開発サイクルで使用する際の人間による検証の重要性を強調した。
論文参考訳（メタデータ） (2026-03-11T19:12:31Z)
HumanLM: Simulating Users with State Alignment Beats Response Imitation [84.89761487596844]
本稿では,実際のユーザを正確に反映したユーザシミュレータを構築する新しいトレーニングフレームワークHumanLMを提案する。 HumanLMは、強化学習を通じて、地道的な応答に一致した自然言語の潜伏状態を生成する。本研究では,公開データに基づく実ユーザシミュレーションのための総合的なベンチマークであるHumanualを開発する。
論文参考訳（メタデータ） (2026-02-07T20:26:28Z)
HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文参考訳（メタデータ） (2025-03-18T13:05:55Z)
Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。 USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
論文参考訳（メタデータ） (2025-02-26T09:26:54Z)
User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文参考訳（メタデータ） (2023-06-05T02:58:35Z)
Sim2Rec: A Simulator-based Decision-making Approach to Optimize Real-World Long-term User Engagement in Sequential Recommender Systems [43.31078296862647]
逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は強化学習(RL)に適している RLには欠点があり、特に探索には多数のオンラインサンプルが必要である。シミュレーション・ツー・レコメンデーション(Sim2Rec)というシミュレーターベースの推奨ポリシートレーニング手法を提案する。
論文参考訳（メタデータ） (2023-05-03T19:21:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。