VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions
Abstractの概要
VitaBench 2.0は、長期的なユーザーインタラクションにおけるエージェントのパーソナライズされたプロアクティブな(主体的な)行動を評価するためのベンチマークである。複数のドメインにわたる個々のユーザーに対して、タスクを時間順のシーケンスとして編成し、ユーザーの好みは明示的な指示ではなく、断片的な対話や行動履歴の中に組み込まれている。また、制御された条件下で様々なメモリ構造を比較できるように、拡張可能なメモリインターフェースも含まれている。オープンおよびプロプライエタリな幅広いモデルを用いた調査の結果、現在のエージェントは現実的な状況下で変化するユーザーの好みを推論、保持、適用することに依然として苦労していることが判明した。
新規性
本論文の主要な新規性は、受動的なテキストのみの設定ではなく、実行可能なタスク環境において、パーソナライゼーション、プロアクティブな情報収集、および長期的なエージェントの行動を統合的に評価するベンチマークを提案した点にある。さらに、時間の経過に伴うパーソナライズされた意思決定において、エージェント型メモリとRAG型のメモリを比較するための制御されたメモリインターフェースを導入している点も新しい。
成果
実験により、完全なインタラクション履歴が利用可能な場合でもパフォーマンスは限定的であり、最先端のモデルでさえ実世界におけるパーソナライゼーションは依然として困難であることが示された。メモリは重要であるが、完全なコンテキストへのアクセスと比較するとパフォーマンスを低下させることが多く、推論モードや思考モードを有効にしてもパーソナライゼーションが一貫して向上するわけではない。さらに分析では、プロアクティブなタスクは標準的なパーソナライゼーションタスクよりも困難であり、好みの把握に関連する失敗が主要なボトルネックであることが示されている。
論文の注目点
- VitaBench 2.0は、断片的なインタラクションから好みを抽出し、更新し、活用する必要がある、長期的なユーザー中心のタスクシーケンスにおいてエージェントを評価する。
- このベンチマークは、56人のユーザー、2,000以上の手動で収集された好み、3つのドメイン、66のツールを網羅しており、エージェント型およびRAGベースの双方のメモリ設定をサポートしている。
- 実証的結果により、特に長い対話履歴やプロアクティブな意思決定が求められる条件下においては、単なるツールの使用ではなくパーソナライゼーションこそが、現在のエージェントの主な制限要因であることが示されている。
参考リンク
- arXiv: https://arxiv.org/abs/2605.27141v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.27141v1
- Hugging Face Papers: https://huggingface.co/papers/2605.27141