PASK: Toward Intent-Aware Proactive Agents with Long-Term Memory
Abstractの概要
本論文は、明示的なプロンプトを待つのではなく、進行中のコンテキストから潜在的なユーザーニーズを推論するストリーミング型プロアクティブAIエージェントのためのパラダイムであるDD-MM-PAS(Demand Detection, Memory Modeling, Proactive Agent System)を提案している。著者らはこのパラダイムをPaskとして具現化し、需要検出のためのIntentFlowストリーミングモデル(Qwen3-30B-A3BをベースにSFTおよびRL訓練を実施)、ワークスペース・ユーザー・グローバルの3階層にまたがる長期記憶システム、および常時稼働デプロイメントを支えるフルシステムインフラを統合している。また、ユーザー同意のもとで収集されたデータから構築され、数千ラウンドの人手編集を経て精緻化された、仕事・学習・日常生活の3ドメインにわたる100の実世界セッション(3,936ターン)からなるベンチマークLatentNeeds-Benchを導入している。実験では、ターンレベルのプロアクティブ需要検出において、IntentFlowを9つのベースラインLLMと比較評価している。
新規性
本論文の主な新規性は、プロアクティブな支援をフルスタックの問題として捉え、ストリーミング需要検出(沈黙・即時介入・完全支援の3つの決定モード)、自己進化型階層的長期記憶、およびシステムレベルのデプロイメントを単一の統合パラダイムで共同的に扱う点にある。また、実世界のマルチターンセッションから人手による精緻化を経て構築された潜在ニーズ検出専用ベンチマークLatentNeeds-Benchの提供、および10万件の合成サンプルによるSFTと2千件の実世界セッションによるRLを組み合わせた意図アライメントのための2段階訓練手法も貢献として挙げられる。
成果
LatentNeeds-Benchにおいて、IntentFlowは最高の総合バランス精度(84.2)を達成し、需要ターンで83.1、非需要ターンで85.2を記録し、Gemini-3-Flash(総合80.8)を上回った一方、需要ターン精度単体ではわずかに及ばなかった(83.1対83.3)。60ターンのマルチラウンド評価では、IntentFlowのバランス精度低下はわずか5.0%(86.1→81.8)であり、GPT-5-Miniの19.0%やGemini-3-Flashの17.3%と比較して安定した性能を維持した。IntentFlowはまた、応答生成モデルの中で最も低いターンあたりレイテンシ(約1.3〜1.5秒)を示し、ユーザースタディでは日常生活場面よりも学習場面でより高い有用性が示唆された。
論文の注目点
- PaskはDD-MM-PASパラダイムを具現化し、IntentFlow(沈黙・即時介入・記憶に基づく完全支援の3つのアクションモードを持つストリーミング需要検出器)、階層的記憶システム(ユーザー・ワークスペース・グローバル)、および常時稼働型プロアクティブエージェントシステムを連携させている。
- IntentFlowは10のベースラインLLMの中でLatentNeeds-Benchにおいて最高のバランス精度(84.2)を達成し、60ターンの会話でも比較的安定した性能を維持(低下わずか5.0%)しつつ、低レイテンシ(ターンあたり約1.3〜1.5秒)で動作する。
- 本ベンチマークは、プロアクティブな意図検出が多くの既存LLMにとって依然として困難であることを明らかにしており、いくつかの強力なモデルでも需要ターン精度が40未満にとどまっており、汎用的な言語能力と明示されていないユーザーニーズを確実に特定する能力との間のギャップが浮き彫りになっている。