論文の概要: ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices
- arxiv url: http://arxiv.org/abs/2602.21858v1
- Date: Wed, 25 Feb 2026 12:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.834502
- Title: ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices
- Title(参考訳): ProactiveMobile: モバイルデバイスのプロアクティブインテリジェンス向上のための総合ベンチマーク
- Authors: Dezhi Kong, Zhengzhao Feng, Qiliang Liang, Hao Wang, Haofei Sun, Changpeng Yang, Yang Li, Peng Zhou, Shuai Nie, Hongzhen Wang, Linfeng Zhou, Hao Jia, Jiaming Xu, Runyu Shi, Ying Huang,
- Abstract要約: 本稿では,プロアクティブなモバイルエージェント開発のためのベンチマークであるProactiveMobileを紹介する。
プロアクティブタスクは、デバイス上のコンテキスト信号の4次元にわたる潜在ユーザ意図を推測するものとして形式化されている。
このベンチマークは成功率19.15%で、実験ではo1 (15.71%) と GPT-5 (7.39%) を上回っている。
- 参考スコア(独自算出の注目度): 17.39388308538324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) have made significant progress in mobile agent development, yet their capabilities are predominantly confined to a reactive paradigm, where they merely execute explicit user commands. The emerging paradigm of proactive intelligence, where agents autonomously anticipate needs and initiate actions, represents the next frontier for mobile agents. However, its development is critically bottlenecked by the lack of benchmarks that can address real-world complexity and enable objective, executable evaluation. To overcome these challenges, we introduce ProactiveMobile, a comprehensive benchmark designed to systematically advance research in this domain. ProactiveMobile formalizes the proactive task as inferring latent user intent across four dimensions of on-device contextual signals and generating an executable function sequence from a comprehensive function pool of 63 APIs. The benchmark features over 3,660 instances of 14 scenarios that embrace real-world complexity through multi-answer annotations. To ensure quality, a team of 30 experts conducts a final audit of the benchmark, verifying factual accuracy, logical consistency, and action feasibility, and correcting any non-compliant entries. Extensive experiments demonstrate that our fine-tuned Qwen2.5-VL-7B-Instruct achieves a success rate of 19.15%, outperforming o1 (15.71%) and GPT-5 (7.39%). This result indicates that proactivity is a critical competency widely lacking in current MLLMs, yet it is learnable, emphasizing the importance of the proposed benchmark for proactivity evaluation.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)はモバイルエージェント開発において大きな進歩を遂げているが、その能力は主にリアクティブパラダイムに限られており、明示的なユーザコマンドを実行するだけである。
エージェントが自律的に要求を予測し、行動を開始する、プロアクティブインテリジェンス(proactive intelligence)の新たなパラダイムは、モバイルエージェントの次のフロンティアを表している。
しかし、その開発は、現実世界の複雑さに対処し、客観的で実行可能な評価を可能にするベンチマークの欠如によって、非常にボトルネックになっている。
これらの課題を克服するために,この領域の研究を体系的に進めるための総合的なベンチマークであるProactiveMobileを紹介した。
ProactiveMobileは、プロアクティブタスクを、デバイス上のコンテキスト信号の4次元にわたって潜在ユーザ意図を推測し、63のAPIからなる包括的な関数プールから実行可能な関数シーケンスを生成するものとして定式化している。
このベンチマークでは、マルチアンサーアノテーションを通じて現実の複雑さを受け入れる14のシナリオの3,660以上のインスタンスを特徴としている。
品質を保証するため、30人の専門家のチームがベンチマークの最終監査を行い、事実の正確性、論理的一貫性、アクション実現性を検証するとともに、非準拠のエントリを修正する。
Qwen2.5-VL-7B-インストラクトが19.15%, O1 (15.71%) と GPT-5 (7.39%) を上回った。
この結果から,現行のMLLMでは,プロアクティビティが欠如していることが示唆されるが,プロアクティビティ評価のためのベンチマークの重要性を強調して学習可能である。
関連論文リスト
- AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild [30.138230316314534]
本稿では,一方向の指示から双方向の意図のアライメントへ評価をシフトするために,指示明細の分類を取り入れた最初のベンチマークであるAmbiBenchを紹介する。
厳密なレビュープロトコルの下で,25のアプリケーションにまたがる240の生態学的に有効なタスクの厳密なデータセットを構築した。
また,MLLM-as-a-judgeマルチエージェントアーキテクチャを利用した自動フレームワークであるMUSEを開発した。
論文 参考訳(メタデータ) (2026-02-12T09:25:15Z) - Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration [72.84714132070404]
受動的相互作用から視覚環境の能動的探索に移行する枠組みを提案する。
Active-Zeroでは,3つの共進化エージェントが採用されている。 モデルの機能フロンティアに基づいて,オープンワールドリポジトリからイメージを取得する検索だ。
12ベンチマークにわたるQwen2.5-VL-7B-インストラクションについて : Active-Zero 53.97 における推論タスクの平均精度(5.7%の改善)と一般理解における 59.77 について(3.9%の改善)
論文 参考訳(メタデータ) (2026-02-11T17:29:17Z) - DrawingBench: Evaluating Spatial Reasoning and UI Interaction Capabilities of Large Language Models through Mouse-Based Drawing Tasks [10.977990951788422]
DrawingBenchはエージェントLLMの信頼性を評価するための検証フレームワークである。
我々のフレームワークは、20のカテゴリに250の多様なプロンプトと4つの難易度から構成されている。
我々は1000回の試験で4つの最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-12-01T01:18:21Z) - Beyond Reactivity: Measuring Proactive Problem Solving in LLM Agents [3.0745879700441385]
PROBEは3つのコア機能のパイプラインとして活性を分解する。
GPT-5とClaude Opus-4.1の両方で、40%の最高のエンドツーエンドパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-22T17:00:45Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。