論文の概要: PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents
- arxiv url: http://arxiv.org/abs/2603.08013v1
- Date: Mon, 09 Mar 2026 06:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.60603
- Title: PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents
- Title(参考訳): PIRA-Bench: リアクティブGUIエージェントからGUIベースのProactive Intent Recommendationエージェントへの移行
- Authors: Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li,
- Abstract要約: PIRA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、連続的、弱い教師付き視覚入力で評価するための新しいベンチマークである。
本稿では,複数のタスクスレッドを管理し,誤った視覚的入力を処理する汎用MLLMを実現する,メモリ対応の状態追跡フレームワークであるPIRFベースラインを提案する。
- 参考スコア(独自算出の注目度): 32.98769345205729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Graphical User Interface (GUI) agents operate primarily under a reactive paradigm: a user must provide an explicit instruction for the agent to execute a task. However, an intelligent AI assistant should be proactive, which is capable of anticipating user intentions directly from continuous visual inputs, such as mobile or desktop screenshots, and offering timely recommendations without explicit user prompting. Transitioning to this proactive paradigm presents significant challenges. Real-world screen activity is rarely linear; it consists of long-horizon trajectories fraught with noisy browsing, meaningless actions, and multithreaded task-switching. To address this gap, we introduce PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), a novel benchmark for evaluating multimodal large language models (MLLMs) on continuous, weakly-supervised visual inputs. Unlike reactive datasets, PIRA-Bench features complex trajectories with multiple interleaved intents and noisy segments with various user profile contexts, challenging agents to detect actionable events while fitting to user preferences. Furthermore, we propose the PIRF baseline, a memory-aware, state-tracking framework that empowers general MLLMs to manage multiple task threads and handle misleading visual inputs. PIRA-Bench serves as an initial step toward robust and proactive GUI-based personal assistants.
- Abstract(参考訳): 現在のグラフィカルユーザインタフェース(GUI)エージェントは、主にリアクティブパラダイムの下で動作します。
しかし、インテリジェントなAIアシスタントは、モバイルやデスクトップのスクリーンショットのような連続的な視覚的な入力から直接ユーザの意図を予測でき、明示的なユーザープロンプトなしでタイムリーなレコメンデーションを提供する。
このプロアクティブパラダイムへの移行は、大きな課題を提示します。
現実のスクリーンアクティビティは、しばしば線形であり、ノイズの多いブラウジング、意味のないアクション、マルチスレッドタスクスイッチングによって引き起こされた長い水平軌跡で構成されている。
PIRA-Bench(Proactive Intent Recommendation Agent Benchmark)は,マルチモーダルな大規模言語モデル(MLLM)を連続的かつ弱教師付き視覚入力上で評価するための新しいベンチマークである。
リアクティブデータセットとは異なり、PIRA-Benchは複数のインターリーブされた意図を持つ複雑なトラジェクトリと、さまざまなユーザプロファイルコンテキストを持つノイズの多いセグメントを備えている。
さらに,メモリを意識した状態追跡フレームワークであるPIRFベースラインを提案する。
PIRA-Benchは、堅牢でプロアクティブなGUIベースのパーソナルアシスタントへの最初のステップとして機能する。
関連論文リスト
- iSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception [27.22349186465607]
我々はiSHIFT: Implicit Slow-fast Hybrid Inference with Flexible Tokensを紹介した。
iSHIFTにより、MLLMはスローモードを切り替えることができ、高精度な視覚的グラウンドリングと、グローバルなキューを使って効率を上げる高速モードを利用することができる。
2.5Bのコンパクトさにもかかわらず、iSHIFTは複数のベンチマークデータセットで最先端のパフォーマンスと一致している。
論文 参考訳(メタデータ) (2025-12-26T12:09:15Z) - GUI-PRA: Process Reward Agent for GUI Tasks [25.20594694997543]
プロセスリワードモデル(Process Reward Models, PRM)は、推論中に重要なプロセス信号でこれらのエージェントをガイドできる、有望なソリューションである。
PRMは「中間の失われた」現象に悩まされ、歴史的に圧倒的な状況が現在の段階の評価を損なう。
GUI-PRA(Process Reward Agent for GUI Tasks)は,標準的なPRMよりも優れたプロセス報酬の提供を目的とした判定エージェントである。
論文 参考訳(メタデータ) (2025-09-27T11:42:36Z) - Generative Interfaces for Language Models [70.25765232527762]
ユーザインタフェース(UI)を積極的に生成することにより,大規模言語モデル(LLM)がユーザクエリに応答するパラダイムを提案する。
本フレームワークは,ユーザクエリをタスク固有のUIに変換するために,構造化インターフェース固有の表現と反復的洗練を活用している。
その結果、生成的インタフェースは人間の嗜好を最大72%改善し、会話的インタフェースよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-08-26T17:43:20Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction [15.220300812671494]
先進的なUI理解とアクション予測に適したマルチモーダル大規模言語モデル(MLLM)のセットであるScreenLLMを紹介する。
我々の研究は、多様なソフトウェア環境におけるユーザインタラクションを強化するスケーラブルで堅牢でインテリジェントなGUIエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2025-03-26T20:41:24Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。