論文の概要: See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles
- arxiv url: http://arxiv.org/abs/2509.13615v1
- Date: Wed, 17 Sep 2025 01:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.679679
- Title: See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles
- Title(参考訳): マルチモーダルエージェントにトグルを識別してGUIを効果的に操作させる行為
- Authors: Zongru Wu, Rui Mao, Zhiyuan Tian, Pengzhou Cheng, Tianjie Ju, Zheng Wu, Lingzhong Dong, Haiyue Sheng, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: マルチモーダルエージェントの トグル制御命令を確実に実行できないことが 重要なボトルネックです
本研究では,現在のトグル状態を理解し,所望の状態を解析し,それに従って行動する訓練手法であるステートアウェア推論(StaR)を提案する。
3つのマルチモーダルエージェントの実験により、StaRは命令実行精度を30%以上改善できることが示された。
- 参考スコア(独自算出の注目度): 26.687510922403405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of multimodal agents facilitates effective interaction within graphical user interface (GUI), especially in ubiquitous GUI control. However, their inability to reliably execute toggle control instructions remains a key bottleneck. To investigate this, we construct a state control benchmark with binary toggle instructions from public datasets. Evaluations of existing agents demonstrate their unreliability, particularly when the current toggle state already matches the desired state. To address the challenge, we propose State-aware Reasoning (StaR), a training method that teaches agents to perceive the current toggle state, analyze the desired state from the instruction, and act accordingly. Experiments on three multimodal agents demonstrate that StaR can improve toggle instruction execution accuracy by over 30\%. Further evaluations on three public benchmarks show that StaR also enhances general task performance. Finally, evaluations on a dynamic environment highlight the potential of StaR for real-world applications. Code, benchmark, and StaR-enhanced agents are available at https://github.com/ZrW00/StaR.
- Abstract(参考訳): マルチモーダルエージェントの出現は、特にユビキタスGUI制御において、GUI(GUI)内の効果的なインタラクションを促進する。
しかし、トグル制御命令を確実に実行できないことは、依然として重要なボトルネックである。
そこで我々は,公開データセットからのバイナリトグル命令を用いた状態制御ベンチマークを構築した。
既存のエージェントの評価は、特に現在のトグル状態が既に所望の状態と一致している場合、その信頼性を実証する。
この課題に対処するために、エージェントに現在のトグル状態を理解し、所望の状態を解析し、それに従って行動する訓練方法であるState-Aware Reasoning(StaR)を提案する。
3つのマルチモーダルエージェントの実験により、StaRは命令実行精度を30倍以上改善できることが示された。
3つの公開ベンチマークのさらなる評価は、StaRが一般的なタスク性能も向上することを示している。
最後に、動的環境の評価は、現実世界のアプリケーションにおけるStaRの可能性を強調している。
コード、ベンチマーク、StaR強化エージェントはhttps://github.com/ZrW00/StaR.comで入手できる。
関連論文リスト
- Instruction Agent: Enhancing Agent with Expert Demonstration [12.67489098612846]
グラフィカルユーザインタフェース(GUI)エージェントは急速に進歩しているが、新しいUI要素、長い水平動作、パーソナライズされた軌跡を含む複雑なタスクに苦戦している。
そこで本研究では,GUIエージェントであるインストラクションエージェントを導入し,このようなタスクを専門的なデモンストレーションで解決し,それ以外は困難なタスクの完了を可能にする。
1つのデモンストレーションが与えられた場合、エージェントはステップバイステップの指示を抽出し、ユーザが意図した軌道を厳密に追従することで実行します。
論文 参考訳(メタデータ) (2025-09-08T18:00:12Z) - FineState-Bench: A Comprehensive Benchmark for Fine-Grained State Control in GUI Agents [12.315613848863784]
ファインステートベンチ(FinState-Bench)は,GUIプロキシ操作のための評価および診断標準である。
FineState-Benchには4つのコンポーネントに2257のタスクベンチマークが含まれており、知覚制御評価に4フェーズインジケータを使用している。
我々の診断フレームワークは、現在のGUIプロキシの最大のボトルネックが基本的な視覚的位置決め能力であることを初めて確認します。
論文 参考訳(メタデータ) (2025-08-12T15:12:42Z) - GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。
まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。
第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - XBOUND: Exploring the Capability Boundaries of Device-Control Agents through Trajectory Tree Exploration [73.87038197602268]
本研究では, デバイス・コントロル・エージェント(DCエージェント)の評価手法について, 新たな視点を紹介する。
提案手法は,新しい探索距離の計算を用いて,DCエージェントの能力境界を導出するXBOUND評価手法を提案する。
我々はOS-AtlasシリーズとUI-TARSシリーズを評価し,5つの共通タスクの総合的および特定性能について検討した。
論文 参考訳(メタデータ) (2025-05-27T14:49:30Z) - Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。
既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。
Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文 参考訳(メタデータ) (2025-05-17T07:58:34Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Scalable Perception-Action-Communication Loops with Convolutional and
Graph Neural Networks [208.15591625749272]
視覚に基づくグラフアグリゲーション・アンド・推論(VGAI)を用いた知覚-行動-コミュニケーションループの設計を提案する。
我々のフレームワークは、畳み込みとグラフニューラルネットワーク(CNN/GNN)のカスケードによって実装され、エージェントレベルの視覚知覚と特徴学習に対処する。
我々は、VGAIが他の分散コントローラに匹敵する性能を得ることを示した。
論文 参考訳(メタデータ) (2021-06-24T23:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。