Fugu-MT 論文翻訳(概要): What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning

論文の概要: What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning

arxiv url: http://arxiv.org/abs/2604.06995v1
Date: Wed, 08 Apr 2026 12:12:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.509573
Title: What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning
Title（参考訳）: スクリーン・ツー・アクションに欠けているものは何か? マルチモーダルGUI推論のためのUI-in-loopパラダイムに向けて
Authors: Songze Li, Xiaoke Guo, Tianqi Liu, Biao Yi, Zhaoyan Gong, Zhiqiang Liu, Huajun Chen, Wen Zhang,
Abstract要約: UI-in-the-Loop(UILoop)と呼ばれる革新的なGUI推論パラダイムを提案する。提案手法はGUI推論タスクをサイクリックスクリーンUI要素のアクションプロセスとして扱う。 MLLM(Multimodal Large Language Models)によって、キーUI要素のローカライゼーション、セマンティック関数、実用的な使用法を明示的に学習することで、UILoopは正確な発見を達成し、解釈可能な推論を行う。
参考スコア（独自算出の注目度）: 58.734995044357845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing Graphical User Interface (GUI) reasoning tasks remain challenging, particularly in UI understanding. Current methods typically rely on direct screen-based decision-making, which lacks interpretability and overlooks a comprehensive understanding of UI elements, ultimately leading to task failure. To enhance the understanding and interaction with UIs, we propose an innovative GUI reasoning paradigm called UI-in-the-Loop (UILoop). Our approach treats the GUI reasoning task as a cyclic Screen-UI elements-Action process. By enabling Multimodal Large Language Models (MLLMs) to explicitly learn the localization, semantic functions, and practical usage of key UI elements, UILoop achieves precise element discovery and performs interpretable reasoning. Furthermore, we introduce a more challenging UI Comprehension task centered on UI elements with three evaluation metrics. Correspondingly, we contribute a benchmark of 26K samples (UI Comprehension-Bench) to comprehensively evaluate existing methods' mastery of UI elements. Extensive experiments demonstrate that UILoop achieves state-of-the-art UI understanding performance while yielding superior results in GUI reasoning tasks.
Abstract（参考訳）: 既存のグラフィカルユーザインタフェース(GUI)推論タスクは、特にUI理解において難しいままである。現在のメソッドは通常、直接画面ベースの意思決定に依存しており、解釈可能性に欠け、UI要素の包括的な理解を見落とし、最終的にタスクの失敗につながる。そこで我々はUI-in-the-Loop(UILoop)と呼ばれる革新的なGUI推論パラダイムを提案する。提案手法はGUI推論タスクをサイクリックスクリーンUI要素のアクションプロセスとして扱う。 MLLM(Multimodal Large Language Models)がキーUI要素のローカライゼーション、セマンティック関数、実用的な使用法を明示的に学習できるようにすることで、UILoopは正確な要素発見を実現し、解釈可能な推論を行う。さらに,3つの評価指標を持つUI要素を中心にした,より困難なUI理解タスクを導入する。それに対応して、既存のメソッドのUI要素の熟達度を包括的に評価するために、26Kサンプル(UI Comprehension-Bench)のベンチマークをコントリビュートする。大規模な実験では、UILoopが最先端のUI理解性能を実現し、GUI推論タスクにおいて優れた結果をもたらすことが示されている。

関連論文リスト

Zoom to Essence: Trainless GUI Grounding by Inferring upon Interface Elements [40.21437107734778]
マルチモーダル大言語モデル (MLLM) ベースのグラフィカルユーザインタフェース (GUI) エージェントは急速に発達する。既存のGUIエージェントは、命令やUIインターフェースを理解する際の課題を処理するために、大規模なデータセット上でMLLMを微調整するのが一般的である。本稿では,推論スケーリングを活用して,命令要素を段階的にアンカーする共通MLLMを,より詳細なインターフェース要素に誘導するZoomUIを提案する。
論文参考訳（メタデータ） (2026-03-15T15:47:47Z)
Leveraging Multimodal LLM for Inspirational User Interface Search [12.470067381902972]
既存のAIベースのUI検索メソッドは、ターゲットユーザやアプリのムードといった重要なセマンティクスを見逃すことが多い。我々はマルチモーダルな大言語モデル(MLLM)を用いて,モバイルUI画像から意味を抽出し,解釈した。われわれのアプローチは既存のUI検索方法よりも優れており、UIデザイナはよりリッチでコンテキストに関連のある検索体験を提供する。
論文参考訳（メタデータ） (2025-01-29T17:38:39Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文参考訳（メタデータ） (2024-06-12T02:43:19Z)
UIBert: Learning Generic Multimodal Representations for UI Understanding [12.931540149350633]
大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。この自己アライメントを利用した5つの事前学習タスクを提案する。 UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
論文参考訳（メタデータ） (2021-07-29T03:51:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。