論文の概要: Coding with Eyes: Visual Feedback Unlocks Reliable GUI Code Generating and Debugging
- arxiv url: http://arxiv.org/abs/2604.19750v1
- Date: Sat, 14 Mar 2026 05:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.041027
- Title: Coding with Eyes: Visual Feedback Unlocks Reliable GUI Code Generating and Debugging
- Title(参考訳): 目によるコーディング: ビジュアルフィードバックは信頼性の高いGUIコードの生成とデバッグをアンロックする
- Authors: Zhilin Liu, Ye Huang, Ting Xie, Ruizhi Zhang, Wen Li, Lixin Duan,
- Abstract要約: インタラクションロジックと視覚構造の両方を詳細に評価するための新しいベンチマークであるInteractGUI Benchを紹介する。
次に、GUIコードをデバッグするためのビジョンフィードバックベースのマルチエージェントシステムであるVF-Coderを提案する。
InteractGUI Benchでは、我々のVF-Coderアプローチは、Gemini-3-Flashの成功率を21.68%から28.29%に引き上げ、ビジュアルスコアを0.4284から0.5584に上げる。
- 参考スコア(独自算出の注目度): 29.726059668838015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Model (LLM)-based agents have shown remarkable progress in code generation. However, current agent methods mainly rely on text-output-based feedback (e.g. command-line outputs) for multi-round debugging and struggle in graphical user interface (GUI) that involve visual information. This is mainly due to two limitations: 1) GUI programs are event-driven, yet existing methods cannot simulate user interactions to trigger GUI element logic 2) GUI programs possess visual attributes, making it difficult for text-based approaches to assess whether the rendered interface meets user needs. To systematically address these challenges, we first introduce InteractGUI Bench, a novel benchmark comprising 984 commonly used real-world desktop GUI application tasks designed for fine-grained evaluation of both interaction logic and visual structure. Furthermore, we propose VF-Coder, a vision-feedback-based multi-agent system for debugging GUI code. By perceiving visual information and directly interacting with program interfaces, VF-Coder can identify potential logic and layout issues in a human-like manner. On InteractGUI Bench, our VF-Coder approach increases the success rate of Gemini-3-Flash from 21.68% to 28.29% and raises the visual score from 0.4284 to 0.5584, indicating the effectiveness of visual feedback in GUI debugging.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくエージェントの最近の進歩は、コード生成において顕著な進歩を見せている。
しかし、現在のエージェントメソッドは主にテキスト出力に基づくフィードバック(例えばコマンドライン出力)を多ラウンドデバッグや視覚情報を含むグラフィカルユーザインタフェース(GUI)に頼っている。
これは主に2つの制限があるためである。
1) GUIプログラムはイベント駆動であるが、既存のメソッドではGUI要素ロジックをトリガーするユーザインタラクションをシミュレートすることはできない。
2)GUIプログラムは視覚的属性を持つため,ユーザニーズに適合するインターフェースをテキストベースで評価することは困難である。
これらの課題に体系的に対処するために、まずInteractGUI Benchを紹介した。このベンチマークは、対話ロジックと視覚構造の両方のきめ細かい評価のために設計された、984の一般的な実世界のデスクトップGUIアプリケーションタスクで構成された新しいベンチマークである。
さらに,GUIコードをデバッグする視覚フィードバックベースのマルチエージェントシステムであるVF-Coderを提案する。
VF-Coderは視覚情報を認識し、プログラムインターフェースと直接対話することで、潜在的なロジックやレイアウトの問題を人間のように識別することができる。
InteractGUI Benchでは、我々のVF-Coderアプローチは、Gemini-3-Flashの成功率を21.68%から28.29%に引き上げ、ビジュアルスコアを0.4284から0.5584に上げ、GUIデバッグにおける視覚的フィードバックの有効性を示している。
関連論文リスト
- UIPro: Unleashing Superior Interaction Capability For GUI Agents [33.77980648230746]
人間のようなグラフィカルユーザインタフェース(GUI)を知覚し、操作する自律エージェントの構築は、人工知能の分野における長年のビジョンである。
視覚言語モデル(VLM)のマルチモーダル理解能力に基づくGUIエージェントの開発が試みられている。
本稿では,多プラットフォーム・マルチタスクGUIインタラクションデータを用いた新しい汎用GUIエージェントであるtextUIProを提案する。
論文 参考訳(メタデータ) (2025-09-22T03:04:53Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。