Fugu-MT 論文翻訳(概要): Improved GUI Grounding via Iterative Narrowing

論文の概要: Improved GUI Grounding via Iterative Narrowing

arxiv url: http://arxiv.org/abs/2411.13591v2
Date: Sun, 24 Nov 2024 16:39:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.596829
Title: Improved GUI Grounding via Iterative Narrowing
Title（参考訳）: イテレーティブ・ナローイングによるGUIグラウンディングの改善
Authors: Anthony Nguyen,
Abstract要約: 本稿では,GUIにおける汎用モデルと微調整モデルの両方の性能を最大61%向上させるために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
参考スコア（独自算出の注目度）: 0.03922370499388702
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Graphical User Interface (GUI) grounding plays a crucial role in enhancing the capabilities of Vision-Language Model (VLM) agents. While general VLMs, such as GPT-4V, demonstrate strong performance across various tasks, their proficiency in GUI grounding remains suboptimal. Recent studies have focused on fine-tuning these models specifically for one-shot GUI grounding, yielding significant improvements over baseline performance. We introduce a visual prompting framework that employs an iterative narrowing mechanism to improve the performance of both general and fine-tuned models in GUI grounding by up to 61%. For evaluation, we tested our method on a comprehensive benchmark comprising various UI platforms and provided the code to reproduce our results.
Abstract（参考訳）: グラフィカルユーザインタフェース(GUI)の基盤は,視覚言語モデル(VLM)エージェントの能力向上に重要な役割を果たしている。 GPT-4V のような一般的な VLM は様々なタスクに対して高い性能を示すが、GUI の接地精度は相変わらず最適である。近年の研究では、これらのモデルをワンショットGUIグラウンド専用に微調整することに焦点が当てられ、ベースライン性能よりも大幅に改善されている。本稿では,GUIにおける汎用モデルと微調整モデルの両方の性能を最大61%向上させるために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。

関連論文リスト

GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents [39.807839972627015]
GUIタスクにおける能動的視覚知覚のための強化学習フレームワークであるGUI-Eyesを提案する。我々は、意思決定を粗い探索ときめ細かい接地に分解する進歩的認識戦略を導入する。 ScreenSpot-Proベンチマークでは、GUI-Eyes-3Bは3kラベルのサンプルのみを使用して44.8%のグラウンド精度を達成した。
論文参考訳（メタデータ） (2026-01-14T14:27:28Z)
Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-12-05T18:39:12Z)
How Auxiliary Reasoning Unleashes GUI Grounding in VLMs [16.798199078199154]
一般的な視覚言語モデル(VLM)は、特定の最適化が欠如しているため、この課題に対処する。この相違に対処するための3つのゼロショット補助的推論手法を提案する。これらの手法を、7つのオープンソースおよびプロプライエタリなVLMのGUIグラウンドベンチマークで評価する。
論文参考訳（メタデータ） (2025-09-15T03:28:29Z)
Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文参考訳（メタデータ） (2025-08-07T17:54:27Z)
GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.762798168494726]
GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文参考訳（メタデータ） (2025-08-05T10:17:38Z)
R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。 R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文参考訳（メタデータ） (2025-07-08T04:56:57Z)
DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning [52.37530640460363]
トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。 GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。 DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
論文参考訳（メタデータ） (2025-06-12T03:13:21Z)
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文参考訳（メタデータ） (2025-06-05T04:12:36Z)
UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis [15.429065788185522]
様々な複雑な命令データセットを生成するために,大規模なデータ合成パイプライン UI-E2I- Synth を導入する。既存のベンチマークの限界に対処する新しいGUI命令基底ベンチマークであるUI-I2E-Benchを提案する。合成データに基づいて学習した本モデルは,GUI命令のグラウンドリングにおいて優れた性能を実現する。
論文参考訳（メタデータ） (2025-04-15T14:56:21Z)
GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [16.72683291432717]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文参考訳（メタデータ） (2025-04-14T17:45:54Z)
GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。 NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文参考訳（メタデータ） (2025-01-23T18:16:21Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文参考訳（メタデータ） (2024-10-30T17:10:19Z)
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に知覚し,GUI上でのピクセルレベルの操作を直接行う,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文参考訳（メタデータ） (2024-10-07T17:47:50Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces [27.84098739594353]
Graph4GUIはグラフニューラルネットワークを利用して、個々の要素の特性とセマンティックな空間的制約をレイアウトでキャプチャする。学習された表現は、その効果を複数のタスクで示し、特に挑戦的なGUIオートコンプリートタスクで設計を生成する。
論文参考訳（メタデータ） (2024-04-21T04:06:09Z)
GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。 GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文参考訳（メタデータ） (2024-03-14T13:47:41Z)
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文参考訳（メタデータ） (2024-02-18T19:38:44Z)
Unveiling Backbone Effects in CLIP: Exploring Representational Synergies and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文参考訳（メタデータ） (2023-12-22T03:01:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。