論文の概要: Qwen-GUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding
- arxiv url: http://arxiv.org/abs/2506.23491v1
- Date: Mon, 30 Jun 2025 03:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.90827
- Title: Qwen-GUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding
- Title(参考訳): Qwen-GUI-3B:クロスリゾリューションGUI接地のための軽量ビジョンランゲージモデル
- Authors: ZongHan Hsieh, Tzer-Jen Wei,
- Abstract要約: Qwen-GUI-3Bは、グラフィカルユーザインタフェースグラウンドタスク用に設計された軽量なビジョンランゲージモデル(VLM)である。
単一のGPUで完全にトレーニング可能でありながら、強力な接地精度を提供する。
標準GUIグラウンドベンチマークの実証評価では、Qwen-GUI-3Bの異常な精度が強調されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Qwen-GUI-3B, a lightweight Vision-Language Model (VLM) specifically designed for Graphical User Interface grounding tasks, achieving performance competitive with significantly larger models. Unlike large-scale VLMs (>7B parameters) that are computationally intensive and impractical for consumer-grade hardware, Qwen-GUI-3B delivers strong grounding accuracy while being fully trainable on a single GPU (RTX 4090). The model incorporates several key innovations: (i) combine cross-platform, multi-resolution dataset of 24K examples from diverse sources including mobile, desktop, and web GUI screenshots to effectively address data scarcity in high-resolution desktop environments; (ii) a two-stage fine-tuning strategy, where initial cross-platform training establishes robust GUI understanding, followed by specialized fine-tuning on high-resolution data to significantly enhance model adaptability; and (iii) data curation and redundancy reduction strategies, demonstrating that randomly sampling a smaller subset with reduced redundancy achieves performance comparable to larger datasets, emphasizing data diversity over sheer volume. Empirical evaluation on standard GUI grounding benchmarks-including ScreenSpot, ScreenSpot-v2, and the challenging ScreenSpot-Pro, highlights Qwen-GUI-3B's exceptional accuracy, achieving 84.9% on ScreenSpot and 86.4% on ScreenSpot-v2, surpassing prior models under 4B parameters. Ablation studies validate the critical role of balanced sampling and two-stage fine-tuning in enhancing robustness, particularly in high-resolution desktop scenarios. The Qwen-GUI-3B is available at: https://github.com/Han1018/Qwen-GUI-3B
- Abstract(参考訳): 本稿では,グラフィカルユーザインタフェースのグラウンディングタスクに特化して設計された軽量ビジョンランゲージモデル(VLM)であるQwen-GUI-3Bを紹介する。
Qwen-GUI-3Bは、1つのGPU(RTX 4090)で完全にトレーニング可能で、計算集約的で非現実的な大規模VLM(>7Bパラメータ)とは異なり、強力な基底精度を提供する。
このモデルにはいくつかの重要なイノベーションが含まれている。
(i)高解像度デスクトップ環境におけるデータの不足に効果的に対処するために、モバイル、デスクトップ、ウェブGUIスクリーンショットを含む様々なソースから24Kサンプルのクロスプラットフォーム・マルチレゾリューションデータセットを組み合わせる。
(二)二段階の微調整戦略で、初期クロスプラットフォームの訓練が堅牢なGUI理解を確立し、次いで高解像度データに特化された微調整を行い、モデルの適応性を著しく向上させる。
(3)データキュレーションと冗長性低減戦略は、冗長性を低減した小さなサブセットをランダムにサンプリングすることで、より大きなデータセットに匹敵するパフォーマンスを達成し、重大ボリュームよりもデータの多様性を強調することを実証している。
標準的なGUIグラウンドベンチマーク(ScreenSpot、ScreenSpot-v2、ScreenSpot-Proなど)に関する実証的な評価では、Qwen-GUI-3Bの異常な精度が強調され、ScreenSpotでは84.9%、ScreenSpot-v2では86.4%となり、4Bパラメータで先行モデルを上回った。
アブレーション研究は、特に高解像度デスクトップシナリオにおいて、ロバスト性向上におけるバランスサンプリングと2段階微調整の重要性を検証している。
Qwen-GUI-3Bは、https://github.com/Han1018/Qwen-GUI-3Bで利用可能である。
関連論文リスト
- Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning [28.291759852111586]
本稿では,GUIエージェントの性能向上のための3つのコア戦略を組み込んだ強化学習(RL)フレームワークを提案する。
3kのトレーニングサンプルだけで、我々の7B-パラメーターモデルも同様の大きさのモデルで最先端の結果が得られる。
特に、ScreenSpot-Proデータセットで47.3%の精度を実現し、UI-TARS-72Bのようなはるかに大きなモデルよりも24.2%のマージンを達成している。
論文 参考訳(メタデータ) (2025-05-18T11:22:04Z) - GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [16.72683291432717]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。
従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文 参考訳(メタデータ) (2025-04-14T17:45:54Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。