論文の概要: Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding
- arxiv url: http://arxiv.org/abs/2509.04243v1
- Date: Thu, 04 Sep 2025 14:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.183841
- Title: Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding
- Title(参考訳): GUIグラウンディングのための自己進化型選好最適化によるアクティブな知覚の学習
- Authors: Wanfu Wang, Qipeng Huang, Guangquan Xue, Xiaobo Liang, Juntao Li,
- Abstract要約: 視覚言語モデル(VLM)は近年,視覚知覚と言語推論の橋渡しにおいて大きな進歩を遂げている。
マルチステップ認識機能を持つVLMを段階的に支援する自己進化型フレームワークであるLASERを提案する。
提案手法はモンテカルロの品質評価とインターセクション・オーバー・ユニオン(IoU)に基づく地域品質評価を統合し,高品質な嗜好データ構築における精度と多様性を両立させる。
- 参考スコア(独自算出の注目度): 31.57375084036447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) have recently achieved significant progress in bridging visual perception and linguistic reasoning. Recently, OpenAI o3 model introduced a zoom-in search strategy that effectively elicits active perception capabilities in VLMs, improving downstream task performance. However, enabling VLMs to reason effectively over appropriate image regions remains a core challenge in GUI grounding, particularly under high-resolution inputs and complex multi-element visual interactions. In this work, we propose LASER, a self-evolving framework that progressively endows VLMs with multi-step perception capabilities, enabling precise coordinate prediction. Specifically, our approach integrate Monte Carlo quality estimation with Intersection-over-Union (IoU)-based region quality evaluation to jointly encourage both accuracy and diversity in constructing high-quality preference data. This combination explicitly guides the model to focus on instruction-relevant key regions while adaptively allocating reasoning steps based on task complexity. Comprehensive experiments on the ScreenSpot Pro and ScreenSpot-v2 benchmarks demonstrate consistent performance gains, validating the effectiveness of our method. Furthermore, when fine-tuned on GTA1-7B, LASER achieves a score of 55.7 on the ScreenSpot-Pro benchmark, establishing a new state-of-the-art (SoTA) among 7B-scale models.
- Abstract(参考訳): 視覚言語モデル(VLM)は近年,視覚知覚と言語推論の橋渡しにおいて大きな進歩を遂げている。
近年,OpenAI o3 モデルでは,VLM の能動的認識能力を効果的に活用し,下流タスク性能を向上するズームイン検索方式が導入されている。
しかし、VLMが適切な画像領域に対して効果的に推論できることは、特に高精細な入力や複雑な多要素視覚相互作用の下では、GUIグラウンドリングにおいて重要な課題である。
本研究では,多段階認識機能を持つVLMを段階的に支援し,正確な座標予測を可能にする自己進化型フレームワークLASERを提案する。
具体的には,モンテカルロの品質評価とインターセクション・オーバー・ユニオン(IoU)に基づく地域品質評価を統合し,高品質な嗜好データの構築において精度と多様性を両立させる。
この組み合わせは、タスクの複雑さに基づいて推論ステップを適応的に割り当てながら、命令関連キー領域に集中するようにモデルを明示的に導く。
ScreenSpot ProとScreenSpot-v2ベンチマークの総合的な実験により、一貫した性能向上を示し、本手法の有効性を検証した。
さらに、GTA1-7Bを微調整すると、LASERはScreenSpot-Proベンチマークで55.7のスコアを獲得し、7Bスケールモデルの中で新しい最先端(SoTA)を確立する。
関連論文リスト
- Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。