論文の概要: InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
- arxiv url: http://arxiv.org/abs/2508.05731v1
- Date: Thu, 07 Aug 2025 17:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.963227
- Title: InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
- Title(参考訳): InfiGUI-G1:Adaptive Exploration Policy OptimizationによるGUIグラウンディングの改善
- Authors: Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu,
- Abstract要約: 根本的な課題は、自然言語の指示をしっかりと基礎づけることである。
これは正確な空間アライメントを必要とし、各要素の座標を正確に特定する。
本稿では,新たな政策最適化フレームワークである適応探索政策最適化(AEPO)を提案する。
AEPOでトレーニングされたモデルであるInfiGUI-G1-3BとInfiGUI-G1-7Bは、新しい最先端の結果を確立します。
- 参考スコア(独自算出の注目度): 41.584851150085036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be effective at improving spatial alignment for these MLLMs, we find that inefficient exploration bottlenecks semantic alignment, which prevent models from learning difficult semantic associations. To address this exploration problem, we present Adaptive Exploration Policy Optimization (AEPO), a new policy optimization framework. AEPO employs a multi-answer generation strategy to enforce broader exploration, which is then guided by a theoretically grounded Adaptive Exploration Reward (AER) function derived from first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B and InfiGUI-G1-7B, establish new state-of-the-art results across multiple challenging GUI grounding benchmarks, achieving significant relative improvements of up to 9.0% against the naive RLVR baseline on benchmarks designed to test generalization and semantic understanding. Resources are available at https://github.com/InfiXAI/InfiGUI-G1.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の出現により、純粋視覚入力を用いたGUI(Graphical User Interfaces)上で動作する自律エージェントの開発が促進された。
根本的な課題は、自然言語の指示をしっかりと基礎づけることである。
これは、各要素の座標を正確に特定する正確な空間アライメントと、より重要なことは、その命令を機能的に適切なUI要素にマッチさせる正しいセマンティックアライメントを必要とする。
Reinforcement Learning with Verifiable Rewards (RLVR) はこれらのMLLMの空間的アライメントを改善するのに有効であることが証明されているが、非効率な探索ボトルネックはセマンティックアライメント(セマンティックアライメント)であり、モデルが難解なセマンティックアライメントを学習することを防ぐ。
そこで本研究では,新たな政策最適化フレームワークである適応探索政策最適化(AEPO)を提案する。
AEPOは、より広い探索を強制するために、多回答生成戦略を採用し、その後、効率の第一原理 eta=U/C から導かれる理論上は、適応探索(Adaptive Exploration Reward, AER)関数によって導かれる。
AEPOでトレーニングされたモデルであるInfiGUI-G1-3BとInfiGUI-G1-7Bは、複数の挑戦的なGUIグラウンドベンチマークにまたがって新しい最先端の結果を確立し、一般化とセマンティック理解をテストするために設計されたベンチマーク上で、単純なRLVRベースラインに対して最大9.0%の大幅な改善を実現した。
リソースはhttps://github.com/InfiXAI/InfiGUI-G1.comで入手できる。
関連論文リスト
- LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization [58.65395773049273]
位置優先最適化(Location Preference Optimization、LPO)は、位置データを利用してインタラクションの好みを最適化する新しいアプローチである。
LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。
私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
論文 参考訳(メタデータ) (2025-06-11T03:43:30Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。