論文の概要: LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.09373v1
- Date: Wed, 11 Jun 2025 03:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.31241
- Title: LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization
- Title(参考訳): LPO:位置優先最適化による高精度GUIエージェントインタラクションを目指して
- Authors: Jiaqi Tang, Yu Xia, Yi-Feng Wu, Yuwei Hu, Yuhui Chen, Qing-Guo Chen, Xiaogang Xu, Xiangyu Wu, Hao Lu, Yanqing Ma, Shiyin Lu, Qifeng Chen,
- Abstract要約: 位置優先最適化(Location Preference Optimization、LPO)は、位置データを利用してインタラクションの好みを最適化する新しいアプローチである。
LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。
私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
- 参考スコア(独自算出の注目度): 58.65395773049273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of autonomous agents is transforming interactions with Graphical User Interfaces (GUIs) by employing natural language as a powerful intermediary. Despite the predominance of Supervised Fine-Tuning (SFT) methods in current GUI agents for achieving spatial localization, these methods face substantial challenges due to their limited capacity to accurately perceive positional data. Existing strategies, such as reinforcement learning, often fail to assess positional accuracy effectively, thereby restricting their utility. In response, we introduce Location Preference Optimization (LPO), a novel approach that leverages locational data to optimize interaction preferences. LPO uses information entropy to predict interaction positions by focusing on zones rich in information. Besides, it further introduces a dynamic location reward function based on physical distance, reflecting the varying importance of interaction positions. Supported by Group Relative Preference Optimization (GRPO), LPO facilitates an extensive exploration of GUI environments and significantly enhances interaction precision. Comprehensive experiments demonstrate LPO's superior performance, achieving SOTA results across both offline benchmarks and real-world online evaluations. Our code will be made publicly available soon, at https://github.com/AIDC-AI/LPO.
- Abstract(参考訳): 自律エージェントの出現は、自然言語を強力な仲介者として活用することによって、グラフィカルユーザインタフェース(GUI)とのインタラクションを変革している。
空間的局所化を実現するために現在のGUIエージェントにおいて、監視ファインチューニング(SFT)手法が優勢であるにもかかわらず、これらの手法は位置データを正確に知覚する能力に限界があるため、重大な課題に直面している。
強化学習のような既存の戦略は、しばしば位置精度を効果的に評価できず、それによって実用性を制限する。
そこで本研究では,位置データを利用してインタラクションの選好を最適化する新しい手法である位置選好最適化(LPO)を提案する。
LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。
さらに、物理的距離に基づく動的位置報酬関数を導入し、相互作用位置の重要性の変動を反映している。
Group Relative Preference Optimization (GRPO)によってサポートされているLPOは、GUI環境の広範な探索を促進し、相互作用の精度を大幅に向上させる。
総合的な実験は、LPOの優れたパフォーマンスを示し、オフラインベンチマークと実世界のオンライン評価の両方でSOTA結果を達成する。
私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
関連論文リスト
- ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な社会対話を扱うには不十分である。
マルチターンエージェントの動作を最適化するために,対話内のキーセグメントを動的に選択するセグメントレベル直接参照最適化(SDPO)を提案する。
論文 参考訳(メタデータ) (2025-01-03T14:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。