論文の概要: HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration
- arxiv url: http://arxiv.org/abs/2510.27266v1
- Date: Fri, 31 Oct 2025 08:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.033772
- Title: HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration
- Title(参考訳): HyperClick: 不確実性校正による信頼性の高いGUIグラウンディングの改善
- Authors: Shaojie Zhang, Pei Fu, Ruoceng Zhang, Jiahui Yang, Anan Du, Xiuwen Xi, Shaokang Wang, Ying Huang, Bin Qin, Zhenbo Luo, Jian Luan,
- Abstract要約: HyperClickは、不確実なキャリブレーションを通じて信頼性の高いGUIグラウンドを改善する新しいフレームワークである。
この結果から,HyperClickは信頼性を良好に保ちつつ,最先端のパフォーマンスを達成できることが示唆された。
- 参考スコア(独自算出の注目度): 18.315584342136997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous Graphical User Interface (GUI) agents rely on accurate GUI grounding, which maps language instructions to on-screen coordinates, to execute user commands. However, current models, whether trained via supervised fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of their capability boundaries, leading to overconfidence and unreliable predictions. We first systematically evaluate probabilistic and verbalized confidence in general and GUI-specific models, revealing a misalignment between confidence and actual accuracy, which is particularly critical in dynamic GUI automation tasks, where single errors can cause task failure. To address this, we propose HyperClick, a novel framework that enhances reliable GUI grounding through uncertainty calibration. HyperClick introduces a dual reward mechanism, combining a binary reward for correct actions with a truncated Gaussian-based spatial confidence modeling, calibrated using the Brier score. This approach jointly optimizes grounding accuracy and confidence reliability, fostering introspective self-criticism. Extensive experiments on seven challenge benchmarks show that HyperClick achieves state-of-the-art performance while providing well-calibrated confidence. By enabling explicit confidence calibration and introspective self-criticism, HyperClick reduces overconfidence and supports more reliable GUI automation.
- Abstract(参考訳): GUI(Autonomous Graphical User Interface)エージェントは、ユーザコマンドを実行するために、言語命令をオンスクリーン座標にマッピングする正確なGUIグラウンドに依存する。
しかしながら、現在のモデルでは、教師付き微調整(SFT)や強化微調整(RFT)によって訓練されたとしても、その能力境界の自己認識が欠如しており、過信と信頼できない予測につながっている。
まず,確率的および言語的信頼度を一般モデルとGUI固有のモデルで体系的に評価し,信頼度と実際の精度の相違を明らかにした。
そこで我々は,不確実性キャリブレーションによる信頼性の高いGUIグラウンドティングを実現する新しいフレームワークであるHyperClickを提案する。
HyperClickは2重報酬機構を導入し、正しい行動に対する二項報酬と、ブリアスコアを用いてキャリブレーションしたガウスに基づく空間信頼モデリングを組み合わせた。
このアプローチは、接地精度と信頼性を共同で最適化し、内省的自己批判を促進する。
7つのチャレンジベンチマークに関する大規模な実験は、HyperClickが最先端のパフォーマンスを達成し、十分な信頼性を提供することを示している。
明確な信頼性校正とイントロスペクティブな自己批判を可能にすることで、HyperClickは過剰な自信を減らし、より信頼性の高いGUI自動化をサポートする。
関連論文リスト
- ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。
また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。
提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文 参考訳(メタデータ) (2025-08-07T17:54:27Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Two Sides of Miscalibration: Identifying Over and Under-Confidence
Prediction for Network Calibration [1.192436948211501]
安全クリティカルなタスクにおける信頼性予測には、ディープニューラルネットワークの信頼性校正が不可欠である。
ミススキャリブレーションは、過信と/または過信をモデル化する。
校正点とクラス別校正点を同定するために,新しい校正点である校正点を導入する。
クラスワイドの誤校正スコアをプロキシとして使用して,過度かつ過度に対処可能な校正手法を設計する。
論文 参考訳(メタデータ) (2023-08-06T17:59:14Z) - Confidence Calibration for Intent Detection via Hyperspherical Space and
Rebalanced Accuracy-Uncertainty Loss [17.26964140836123]
一部のシナリオでは、ユーザは正確さだけでなく、モデルの信頼性も気にします。
本稿では,超球面空間と精度・不確かさ損失の再バランスを用いたモデルを提案する。
本モデルでは,既存の校正手法より優れ,校正基準の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-17T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。