論文の概要: SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration
- arxiv url: http://arxiv.org/abs/2602.02419v2
- Date: Tue, 03 Feb 2026 08:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.878432
- Title: SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration
- Title(参考訳): SafeGround:不確かさの校正を通じてGUIグラウンドモデルを信頼する方法を知る
- Authors: Qingni Wang, Yue Fan, Xin Eric Wang,
- Abstract要約: GUIグラウンドモデルのための不確実性を認識したフレームワークであるSafeGroundを紹介する。
テスト前にキャリブレーションを通じてリスクを意識した予測を可能にする。
SafeGroundを複数のGUIグラウンドモデルに適用し、ScreenSpot-Proベンチマークに挑戦する。
- 参考スコア(独自算出の注目度): 38.97678256807034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.
- Abstract(参考訳): Graphical User Interface (GUI) は、自然言語命令を実行可能な画面座標に変換することを目的としており、GUIの対話を自動化する。
それでも、誤った根拠付けは、コストが高く、逆のアクション(例えば、不正な支払い承認)を引き起こし、モデルの信頼性に関する懸念を引き起こす可能性がある。
本稿では,GUIグラウンドモデルのための不確実性認識フレームワークであるSafeGroundを紹介する。
SafeGroundは分布認識不確実性定量法を利用して、任意のモデルの出力から確率的サンプルの空間分散をキャプチャする。
そして、校正プロセスを通じて、SafeGroundは統計的に保証された偽発見率(FDR)制御によるテスト時間決定閾値を導出する。
SafeGroundを複数のGUIグラウンドモデルに適用し、ScreenSpot-Proベンチマークに挑戦する。
実験結果から,不確実性評価は既往の基準線を常に上回り,誤予測と正解を区別する一方,校正された閾値は厳密なリスク制御とシステムレベルの精度向上の可能性を確実に得ることが示された。
複数のGUIグラウンドモデル全体で、SafeGroundはシステムレベルの精度をジェミニのみの推測よりも最大5.38%向上させる。
関連論文リスト
- HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration [18.315584342136997]
HyperClickは、不確実なキャリブレーションを通じて信頼性の高いGUIグラウンドを改善する新しいフレームワークである。
この結果から,HyperClickは信頼性を良好に保ちつつ,最先端のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-10-31T08:07:02Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - An Uncertainty-aware DETR Enhancement Framework for Object Detection [10.102900613370817]
本稿では,DETRを用いた物体検出のための不確実性認識フレームワークを提案する。
我々はハイリスク情報をフィルタリングし、検出信頼性を向上させるベイズリスクの定式化を導出する。
COCOベンチマーク実験により,本手法を既存のDECR変種に効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2025-07-20T07:53:04Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Uncertainty-Aware AB3DMOT by Variational 3D Object Detection [74.8441634948334]
不確実性推定は統計的に正確な予測を提供する効果的なツールである。
本稿では,変分ニューラルネットワークを用いたTANet 3Dオブジェクト検出器を提案し,不確実性のある3Dオブジェクト検出を行う。
論文 参考訳(メタデータ) (2023-02-12T14:30:03Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Uncertainty-sensitive Activity Recognition: a Reliability Benchmark and
the CARING Models [37.60817779613977]
本稿では,現代の行動認識アーキテクチャの信頼度が,正しい結果の確率を反映していることを示す最初の研究を行う。
新たなキャリブレーションネットワークを通じて、モデル出力を現実的な信頼性推定に変換する新しいアプローチを紹介します。
論文 参考訳(メタデータ) (2021-01-02T15:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。