論文の概要: GUI-Perturbed: Domain Randomization Reveals Systematic Brittleness in GUI Grounding Models
- arxiv url: http://arxiv.org/abs/2604.14262v1
- Date: Wed, 15 Apr 2026 16:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.955125
- Title: GUI-Perturbed: Domain Randomization Reveals Systematic Brittleness in GUI Grounding Models
- Title(参考訳): GUI性能:GUI接地モデルにおけるドメインランダム化の系統的脆性
- Authors: Yangyue Wang, Harshvardhan Sikka, Yash Mathur, Tony Zhou, Jinu Nyachhyon, Pranav Guruprasad,
- Abstract要約: GUIグラウンディングモデルは標準ベンチマークで85%以上の精度を報告しているが、命令が直接の要素命名ではなく空間的推論を必要とする場合、27-56ポイントを減少させる。
制御された摂動フレームワークであるGUI-Perturbedを導入する。
- 参考スコア(独自算出の注目度): 1.5114908780891403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI grounding models report over 85% accuracy on standard benchmarks, yet drop 27-56 percentage points when instructions require spatial reasoning rather than direct element naming. Current benchmarks miss this because they evaluate each screenshot once with a single fixed instruction. We introduce GUI-Perturbed, a controlled perturbation framework that independently varies visual scenes and instructions to measure grounding robustness. Evaluating three 7B models from the same architecture lineage, we find that relational instructions cause systematic accuracy collapse across all models, a 70% browser zoom produces statistically significant degradation, and rank-8 LoRA fine-tuning with augmented data degrades performance rather than improving it. By perturbing along independent axes, GUI-Perturbed isolates which specific capability axes are affected-spatial reasoning, visual robustness, reasoning calibration-providing diagnostic signal that aggregate benchmarks cannot. We release the dataset, augmentation pipeline, and a fine-tuned model.
- Abstract(参考訳): GUIグラウンディングモデルは標準ベンチマークで85%以上の精度を報告しているが、命令が直接の要素命名ではなく空間的推論を必要とする場合、27-56ポイントを減少させる。
現在のベンチマークでは、各スクリーンショットを1つの固定命令で評価するため、これを見逃している。
制御された摂動フレームワークであるGUI-Perturbedを導入する。
同じアーキテクチャ系から3つの7Bモデルを評価すると、リレーショナル命令はすべてのモデルに対して体系的に精度を低下させ、70%のブラウザズームは統計的に重要な劣化を生じさせ、ランク8のLoRA微調整は改善よりも性能を劣化させる。
独立した軸に沿って摂動することで、GUI-Perturbedは、特定の能力軸が影響のある空間的推論、視覚的堅牢性、およびベンチマークを集約できないキャリブレーションによる診断シグナルを分離する。
データセット、拡張パイプライン、微調整されたモデルをリリースします。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Real-World Point Tracking with Verifier-Guided Pseudo-Labeling [57.82074913456958]
本稿では,トラッカー予測の信頼性を学習し,擬似ラベル生成を導くメタモデルである検証器を紹介する。
提案手法は,従来の自己学習手法よりも少ないデータを必要とする一方で,最先端の結果が得られる。
論文 参考訳(メタデータ) (2026-03-12T17:40:52Z) - GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL [64.8155693023222]
オープンソースのネイティブGUIエージェントは、長い水平ナビゲーションタスクのクローズドソースシステムに遅れを取っている。
このギャップは、高品質でアクション整合性のある推論データが不足していることに起因している。
GUI-Libraは、これらの課題に対処する調整されたトレーニングレシピです。
論文 参考訳(メタデータ) (2026-02-25T18:34:57Z) - GAIA: A Data Flywheel System for Training GUI Test-Time Scaling Critic Models [18.14416135619429]
本稿では,モデルに反復的批判機能を持たせるためのトレーニングフレームワークであるGUI Action Critic's Data Flywheel System (GAIA)を提案する。
具体的には、ベースエージェントからの正および負のアクション例を用いて直観的批判モデル(ICM)を訓練する。
我々は様々なデータセットの実験を行い、提案したICMが様々なクローズドソースおよびオープンソースモデルの試験時間性能を向上させることを実証する。
論文 参考訳(メタデータ) (2026-01-26T06:29:41Z) - UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - Explainable Human-in-the-Loop Segmentation via Critic Feedback Signals [0.20999222360659608]
セグメント化出力の人為的補正による介入学習を可能にする,ループ内対話型フレームワークを提案する。
筆者らのフレームワークは,挑戦的な立方体データに対して最大9mIoUポイントのセグメンテーション精度を向上させることを実証している。
この研究は、精度が高く、データセットバイアスに頑健で、データ効率が良く、都市気候モニタリングや自動運転といった現実世界の領域に適応可能なセグメンテーションシステムを構築するための、研究者や実践者のための実践的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-11T01:16:41Z) - Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。
また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。
提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文 参考訳(メタデータ) (2025-08-07T17:54:27Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - t-RAIN: Robust generalization under weather-aliasing label shift attacks [0.0]
自動車のマルチウェザー分類におけるラベルシフトの影響を解析する。
大規模生成モデルを用いた合成データ拡張のための類似度マッピング手法としてt-RAINを提案する。
本稿では,82.69 AP (雪) と62.31 AP (霧) が最適である実地および合成気象領域の歩行者検出結果について述べる。
論文 参考訳(メタデータ) (2023-05-15T02:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。