論文の概要: Proactive Detection of GUI Defects in Multi-Window Scenarios via Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2604.19081v1
- Date: Tue, 21 Apr 2026 04:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.621926
- Title: Proactive Detection of GUI Defects in Multi-Window Scenarios via Multimodal Reasoning
- Title(参考訳): マルチモーダル推論によるマルチウィンドウシナリオにおけるGUI欠陥の能動的検出
- Authors: Xinyao Zhang, Rui Wang, Jinhao Cui, Haotian Huang, Wei Xue, Wenhua Hu, Jianwen Xiang, Rui Hao,
- Abstract要約: マルチウィンドウ移動シナリオにおけるGUI表示欠陥検出のためのエンドツーエンドフレームワークを提案する。
このフレームワークは、アプリの探索中にスプリットスクリーン、折り畳み可能、ウィンドウ遷移状態を積極的にトリガーする。
マルチモーダルな大規模言語モデルとチェーン・オブ・シントを使用して、ディスプレイの欠陥を検出し、ローカライズし、説明する。
- 参考スコア(独自算出の注目度): 19.41663018956925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-window mobile scenarios, such as split-screen and foldable modes, make GUI display defects more likely by forcing applications to adapt to changing window sizes and dynamic layout reflow. Existing detection techniques are limited in two ways: they are largely passive, analyzing screenshots only after problematic states have been reached, and they are mainly designed for conventional full-screen interfaces, making them less effective in multi-window settings.We propose an end-to-end framework for GUI display defect detection in multi-window mobile scenarios. The framework proactively triggers split-screen, foldable, and window-transition states during app exploration, uses Set-of-Mark (SoM) to align screenshots with widget-level interface elements, and leverages multimodal large language models with chain-of-thought prompting to detect, localize, and explain display defects. We also construct a benchmark of GUI display defects using 50 real-world Android applications.Experimental results show that multi-window settings substantially increase the exposure of layout-related defects, with text truncation increasing by 184% compared with conventional full-screen settings. At the application level, our method detects 40 defect-prone apps with a false positive rate of 10.00% and a false negative rate of 11.11%, outperforming OwlEye and YOLO-based baselines. At the fine-grained level, it achieves the best F1 score of 87.2% for widget occlusion detection.
- Abstract(参考訳): 分割画面や折り畳み可能なモードのようなマルチウィンドウのモバイルシナリオは、アプリケーションがウィンドウサイズや動的レイアウトのリフローに適応するように強制することによって、GUIディスプレイの欠陥をより高めている。
既存の検出技術は、主に受動的であり、問題状態が到達した後にのみスクリーンショットを解析し、従来のフルスクリーンインタフェース用に設計されているため、マルチウィンドウ環境でのGUI表示欠陥検出のエンドツーエンドフレームワークを提案する。
このフレームワークは、アプリの探索中にスプリットスクリーン、折り畳み可能、ウィンドウ遷移状態を積極的にトリガーし、Set-of-Mark(SoM)を使用してスクリーンショットをウィジェットレベルのインターフェース要素と整列させ、チェーン・オブ・シークレットによるディスプレイ欠陥の検出、ローカライズ、説明を行うマルチモーダルな大規模言語モデルを活用する。
また、実世界の50のAndroidアプリケーションを用いてGUIディスプレイの欠陥のベンチマークを構築し、実験結果、複数ウィンドウの設定はレイアウト関連欠陥の露出を大幅に増加させ、テキストの切り抜きは従来のフルスクリーン設定と比較して184%増加した。
アプリケーションレベルでは, 偽陽性率10.00%, 偽陰性率11.11%の40個の欠陥発生アプリを検出し, OwlEyeおよびYOLOベースラインを上回った。
きめ細かいレベルでは、ウィジェット閉塞検出において87.2%のF1スコアを達成している。
関連論文リスト
- UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding [55.22866422166757]
テストタイムズームイン法は、各ケースでモデルが実際に不確実かどうかを無視して、固定された作物サイズを持つすべてのインスタンスに対して一様に適用する。
トレーニング不要な適応型ズームインフレームワークである textbfUI-Zoomer を提案する。
論文 参考訳(メタデータ) (2026-04-15T17:32:28Z) - \textsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding [37.69847052653875]
GUI-Spotlightは画像グラウンド推論のために訓練されたモデルである。
画面の関連領域へのフォーカスを反復的に絞り、視覚的グラウンドの精度を大幅に向上させる。
ScreenSpot-Proベンチマークでは、18.5KのトレーニングサンプルでトレーニングされたGUI-Spotlightが52.8%の精度を実現している。
論文 参考訳(メタデータ) (2025-10-05T05:15:45Z) - SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing [13.521180435948791]
本稿ではGUI知覚のための新しいエンドツーエンドフレームワークを提案する。
確率ベース離散モデリングの代わりに、座標の連続モデリングを行う。
これにより、離散出力特性に固有の制限を効果的に緩和する。
論文 参考訳(メタデータ) (2025-09-05T08:24:12Z) - Screencast-Based Analysis of User-Perceived GUI Responsiveness [53.53923672866705]
Toolsはモバイルのスクリーンキャストから直接GUIの応答性を測定するテクニックである。
コンピュータービジョンを使ってユーザーインタラクションを検出し、フレームレベルの視覚変化を分析し、2つの重要なメトリクスを計算する。
ツールはインダストリアルテストパイプラインにデプロイされ、毎日数千のスクリーンキャストを分析している。
論文 参考訳(メタデータ) (2025-08-02T12:13:50Z) - GTA1: GUI Test-time Scaling Agent [97.58177633084915]
グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - GUIPilot: A Consistency-based Mobile GUI Testing Approach for Detecting Application-specific Bugs [16.85762480091835]
モバイル設計と実装の矛盾を検出するためのGUIPilotを提案する。
実験の結果,GUIPilotは画面不整合の検出において94.5%の精度と99.6%のリコールを実現することができた。
トレーディングモバイルアプリケーションにGUIPilotを適用するという産業ケーススタディは、GUIPilotが9つのアプリケーションバグを検出したことを示している。
論文 参考訳(メタデータ) (2025-06-09T03:09:48Z) - Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。
提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。
我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2025-05-01T17:45:59Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。
textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。
textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文 参考訳(メタデータ) (2024-08-01T00:00:43Z) - Learning Multi-view Anomaly Detection with Efficient Adaptive Selection [42.94263165352097]
シングルビュータスクは他の視点で盲点に遭遇し、結果としてサンプルレベルの予測が不正確になる。
マルチビューから特徴を学習・統合するMVAD(Multi-View Anomaly Detection)アプローチを導入する。
マルチクラス設定下でのリアルIADデータセットの実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-07-16T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。