論文の概要: Artificial intelligence for context-aware visual change detection in software test automation
- arxiv url: http://arxiv.org/abs/2405.00874v2
- Date: Mon, 06 Oct 2025 20:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.781863
- Title: Artificial intelligence for context-aware visual change detection in software test automation
- Title(参考訳): ソフトウェアテスト自動化における文脈認識型視覚変化検出のための人工知能
- Authors: Milad Moradi, Ke Yan, David Colwell, Rhona Asgari,
- Abstract要約: ソフトウェアテスト自動化におけるコンテキスト認識型視覚変化検出のための新しいグラフベースのアプローチを提案する。
実世界のソフトウェアスクリーンショットのキュレートされたデータセットに対する我々のアプローチを評価し、単純かつ複雑なUI変更の両方を確実に検出できることを実証した。
- 参考スコア(独自算出の注目度): 5.182076496564637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated software testing is integral to the software development process, streamlining workflows and ensuring product reliability. Visual testing, particularly for user interface (UI) and user experience (UX) validation, plays a vital role in maintaining software quality. However, conventional techniques such as pixel-wise comparison and region-based visual change detection often fail to capture contextual similarities, subtle variations, and spatial relationships between UI elements. In this paper, we propose a novel graph-based approach for context-aware visual change detection in software test automation. Our method leverages a machine learning model (YOLOv5) to detect UI controls from software screenshots and constructs a graph that models their contextual and spatial relationships. This graph structure is then used to identify correspondences between UI elements across software versions and to detect meaningful changes. The proposed method incorporates a recursive similarity computation that combines structural, visual, and textual cues, offering a robust and holistic model of UI changes. We evaluate our approach on a curated dataset of real-world software screenshots and demonstrate that it reliably detects both simple and complex UI changes. Our method significantly outperforms pixel-wise and region-based baselines, especially in scenarios requiring contextual understanding. We also discuss current limitations related to dataset diversity, baseline complexity, and model generalization, and outline planned future improvements. Overall, our work advances the state of the art in visual change detection and provides a practical solution for enhancing the reliability and maintainability of evolving software interfaces.
- Abstract(参考訳): 自動化されたソフトウェアテストは、ソフトウェア開発プロセスに不可欠なもので、ワークフローを合理化し、製品の信頼性を保証する。
ビジュアルテスト、特にユーザインターフェース(UI)とユーザエクスペリエンス(UX)の検証は、ソフトウェア品質を維持する上で重要な役割を担います。
しかし、画素比較や領域ベースの視覚変化検出といった従来の手法は、文脈的類似性、微妙なバリエーション、UI要素間の空間的関係を捉えるのに失敗することが多い。
本稿では,ソフトウェアテスト自動化におけるコンテキスト認識型視覚変化検出のための新しいグラフベースのアプローチを提案する。
本手法は機械学習モデル(YOLOv5)を用いて,ソフトウェアスクリーンショットからUI制御を検出し,そのコンテキストと空間の関係をモデル化したグラフを構築する。
このグラフ構造は、ソフトウェアバージョン間のUI要素間の対応を識別し、意味のある変更を検出するために使用される。
提案手法は, 構造的, 視覚的, テキスト的キューを組み合わせた再帰的類似性計算を取り入れ, 堅牢かつ総合的なUI変更モデルを提供する。
実世界のソフトウェアスクリーンショットのキュレートされたデータセットに対する我々のアプローチを評価し、単純かつ複雑なUI変更の両方を確実に検出できることを実証した。
本手法は,特に文脈的理解を必要とするシナリオにおいて,ピクセルワイドおよび領域ベースラインを著しく上回る。
また、データセットの多様性、ベースラインの複雑さ、モデル一般化に関する現在の制限についても論じ、今後の改善を概説する。
全体として、我々の研究は、視覚的変化検出の最先端を推し進め、進化するソフトウェアインタフェースの信頼性と保守性を高めるための実践的なソリューションを提供する。
関連論文リスト
- LLMShot: Reducing snapshot testing maintenance via LLMs [0.5218155982819203]
スナップショットテストは、現代のソフトウェア開発におけるUIバリデーションの重要なテクニックとして登場した。
本稿では、VLM(Vision-Language Models)を利用して、スナップショットテストの失敗を自動的に解析する新しいフレームワークであるLLMShotを紹介する。
論文 参考訳(メタデータ) (2025-07-14T08:47:19Z) - Automated Testing of the GUI of a Real-Life Engineering Software using Large Language Models [45.498315114762484]
テストは、エンドユーザに提示されるソフトウェアの非直感的な振る舞いを決定することを目的としています。
ソフトウェアの開発には貴重なフィードバックを提供するが、実行には時間を要する。
本稿では,Large Language Models (LLMs) を用いて,現実のエンジニアリングソフトウェアにおけるGUIの探索テストを行うシステムであるGERALLTについて述べる。
論文 参考訳(メタデータ) (2025-05-23T12:53:28Z) - A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。
大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。
本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文 参考訳(メタデータ) (2025-03-27T17:58:31Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems [57.30711059396246]
現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。
人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
論文 参考訳(メタデータ) (2025-03-09T06:14:17Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Grounded GUI Understanding for Vision Based Spatial Intelligent Agent: Exemplified by Virtual Reality Apps [41.601579396549404]
仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。
人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。
論文 参考訳(メタデータ) (2024-09-17T00:58:00Z) - Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model [27.97964877860671]
本稿では,マルチモーダル大規模言語モデルを用いて,非クラッシュな機能的バグを検出する視覚駆動型GUIテスト手法を提案する。
GUIテキスト情報を抽出し、スクリーンショットと整列して視覚プロンプトを形成することで、MLLMはGUIコンテキストを理解することができる。
VisionDroidは、Google Playの29の新しいバグを特定し、そのうち19が確認され、修正されている。
論文 参考訳(メタデータ) (2024-07-03T11:58:09Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Gamified GUI testing with Selenium in the IntelliJ IDE: A Prototype Plugin [0.559239450391449]
本稿では,IntelliJ IDEA用のガミフィケーションプラグインのプロトタイプであるGIPGUTについて述べる。
このプラグインは、達成、報酬、プロファイルのカスタマイズを通じて、単調で退屈なタスクにテスタのエンゲージメントを高める。
その結果,ゲーミフィケーション要素の高利用性と肯定的な受容性が示唆された。
論文 参考訳(メタデータ) (2024-03-14T20:11:11Z) - Automated Testing for Text-to-Image Software [0.0]
ACTestingは、T2I(text-to-image)ソフトウェアの自動クロスモーダルテスト手法である。
本稿では,ACTestingがエラー検出テストを生成することにより,ベースラインと比較してテキストイメージの一貫性を最大20%低減できることを示す。
その結果、ACTestingはT2Iソフトウェアの異常動作を効果的に識別できることがわかった。
論文 参考訳(メタデータ) (2023-12-20T11:19:23Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Automated User Experience Testing through Multi-Dimensional Performance
Impact Analysis [0.0]
新規な自動ユーザエクスペリエンステスト手法を提案する。
コードの変更が時間単位とシステムテストにどう影響するかを学び、この情報に基づいてユーザエクスペリエンスの変更を推定します。
当社のオープンソースツールは,ランダムフォレストレグレッサで絶対誤差率3.7%を達成した。
論文 参考訳(メタデータ) (2021-04-08T01:18:01Z) - Applied Awareness: Test-Driven GUI Development using Computer Vision and
Cryptography [0.0]
テスト駆動開発は非現実的であり、一般的には、黄金の画像を生成したり、インタラクティブなテストシナリオを構築するためにGUIの初期実装を必要とします。
バックエンド通信の観点でGUIプレゼンテーションを解釈する,新しいかつ即時適用可能な手法を実証する。
このバックエンド通信は、プラットフォームに依存したUIアベイランスやアクセシビリティ機能に依存する典型的なテスト方法論の欠陥を回避する。
論文 参考訳(メタデータ) (2020-06-05T22:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。