Fugu-MT 論文翻訳(概要): Artificial intelligence for context-aware visual change detection in software test automation

論文の概要: Artificial intelligence for context-aware visual change detection in software test automation

arxiv url: http://arxiv.org/abs/2405.00874v1
Date: Wed, 1 May 2024 21:22:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 18:33:31.733847
Title: Artificial intelligence for context-aware visual change detection in software test automation
Title（参考訳）: ソフトウェアテスト自動化における文脈認識型視覚変化検出のための人工知能
Authors: Milad Moradi, Ke Yan, David Colwell, Rhona Asgari,
Abstract要約: 本稿では,ソフトウェアテスト自動化における視覚的変化検出のためのグラフベースの新しい手法を提案する。本手法は,ソフトウェアスクリーンショットからUI制御を正確に識別し,制御間の文脈的・空間的関係を表すグラフを構築する。様々な単純で複雑なテストシナリオにおいて、視覚的ソフトウェアの変更を正確に検出できる。
参考スコア（独自算出の注目度）: 5.174422378856116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated software testing is integral to the software development process, streamlining workflows and ensuring product reliability. Visual testing within this context, especially concerning user interface (UI) and user experience (UX) validation, stands as one of crucial determinants of overall software quality. Nevertheless, conventional methods like pixel-wise comparison and region-based visual change detection fall short in capturing contextual similarities, nuanced alterations, and understanding the spatial relationships between UI elements. In this paper, we introduce a novel graph-based method for visual change detection in software test automation. Leveraging a machine learning model, our method accurately identifies UI controls from software screenshots and constructs a graph representing contextual and spatial relationships between the controls. This information is then used to find correspondence between UI controls within screenshots of different versions of a software. The resulting graph encapsulates the intricate layout of the UI and underlying contextual relations, providing a holistic and context-aware model. This model is finally used to detect and highlight visual regressions in the UI. Comprehensive experiments on different datasets showed that our change detector can accurately detect visual software changes in various simple and complex test scenarios. Moreover, it outperformed pixel-wise comparison and region-based baselines by a large margin in more complex testing scenarios. This work not only contributes to the advancement of visual change detection but also holds practical implications, offering a robust solution for real-world software test automation challenges, enhancing reliability, and ensuring the seamless evolution of software interfaces.
Abstract（参考訳）: 自動化されたソフトウェアテストは、ソフトウェア開発プロセスに不可欠なもので、ワークフローを合理化し、製品の信頼性を保証する。このコンテキストにおけるビジュアルテスト、特にユーザインターフェース(UI)とユーザエクスペリエンス(UX)の検証は、ソフトウェア全体の品質の重要な決定要因の1つです。それにもかかわらず、ピクセルワイズ比較や領域ベースの視覚変化検出のような従来の手法は、文脈的類似性、ニュアンス付き変化、UI要素間の空間的関係の理解において不足している。本稿では,ソフトウェアテスト自動化における視覚的変化検出のためのグラフベースの新しい手法を提案する。機械学習モデルを用いて、ソフトウェアスクリーンショットからUI制御を正確に識別し、制御間の文脈的・空間的関係を表すグラフを構築する。この情報は、ソフトウェアの異なるバージョンのスクリーンショット内のUIコントロール間の対応を見つけるために使用される。結果として得られるグラフは、UIと基盤となるコンテキスト関係の複雑なレイアウトをカプセル化し、全体的なコンテキスト認識モデルを提供する。このモデルは最終的に、UIの視覚的回帰を検出し、強調するために使用される。異なるデータセットに対する総合的な実験により、我々の変更検出器は、様々な単純で複雑なテストシナリオにおける視覚的ソフトウェア変化を正確に検出できることがわかった。さらに、より複雑なテストシナリオにおいて、ピクセルワイド比較とリージョンベースのベースラインを大きなマージンで上回りました。実際のソフトウェアテスト自動化の課題に対する堅牢なソリューションを提供し、信頼性を高め、ソフトウェアインターフェースのシームレスな進化を保証する。

関連論文リスト

LLMShot: Reducing snapshot testing maintenance via LLMs [0.5218155982819203]
スナップショットテストは、現代のソフトウェア開発におけるUIバリデーションの重要なテクニックとして登場した。本稿では、VLM(Vision-Language Models)を利用して、スナップショットテストの失敗を自動的に解析する新しいフレームワークであるLLMShotを紹介する。
論文参考訳（メタデータ） (2025-07-14T08:47:19Z)
Automated Testing of the GUI of a Real-Life Engineering Software using Large Language Models [45.498315114762484]
テストは、エンドユーザに提示されるソフトウェアの非直感的な振る舞いを決定することを目的としています。ソフトウェアの開発には貴重なフィードバックを提供するが、実行には時間を要する。本稿では,Large Language Models (LLMs) を用いて,現実のエンジニアリングソフトウェアにおけるGUIの探索テストを行うシステムであるGERALLTについて述べる。
論文参考訳（メタデータ） (2025-05-23T12:53:28Z)
A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文参考訳（メタデータ） (2025-03-27T17:58:31Z)
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems [57.30711059396246]
現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
論文参考訳（メタデータ） (2025-03-09T06:14:17Z)
GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文参考訳（メタデータ） (2024-12-24T13:41:47Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Grounded GUI Understanding for Vision Based Spatial Intelligent Agent: Exemplified by Virtual Reality Apps [41.601579396549404]
仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。
論文参考訳（メタデータ） (2024-09-17T00:58:00Z)
Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model [27.97964877860671]
本稿では,マルチモーダル大規模言語モデルを用いて,非クラッシュな機能的バグを検出する視覚駆動型GUIテスト手法を提案する。 GUIテキスト情報を抽出し、スクリーンショットと整列して視覚プロンプトを形成することで、MLLMはGUIコンテキストを理解することができる。 VisionDroidは、Google Playの29の新しいバグを特定し、そのうち19が確認され、修正されている。
論文参考訳（メタデータ） (2024-07-03T11:58:09Z)
Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。 DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-05-30T07:25:23Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Gamified GUI testing with Selenium in the IntelliJ IDE: A Prototype Plugin [0.559239450391449]
本稿では,IntelliJ IDEA用のガミフィケーションプラグインのプロトタイプであるGIPGUTについて述べる。このプラグインは、達成、報酬、プロファイルのカスタマイズを通じて、単調で退屈なタスクにテスタのエンゲージメントを高める。その結果,ゲーミフィケーション要素の高利用性と肯定的な受容性が示唆された。
論文参考訳（メタデータ） (2024-03-14T20:11:11Z)
Automated Testing for Text-to-Image Software [0.0]
ACTestingは、T2I(text-to-image)ソフトウェアの自動クロスモーダルテスト手法である。本稿では,ACTestingがエラー検出テストを生成することにより,ベースラインと比較してテキストイメージの一貫性を最大20%低減できることを示す。その結果、ACTestingはT2Iソフトウェアの異常動作を効果的に識別できることがわかった。
論文参考訳（メタデータ） (2023-12-20T11:19:23Z)
Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文参考訳（メタデータ） (2023-11-26T09:11:32Z)
Reliable Shot Identification for Complex Event Detection via Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-10-12T11:46:56Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)
Automated User Experience Testing through Multi-Dimensional Performance Impact Analysis [0.0]
新規な自動ユーザエクスペリエンステスト手法を提案する。コードの変更が時間単位とシステムテストにどう影響するかを学び、この情報に基づいてユーザエクスペリエンスの変更を推定します。当社のオープンソースツールは,ランダムフォレストレグレッサで絶対誤差率3.7%を達成した。
論文参考訳（メタデータ） (2021-04-08T01:18:01Z)
Applied Awareness: Test-Driven GUI Development using Computer Vision and Cryptography [0.0]
テスト駆動開発は非現実的であり、一般的には、黄金の画像を生成したり、インタラクティブなテストシナリオを構築するためにGUIの初期実装を必要とします。バックエンド通信の観点でGUIプレゼンテーションを解釈する,新しいかつ即時適用可能な手法を実証する。このバックエンド通信は、プラットフォームに依存したUIアベイランスやアクセシビリティ機能に依存する典型的なテスト方法論の欠陥を回避する。
論文参考訳（メタデータ） (2020-06-05T22:46:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。