Fugu-MT 論文翻訳(概要): Exploring the Capabilities of Vision-Language Models to Detect Visual Bugs in HTML5 <canvas> Applications

論文の概要: Exploring the Capabilities of Vision-Language Models to Detect Visual Bugs in HTML5

arxiv url: http://arxiv.org/abs/2501.09236v1
Date: Thu, 16 Jan 2025 01:42:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-17 16:36:32.121308
Title: Exploring the Capabilities of Vision-Language Models to Detect Visual Bugs in HTML5 <canvas> Applications
Title（参考訳）: HTML5<canvas>アプリケーションにおける視覚境界モデルの視覚バグ検出機能の検討
Authors: Finlay Macklon, Cor-Paul Bezemer,
Abstract要約: HTML5 canvas> アプリケーションは、ドキュメントオブジェクトモデル(DOM)でそれらを表現することなく、オブジェクトをcanvas> bitmapにレンダリングする。 canvas>ビットマップの期待値と実際の視覚出力のミスマッチを視覚的バグと呼ぶ。 VisionLanguage Models (VLM)は、アプリケーション毎に最大100%の精度で視覚的バグを自動的に検出する。
参考スコア（独自算出の注目度）: 3.1175681933383976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The HyperText Markup Language 5 (HTML5) <canvas> is useful for creating visual-centric web applications. However, unlike traditional web applications, HTML5 <canvas> applications render objects onto the <canvas> bitmap without representing them in the Document Object Model (DOM). Mismatches between the expected and actual visual output of the <canvas> bitmap are termed visual bugs. Due to the visual-centric nature of <canvas> applications, visual bugs are important to detect because such bugs can render a <canvas> application useless. As we showed in prior work, Asset-Based graphics can provide the ground truth for a visual test oracle. However, many <canvas> applications procedurally generate their graphics. In this paper, we investigate how to detect visual bugs in <canvas> applications that use Procedural graphics as well. In particular, we explore the potential of Vision-Language Models (VLMs) to automatically detect visual bugs. Instead of defining an exact visual test oracle, information about the application's expected functionality (the context) can be provided with the screenshot as input to the VLM. To evaluate this approach, we constructed a dataset containing 80 bug-injected screenshots across four visual bug types (Layout, Rendering, Appearance, and State) plus 20 bug-free screenshots from 20 <canvas> applications. We ran experiments with a state-of-the-art VLM using several combinations of text and image context to describe each application's expected functionality. Our results show that by providing the application README(s), a description of visual bug types, and a bug-free screenshot as context, VLMs can be leveraged to detect visual bugs with up to 100% per-application accuracy.
Abstract（参考訳）: HyperText Markup Language 5 (HTML5) <canvas>は視覚中心のWebアプリケーションを作成するのに役立ちます。しかし、従来のWebアプリケーションとは異なり、HTML5 <canvas>アプリケーションはドキュメントオブジェクトモデル(DOM)で表現することなく、<canvas>ビットマップにオブジェクトをレンダリングします。 canvas>ビットマップの期待値と実際の視覚出力のミスマッチを視覚的バグと呼ぶ。 canvas>アプリケーションの視覚中心的な性質のため、このようなバグは<canvas>アプリケーションを役に立たないため、視覚的なバグを検出することが重要だ。以前の研究で示したように、アセットベースのグラフィックスは、視覚的なテストのオラクルの基礎となる真実を提供することができる。しかし、多くの<canvas>アプリケーションは手続き的にグラフィックを生成する。本稿では,プロシージャグラフィックスを用いた<canvas>アプリケーションにおける視覚的バグの検出方法について検討する。特に視覚言語モデル(VLM)の可能性を探り、視覚的バグを自動的に検出する。正確なビジュアルテストのオラクルを定義する代わりに、アプリケーションの期待される機能(コンテキスト)に関する情報に、VLMへのインプットとしてスクリーンショットが提供される。このアプローチを評価するために、我々は、4種類の視覚的バグタイプ(レイアウト、レンダリング、外観、状態)に80のバグ注入スクリーンショットと、20の<canvas>アプリケーションから20のバグフリースクリーンショットを含むデータセットを構築した。我々は、各アプリケーションの期待する機能を記述するために、テキストと画像コンテキストの組み合わせを使って、最先端のVLMで実験を行った。その結果、アプリケーションREADME(s)、視覚的なバグタイプの説明、コンテキストとしてのバグのないスクリーンショットを提供することで、最大100%のアプリケーション毎の精度で視覚的なバグを検出することができることがわかった。

関連論文リスト

ViMo: A Generative Visual GUI World Model for App Agent [60.27668506731929]
ViMoは、将来のApp観測をイメージとして生成するために設計されたビジュアルワールドモデルである。本稿では,シンボルプレースホルダーによるテキストコンテンツをオーバーレイする新しいデータ表現であるシンボリックテキスト表現を提案する。この設計では、将来のGUIのグラフィックスを予測するSTR Predictorと、対応するテキストを生成するGUI-text Predictorが使用されている。
論文参考訳（メタデータ） (2025-04-15T14:03:10Z)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
VASCAR: Content-Aware Layout Generation via Visual-Aware Self-Correction [17.546914477490585]
大規模言語モデル(LLM)は、構造記述言語を生成できるため、レイアウト生成に有効であることが証明されている。画像が知覚できないという本質的な制限は、視覚的コンテンツを必要とするタスクにおいて、その効果を制限していると論じる。 VASCAR(Visual-Aware Self-Correction Layout Generation)を提案する。
論文参考訳（メタデータ） (2024-12-05T15:17:06Z)
Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-09-25T17:59:13Z)
Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps [26.96558418166514]
本稿では,非クラッシュな機能的バグを検出するための,視覚駆動型多エージェント協調GUIテスト手法を提案する。 590の非クラッシュバグに対してTridentを評価し,12のベースラインと比較したところ,平均リコールと精度が14%-112%,108%-147%向上した。
論文参考訳（メタデータ） (2024-07-03T11:58:09Z)
Improving Language Understanding from Screenshots [56.40401271149811]
新たな言語モデル(LM)は、テキストとイメージの両方を単一のビジュアルビュー内で処理することができる。既存のスクリーンショット LM は、言語理解タスクのテキストのみのモデルに遅れている。本稿では,スクリーンショット中のスクリーンショットとテキストのイメージパッチをマスクし,復元する,新しいパッチ・アンド・テキスト予測手法を提案する。
論文参考訳（メタデータ） (2024-02-21T19:01:03Z)
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。 GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文参考訳（メタデータ） (2024-01-24T09:07:11Z)
IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文参考訳（メタデータ） (2023-12-04T09:48:29Z)
Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文参考訳（メタデータ） (2023-06-02T19:19:43Z)
VisorGPT: Learning Visual Prior via Generative Pre-Training [39.40924670971505]
視覚データのさまざまなものやものは、特定の特性を持ち、深層ニューラルネットワークによって学習され、視覚的先行として暗黙的に表現される。我々は、VisorGPTと呼ばれるジェネレーティブ・プレトレーニングを通じて、ビジュアル・プレトレーニングを学ぶことを提案する。境界ボックス、人間のポーズ、インスタンスマスクなどのオブジェクトの視覚的位置を識別することで、VisorGPTは可能性を通じて視覚的事前をモデル化することができる。
論文参考訳（メタデータ） (2023-05-23T07:45:23Z)
Visually-augmented pretrained language models for NLP tasks without images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文参考訳（メタデータ） (2022-12-15T16:13:25Z)
A Taxonomy of Testable HTML5 Canvas Issues [4.023111415587305]
HTML5 canvas>は、Webアプリケーションで高品質なグラフィックを表示するために広く使われている。そこで本論文では, キャンバスの今後の研究を支援するために, テスト可能なキャンバスの分類について述べる。
論文参考訳（メタデータ） (2022-01-18T23:13:37Z)
GLIB: Towards Automated Test Oracle for Graphically-Rich Applications [26.940850357831657]
我々は,ゲームGUIの不具合を検出するためのコードベースのデータ拡張技術に基づくtextttGLIBを提案する。 textttGLIBは、ゲームGUIグリッチのような非クラッシングバグを検出する際に、100%の精度と99.5%のリコールを達成することができる。
論文参考訳（メタデータ） (2021-06-19T14:50:43Z)
Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。 ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文参考訳（メタデータ） (2020-08-04T08:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。

論文の概要: Exploring the Capabilities of Vision-Language Models to Detect Visual Bugs in HTML5 Applications

関連論文リスト

論文の概要: Exploring the Capabilities of Vision-Language Models to Detect Visual Bugs in HTML5