論文の概要: LLMShot: Reducing snapshot testing maintenance via LLMs
- arxiv url: http://arxiv.org/abs/2507.10062v2
- Date: Thu, 24 Jul 2025 11:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.111687
- Title: LLMShot: Reducing snapshot testing maintenance via LLMs
- Title(参考訳): LLMShot: LLMによるスナップショットテストのメンテナンスの削減
- Authors: Ergün Batuhan Kaynak, Mayasah Lami, Sahand Moslemi, Anil Koyuncu,
- Abstract要約: スナップショットテストは、現代のソフトウェア開発におけるUIバリデーションの重要なテクニックとして登場した。
本稿では、VLM(Vision-Language Models)を利用して、スナップショットテストの失敗を自動的に解析する新しいフレームワークであるLLMShotを紹介する。
- 参考スコア(独自算出の注目度): 0.5218155982819203
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Snapshot testing has emerged as a critical technique for UI validation in modern software development, yet it suffers from substantial maintenance overhead due to frequent UI changes causing test failures that require manual inspection to distinguish between genuine regressions and intentional design changes. This manual triage process becomes increasingly burdensome as applications evolve, creating a need for automated analysis solutions. This paper introduces LLMShot, a novel framework that leverages Vision-Language Models (VLMs) to automatically analyze snapshot test failures through semantic classification of UI changes. To evaluate LLMShot's effectiveness, we developed a comprehensive dataset using a feature-rich iOS application with configurable feature flags, creating realistic scenarios that produce authentic snapshot differences representative of real development workflows. Our evaluation using Gemma3 models demonstrates strong classification performance, with the 12B variant achieving over 84% recall in identifying failure root causes while the 4B model offers practical deployment advantages with acceptable performance for continuous integration environments. However, our exploration of selective ignore mechanisms revealed significant limitations in current prompting-based approaches for controllable visual reasoning. LLMShot represents the first automated approach to semantic snapshot test analysis, offering developers structured insights that can substantially reduce manual triage effort and advance toward more intelligent UI testing paradigms.
- Abstract(参考訳): スナップショットテストは、現代のソフトウェア開発において、UI検証にとって重要なテクニックとして登場したが、実際の回帰と意図的な設計変更を区別するために手動検査を必要とするテストの失敗を引き起こす、頻繁なUI変更による保守上のオーバーヘッドに悩まされている。
アプリケーションが進化するにつれて、この手動トリアージプロセスはますます重荷になり、自動分析ソリューションの必要性が生まれます。
本稿では、視覚言語モデル(VLM)を利用した新しいフレームワークであるLLMShotを紹介し、UI変更のセマンティックな分類を通じて、テストの失敗を自動的に解析する。
LLMShotの有効性を評価するために、私たちは、設定可能な機能フラグを備えた機能豊富なiOSアプリケーションを使用して包括的なデータセットを開発し、実際の開発ワークフローを表す真のスナップショット差を生成する現実的なシナリオを作成しました。
Gemma3モデルを用いた評価では,障害根本原因を特定する上で,12Bモデルが84%以上のリコールを達成した一方で,4Bモデルは継続的統合環境において許容されるパフォーマンスで,実用的なデプロイメントアドバンテージを提供する。
しかし, 選択的無視機構の探索により, 制御可能な視覚的推論のためのプロンプトベースアプローチの限界が明らかとなった。
LLMShotは、セマンティックスナップショットテスト分析に対する最初の自動化アプローチであり、手作業によるトリアージの労力を大幅に削減し、よりインテリジェントなUIテストパラダイムへの前進が可能な、構造化された洞察を提供する。
関連論文リスト
- TAPS : Frustratingly Simple Test Time Active Learning for VLMs [0.0]
テスト時間最適化により、モデルはパラメータをオンザフライで更新することで、推論中に新しいデータに適応できる。
本研究では,不確実なサンプルを適応的にクエリし,動的に更新するテスト時アクティブラーニングフレームワークを提案する。
我々のフレームワークは、自律システムや医療診断などの安全クリティカルなアプリケーションに現実世界を配置するための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-26T18:04:49Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - The Achilles Heel of AI: Fundamentals of Risk-Aware Training Data for High-Consequence Models [0.0]
高頻度ドメインのAIシステムは、厳密なリソース制約の下で運用しながら、稀で高インパクトなイベントを検出する必要がある。
ラベルのボリュームを情報的価値よりも優先する従来のアノテーション戦略は冗長性とノイズをもたらす。
本稿では、ラベルの多様性、モデル誘導選択、限界ユーティリティベースの停止を強調するトレーニングデータ戦略であるスマートサイズについて紹介する。
論文 参考訳(メタデータ) (2025-05-20T22:57:35Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - An Autonomous RL Agent Methodology for Dynamic Web UI Testing in a BDD Framework [0.0]
本稿では,自律型強化学習(RL)エージェントを振る舞い駆動開発(BDD)フレームワークに統合し,ユーザインターフェーステストを強化する。
RLの適応的意思決定機能を活用することで、提案手法は、特定のビジネス期待や実際のユーザ行動に適合したテストシナリオを動的に生成し、洗練する。
論文 参考訳(メタデータ) (2025-03-11T14:12:50Z) - AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models [11.958545255487735]
NLPモデルの自動化および多次元テストフレームワークであるAutoTestForgeを紹介する。
AutoTestForge内では、テストテンプレートを自動的に生成してインスタンス化するLarge Language Models(LLM)の利用により、手作業による関与が大幅に削減される。
また、このフレームワークは、分類学、公正性、堅牢性の3つの側面にまたがってテストスイートを拡張し、NLPモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2025-03-07T02:44:17Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [20.307151769610087]
連続的テスト時間適応(CTTA)は、目標ドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望な手法として登場した。
我々は3つのコアコンポーネントを特徴とするAMRODについて,CTTAシナリオにおける検出モデルに対するこれらの課題に対処する。
我々は,AMRODが既存の方法よりも優れている4つのCTTAオブジェクト検出タスクにおいて,AMRODの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。