Fugu-MT 論文翻訳(概要): How Far Can VLMs Go for Visual Bug Detection? Studying 19,738 Keyframes from 41 Hours of Gameplay Videos

論文の概要: How Far Can VLMs Go for Visual Bug Detection? Studying 19,738 Keyframes from 41 Hours of Gameplay Videos

arxiv url: http://arxiv.org/abs/2603.22706v1
Date: Tue, 24 Mar 2026 01:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.244627
Title: How Far Can VLMs Go for Visual Bug Detection? Studying 19,738 Keyframes from 41 Hours of Gameplay Videos
Title（参考訳）: VLMの視覚バグ検出はどこまで可能か? 41時間のゲームプレイビデオから19,738の鍵フレームを調査
Authors: Wentao Lu, Alexander Senchenko, Alan Sayle, Abram Hindle, Cor-Paul Bezemer,
Abstract要約: 長めのゲームプレイのためのビデオベースの品質保証(QA)は、労働集約的でエラーを起こしやすい。近年のベンチマークでは、視覚言語モデル(VLM)は、キュレートされたデータセットの視覚的グリッチの検出において、有望な結果が得られることが示唆されている。
参考スコア（独自算出の注目度）: 41.46982669196867
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video-based quality assurance (QA) for long-form gameplay video is labor-intensive and error-prone, yet valuable for assessing game stability and visual correctness over extended play sessions. Vision language models (VLMs) promise general-purpose visual reasoning capabilities and thus appear attractive for detecting visual bugs directly from video frames. Recent benchmarks suggest that VLMs can achieve promising results in detecting visual glitches on curated datasets. Building on these findings, we conduct a real-world study using industrial QA gameplay videos to evaluate how well VLMs perform in practical scenarios. Our study samples keyframes from long gameplay videos and asks a VLM whether each keyframe contains a bug. Starting from a single-prompt baseline, the model achieves a precision of 0.50 and an accuracy of 0.72. We then examine two common enhancement strategies used to improve VLM performance without fine-tuning: (1) a secondary judge model that re-evaluates VLM outputs, and (2) metadata-augmented prompting through the retrieval of prior bug reports. Across \textbf{100 videos} totaling \textbf{41 hours} and \textbf{19,738 keyframes}, these strategies provide only marginal improvements over the simple baseline, while introducing additional computational cost and output variance. Our findings indicate that off-the-shelf VLMs are already capable of detecting a certain range of visual bugs in QA gameplay videos, but further progress likely requires hybrid approaches that better separate textual and visual anomaly detection.
Abstract（参考訳）: 長めのゲームプレイビデオのためのビデオベースの品質保証(QA)は、労働集約的でエラーを起こしやすいが、拡張されたプレイセッションよりもゲームの安定性と視覚的正しさを評価するのに有用である。視覚言語モデル(VLM)は、汎用的な視覚推論能力を約束するので、ビデオフレームから直接視覚的バグを検出するのに魅力的である。最近のベンチマークでは、VLMは、キュレートされたデータセットの視覚的グリッチの検出において、有望な結果が得られることが示唆されている。これらの結果に基づいて,産業用QAゲームプレイビデオを用いた実世界調査を行い,実運用シナリオにおけるVLMの性能評価を行った。本研究は,長編ゲームプレイビデオからキーフレームを抽出し,各キーフレームにバグがあるかどうかをVLMに尋ねる。単発ベースラインから始まり、精度は0.50、精度は0.72となる。次に,VLM出力を再評価する2次判定モデルと,前回のバグレポートの検索を通じてメタデータを付加する2次判定モデルについて検討する。 textbf{100 video} の合計は \textbf{41 hours} と \textbf{19,738 keyframes} の合計で、これらの戦略は計算コストと出力分散を付加しながら、単純なベースラインよりも限界的な改善しか提供しない。以上の結果から,市販のVLMは,すでにQAゲームプレイビデオの特定の視覚的バグを検出することができるが,さらなる進歩には,テキストと視覚の異常検出を分離するためのハイブリッドアプローチが必要である可能性が示唆された。

関連論文リスト

VideoBrain: Learning Adaptive Frame Sampling for Long Video Understanding [9.415923244280542]
VideoBrainは、Vision-Language Modelsが学習したサンプリングポリシーを通じて視覚情報を適応的に取得することを可能にするエンドツーエンドフレームワークである。提案手法は,ビデオ間の意味検索を行うCLIPエージェントと,時間間隔内での高密度サンプリングを行うUniformエージェントの2つの補完エージェントを特徴とする。
論文参考訳（メタデータ） (2026-02-04T00:08:35Z)
Same or Not? Enhancing Visual Perception in Vision-Language Models [6.971464056247448]
視覚言語モデル(VLM)は、広い視覚的理解において優れているが、粗い粒度のままであり、視覚バイアスを示し、微妙な視覚的詳細を見逃す。そこで我々は,VLMの知覚能力を高めるために,新たなトレーニングコーパスとタスクを導入する。 TWINは561,000のイメージペアクエリの大規模なデータセットで、2つの視覚的に類似したイメージが同じオブジェクトを描いているかをモデルで判断する。
論文参考訳（メタデータ） (2025-12-29T16:43:47Z)
Visually Prompted Benchmarks Are Surprisingly Fragile [82.98001690512461]
VLMを評価する上で重要な課題は、視覚コンテンツをテキストから独立して分析する能力をテストすることである。ビジュアルマーカーの設計やデータセットサイズなど,ベンチマーク設定の詳細が,モデルパフォーマンスやリーダボードのランキングに大きく影響していることを実証する。この不安定性を軽減するため、既存のデータセットをキュレートして16のビジュアルマーカーのバリエーションを備えた、より大きな視覚的にトリガーされたベンチマークであるVPBenchを作成します。
論文参考訳（メタデータ） (2025-12-19T18:26:58Z)
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文参考訳（メタデータ） (2025-11-25T19:22:48Z)
Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文参考訳（メタデータ） (2025-07-10T15:26:41Z)
Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。 VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文参考訳（メタデータ） (2025-06-09T17:59:54Z)
BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。近年の研究では、VLMは幻覚に弱いことが示されている。我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文参考訳（メタデータ） (2024-07-18T12:11:12Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。