Fugu-MT 論文翻訳(概要): Automated Bug Frame Retrieval from Gameplay Videos Using Vision-Language Models

論文の概要: Automated Bug Frame Retrieval from Gameplay Videos Using Vision-Language Models

arxiv url: http://arxiv.org/abs/2508.04895v1
Date: Wed, 06 Aug 2025 21:52:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-08 18:59:39.651733
Title: Automated Bug Frame Retrieval from Gameplay Videos Using Vision-Language Models
Title（参考訳）: 視覚言語モデルを用いたゲームプレイ映像からのバグフレームの自動検索
Authors: Wentao Lu, Alexander Senchenko, Abram Hindle, Cor-Paul Bezemer,
Abstract要約: 報告されたバグ記述に最もよくマッチする単一のフレームに、各動画を縮小するパイプラインを導入する。このアプローチは手作業を大幅に削減し、トリアージと回帰チェックを高速化します。ゲーム業界全体で品質保証チームや開発者に実践的なメリットを提供する。
参考スコア（独自算出の注目度）: 47.63488459021783
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern game studios deliver new builds and patches at a rapid pace, generating thousands of bug reports, many of which embed gameplay videos. To verify and triage these bug reports, developers must watch the submitted videos. This manual review is labour-intensive, slow, and hard to scale. In this paper, we introduce an automated pipeline that reduces each video to a single frame that best matches the reported bug description, giving developers instant visual evidence that pinpoints the bug. Our pipeline begins with FFmpeg for keyframe extraction, reducing each video to a median of just 1.90% of its original frames while still capturing bug moments in 98.79 of cases. These keyframes are then evaluated by a vision--language model (GPT-4o), which ranks them based on how well they match the textual bug description and selects the most representative frame. We evaluated this approach using real-world developer-submitted gameplay videos and JIRA bug reports from a popular First-Person Shooter (FPS) game. The pipeline achieves an overall F1 score of 0.79 and Accuracy of 0.89 for the top-1 retrieved frame. Performance is highest for the Lighting & Shadow (F1 = 0.94), Physics & Collision (0.86), and UI & HUD (0.83) bug categories, and lowest for Animation & VFX (0.51). By replacing video viewing with an immediately informative image, our approach dramatically reduces manual effort and speeds up triage and regression checks, offering practical benefits to quality assurance (QA) teams and developers across the game industry.
Abstract（参考訳）: 現代のゲームスタジオは、新しいビルドとパッチを迅速に提供し、数千のバグレポートを生成し、その多くがゲームプレイビデオを埋め込んでいる。これらのバグレポートの検証とトリアージには、提出されたビデオを見る必要がある。このマニュアルレビューは労働集約的で、遅く、スケールが難しい。本稿では,報告したバグ記述に最もよく一致する1フレームに各動画を縮小する自動パイプラインを導入し,バグをピンポイントする視覚的証拠を開発者に提供する。我々のパイプラインは、キーフレーム抽出のためのFFmpegから始まり、各ビデオは元のフレームのわずか1.90%まで減少し、98.79のケースでまだバグの瞬間を捉えている。これらのキーフレームは視覚言語モデル(GPT-4o)によって評価され、テキストのバグ記述とどのようにマッチするかに基づいてランク付けされ、最も代表的なフレームを選択する。本手法は,FPS(First-Person Shooter)ゲームから,現実の開発者投稿型ゲームプレイビデオとJIRAバグレポートを用いて評価した。パイプライン全体のF1スコアは0.79で、トップ1検索フレームの精度は0.89である。 Lighting & Shadow (F1 = 0.94), Physics & Collision (0.86), UI & HUD (0.83) のバグカテゴリではパフォーマンスが最も高く、アニメーション&VFX (0.51) では最低である。ビデオ視聴を即時に情報的なイメージに置き換えることで、我々のアプローチは手作業を大幅に削減し、トリアージとレグレッションチェックを高速化し、品質保証(QA)チームやゲーム産業の開発者に対して実用的なメリットを提供します。

関連論文リスト

From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos [48.666667545084835]
Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。 TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。 TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
論文参考訳（メタデータ） (2025-06-05T17:31:17Z)
Semantic GUI Scene Learning and Video Alignment for Detecting Duplicate Video-based Bug Reports [16.45808969240553]
ビデオベースのバグレポートは、グラフィカルユーザインタフェース(GUI)を中心としたプログラムのバグの文書化にますます利用されている。我々は、視覚変換器のシーン学習機能に適応して、アプリUI画面に現れる微妙な視覚的およびテキスト的パターンをキャプチャする、JANUSと呼ばれる新しいアプローチを導入する。 Janus氏はまた、ビデオフレームの適応重み付けが可能なビデオアライメント技術を使用して、典型的なバグ発生パターンを考慮している。
論文参考訳（メタデータ） (2024-07-11T15:48:36Z)
Finding the Needle in a Haystack: Detecting Bug Occurrences in Gameplay Videos [10.127506928281413]
本稿では、機械学習を用いて、ゲームプレイビデオの一部にバグの描写が含まれているかどうかを予測する自動化アプローチを提案する。我々は、198本のゲームプレイビデオの4,412のセグメントを分析し、あるセグメントがバグのインスタンスを含んでいるかどうかを予測する。本手法は, バグを含む映像のセグメント検出に有効であり, F1スコア0.88を達成し, バグ分類の最先端技術よりも優れていた。
論文参考訳（メタデータ） (2023-11-18T01:14:18Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)
AutoShot: A Short Video Dataset and State-of-the-Art Shot Boundary Detection [70.99025467739715]
我々はSHOTという新しい公開ショートビデオsHot bOundary deTectionデータセットをリリースする。 SHOTは、853の完全なショートビデオと11,606のショットアノテーションで構成され、2,716の高品質なショット境界アノテーションが200のテストビデオに含まれている。提案手法はAutoShotと呼ばれ,従来の最先端手法よりもF1スコアが高い。
論文参考訳（メタデータ） (2023-04-12T19:01:21Z)
Making Video Quality Assessment Models Sensitive to Frame Rate Distortions [63.749184706461826]
映像品質評価(VQA)の一環として,フレームレートの変化に伴う歪みを捉えることの問題点を考察する。本稿では,GREEDの時間的特徴を既存のVQAモデルと組み合わせた単純な融合フレームワークを提案する。この結果から,効率的な時間表現を用いることで,より堅牢で正確なVQAモデルが得られることが示唆された。
論文参考訳（メタデータ） (2022-05-21T04:13:57Z)
CLIP meets GamePhysics: Towards bug identification in gameplay videos using zero-shot transfer learning [4.168157981135698]
本稿では,関連するゲームプレイ映像を検索するために,英語のテキストクエリを入力として受け入れる検索手法を提案する。われわれのアプローチは外部情報(ビデオメタデータなど)に頼らない。我々のアプローチの例としては、ビデオゲームのバグを再現するためのゲームプレイ用ビデオ検索エンジンがある。
論文参考訳（メタデータ） (2022-03-21T16:23:02Z)
Unsupervised Visual Representation Learning by Tracking Patches in Video [88.56860674483752]
本研究では,コンピュータビジョンシステムのプロキシタスクとしてトラッキングを用いて視覚表現を学習することを提案する。子どもたちがプレイするキャッチゲームをベースに、視覚表現を学ぶ3D-CNNモデルのためのキャッチ・ザ・パッチ(CtP)ゲームを設計します。
論文参考訳（メタデータ） (2021-05-06T09:46:42Z)
Unsupervised Temporal Feature Aggregation for Event Detection in Unstructured Sports Videos [10.230408415438966]
任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
論文参考訳（メタデータ） (2020-02-19T10:24:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。