Fugu-MT 論文翻訳(概要): RESP: Reference-guided Sequential Prompting for Visual Glitch Detection in Video Games

論文の概要: RESP: Reference-guided Sequential Prompting for Visual Glitch Detection in Video Games

arxiv url: http://arxiv.org/abs/2604.11082v1
Date: Mon, 13 Apr 2026 07:04:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.378346
Title: RESP: Reference-guided Sequential Prompting for Visual Glitch Detection in Video Games
Title（参考訳）: RESP:ビデオゲームにおける視覚グリッチ検出のための基準誘導シーケンスプロンプト
Authors: Yakun Yu, Ashley Wiens, Adrián Barahona-Ríos, Benedict Wilkins, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer,
Abstract要約: 視覚言語モデル(VLM)を用いたゲームプレイグリッチ検出のための実用的多フレームフレームワークRESPを提案する。各テストフレームに対して、同じビデオの早期から参照フレームを選択し、視覚的ベースラインを確立する。 RESPは、VLMを微調整することなく、ノイズの多いフレーム予測を安定したビデオレベル決定に集約する。
参考スコア（独自算出の注目度）: 12.71084447285112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual glitches in video games degrade player experience and perceived quality, yet manual quality assurance cannot scale to the growing test surface of modern game development. Prior automation efforts, particularly those using vision-language models (VLMs), largely operate on single frames or rely on limited video-level baselines that struggle under realistic scene variation, making robust video-level glitch detection challenging. We present RESP, a practical multi-frame framework for gameplay glitch detection with VLMs. Our key idea is reference-guided prompting: for each test frame, we select a reference frame from earlier in the same video, establishing a visual baseline and reframing detection as within-video comparison rather than isolated classification. RESP sequentially prompts the VLM with reference/test pairs and aggregates noisy frame predictions into a stable video-level decision without fine-tuning the VLM. To enable controlled analysis of reference effects, we introduce RefGlitch, a synthetic dataset of manually labeled reference/test frame pairs with balanced coverage across five glitch types. Experiments across five VLMs and three datasets (one synthetic, two real-world) show that reference guidance consistently strengthens frame-level detection and that the improved frame-level evidence reliably transfers to stronger video-level triage under realistic QA conditions. Code and data are available at: \href{https://github.com/PipiZong/RESP_code.git}{this https URL}.
Abstract（参考訳）: ビデオゲームのビジュアルグリップは、プレイヤーの体験と知覚された品質を低下させるが、手作業による品質保証は、現代のゲーム開発におけるテスト面にスケールできない。それまでの自動化作業、特に視覚言語モデル(VLM)は、主に単一のフレームで運用されるか、現実的なシーンの変動に苦しむ限られたビデオレベルのベースラインに依存しており、堅牢なビデオレベルのグリッチ検出を困難にしている。 VLMを用いたゲームプレイグリッチ検出のための実用的マルチフレームフレームワークRESPを提案する。テストフレーム毎に、同じビデオの早期から参照フレームを選択し、視覚的ベースラインを確立し、分離された分類ではなく、ビデオ内比較として再フレーミングする。 RESPは、参照/テストペアでVLMを逐次促し、ノイズの多いフレーム予測をVLMを微調整することなく安定したビデオレベル決定に集約する。手動ラベル付き参照/テストフレームペアの合成データセットであるRefGlitchを導入する。 5つのVLMと3つのデータセット(1つの合成、2つの実世界)にわたる実験により、参照ガイダンスはフレームレベルの検出を一貫して強化し、改善されたフレームレベルの証拠は現実的なQA条件下でより強力なビデオレベルのトリアージに確実に移行することを示した。コードとデータは以下の通りである。 \href{https://github.com/PipiZong/RESP_code.git}{this https URL}。

関連論文リスト

How Far Can VLMs Go for Visual Bug Detection? Studying 19,738 Keyframes from 41 Hours of Gameplay Videos [41.46982669196867]
長めのゲームプレイのためのビデオベースの品質保証(QA)は、労働集約的でエラーを起こしやすい。近年のベンチマークでは、視覚言語モデル(VLM)は、キュレートされたデータセットの視覚的グリッチの検出において、有望な結果が得られることが示唆されている。
論文参考訳（メタデータ） (2026-03-24T01:59:06Z)
VideoBrain: Learning Adaptive Frame Sampling for Long Video Understanding [9.415923244280542]
VideoBrainは、Vision-Language Modelsが学習したサンプリングポリシーを通じて視覚情報を適応的に取得することを可能にするエンドツーエンドフレームワークである。提案手法は,ビデオ間の意味検索を行うCLIPエージェントと,時間間隔内での高密度サンプリングを行うUniformエージェントの2つの補完エージェントを特徴とする。
論文参考訳（メタデータ） (2026-02-04T00:08:35Z)
VC-Bench: Pioneering the Video Connecting Benchmark with a Dataset and Evaluation Metrics [83.61875204972465]
ビデオ接続(Video Connecting)は,ビデオクリップの開始と終了の間にスムーズな中間映像コンテンツを生成するタスクである。このギャップを埋めるため、私たちはビデオ接続に特化した新しいベンチマークであるVC-Benchを提案しました。 VC-Benchは、ビデオ品質スコアVQS、スタート-エンド一貫性スコアSECS、トランジッションスムースネススコアSSの3つの中核的な側面に焦点を当てている。
論文参考訳（メタデータ） (2026-01-27T06:15:12Z)
VideoHEDGE: Entropy-Based Hallucination Detection for Video-VLMs via Semantic Clustering and Spatiotemporal Perturbations [4.509454543418357]
ビデオ対応視覚モデル (VideoVLMs) の幻覚は、今も頻繁かつ高信頼である。質問応答における幻覚検出のためのモジュラーフレームワークであるVideoHedGEを紹介する。
論文参考訳（メタデータ） (2026-01-13T13:42:05Z)
FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。 Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文参考訳（メタデータ） (2025-09-28T17:59:43Z)
DUAL-VAD: Dual Benchmarks and Anomaly-Focused Sampling for Video Anomaly Detection [8.294763803639391]
ビデオ異常検出(VAD)は、監視と公衆の安全のために重要である。既存のベンチマークはフレームレベルかビデオレベルのタスクに限られている。本研究は、フルビデオカバレッジを維持しながら、異常度セグメントを優先するソフトマックスベースのフレーム割り当て戦略を導入する。
論文参考訳（メタデータ） (2025-09-15T05:48:22Z)
DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。 DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文参考訳（メタデータ） (2025-03-18T06:49:51Z)
Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-19T14:21:46Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。 FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文参考訳（メタデータ） (2022-01-06T02:05:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。