論文の概要: Artifact-Aware Evaluation for High-Quality Video Generation
- arxiv url: http://arxiv.org/abs/2601.20297v1
- Date: Wed, 28 Jan 2026 06:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.7974
- Title: Artifact-Aware Evaluation for High-Quality Video Generation
- Title(参考訳): 高品質映像生成のためのアーチファクト・アウェア評価
- Authors: Chen Zhu, Jiashu Zhu, Yanxun Li, Meiqi Wu, Bingze Song, Chubin Chen, Jiahong Wu, Xiangxiang Chu, Yangang Wang,
- Abstract要約: 本稿では,人間の知覚に影響を及ぼす3つの重要な側面(外見,動き,カメラ)に焦点をあてた総合評価プロトコルを提案する。
ビデオ生成において観察される一般的な生成障害を反映した10の一般的なアーティファクトカテゴリの分類を用いて,これらの軸を定義した。
堅牢なアーティファクト検出と分類を可能にするために,さまざまな最先端のビデオ生成モデルによって生成された80kビデオの大規模データセットであるGenVIDを導入する。
- 参考スコア(独自算出の注目度): 29.17912473953817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of video generation techniques, evaluating and auditing generated videos has become increasingly crucial. Existing approaches typically offer coarse video quality scores, lacking detailed localization and categorization of specific artifacts. In this work, we introduce a comprehensive evaluation protocol focusing on three key aspects affecting human perception: Appearance, Motion, and Camera. We define these axes through a taxonomy of 10 prevalent artifact categories reflecting common generative failures observed in video generation. To enable robust artifact detection and categorization, we introduce GenVID, a large-scale dataset of 80k videos generated by various state-of-the-art video generation models, each carefully annotated for the defined artifact categories. Leveraging GenVID, we develop DVAR, a Dense Video Artifact Recognition framework for fine-grained identification and classification of generative artifacts. Extensive experiments show that our approach significantly improves artifact detection accuracy and enables effective filtering of low-quality content.
- Abstract(参考訳): 映像生成技術の急速な進歩により、生成した映像の評価と監査がますます重要になっている。
既存のアプローチは通常、粗いビデオ品質スコアを提供し、特定のアーティファクトの詳細なローカライゼーションと分類を欠いている。
本研究では,人間の知覚に影響を及ぼす3つの重要な側面(外観,動き,カメラ)に焦点を当てた包括的評価プロトコルを提案する。
ビデオ生成において観察される一般的な生成障害を反映した10の一般的なアーティファクトカテゴリの分類を用いて,これらの軸を定義した。
堅牢なアーティファクト検出と分類を可能にするために,さまざまな最先端ビデオ生成モデルによって生成された80kビデオの大規模データセットであるGenVIDを導入し,それぞれが定義したアーティファクトカテゴリに対して慎重にアノテートする。
GenVIDを活用することで、生成物のきめ細かい識別と分類を行うDense Video Artifact RecognitionフレームワークDVARを開発する。
大規模な実験により,本手法はアーティファクト検出精度を大幅に向上し,低品質コンテンツの効率的なフィルタリングを可能にした。
関連論文リスト
- Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning [66.51617619673587]
AI生成ビデオにおける人間の知覚可能な視覚的アーティファクトを識別する,特殊な大規模言語モデル(MLLM)であるSkyraを紹介する。
この目的を達成するために、我々は、人間のアノテーションを微粒化した最初の大規模AI生成ビデオデータセットである、Supervised Fine-Tuning (SFT)のためのViF-CoT-4Kを構築した。
次に,モデルの時間的知覚,説明能力,検出精度を体系的に向上する2段階のトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2025-12-17T18:48:26Z) - Subjective and Objective Quality Assessment of Banding Artifacts on Compressed Videos [55.09949353783613]
注目に値するバンドングアーティファクトは、ハイエンドのHDTVや高解像度のスクリーンで見るビデオの知覚的品質に深刻な影響を与える可能性がある。
我々は、LIVE-YT-Bandingと呼ばれる、4つの異なる圧縮パラメータで生成された160のビデオからなる、第一種オープンビデオデータセットを作成しました。
計7,200人の主観的意見が45人の被験者のコホートから集められている。
論文 参考訳(メタデータ) (2025-08-12T07:42:56Z) - Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。
実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-25T03:30:04Z) - GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。
データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。
複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文 参考訳(メタデータ) (2025-01-20T08:58:56Z) - MVAD: A Multiple Visual Artifact Detector for Video Streaming [7.154108202395319]
ヴィジュアルアーティファクトは、しばしば、コンテンツ制作と配信の間、一般的な条件のために、ストリーミングされたビデオコンテンツに導入される。
既存の検出方法は、しばしば単一の種類のアーティファクトに集中し、アーティファクトの存在を決定する。
本稿では,ビデオストリーミングのためのマルチビジュアルアーティファクト検出器であるMVADを提案し,複数のアーティファクトを初めて検出できる。
論文 参考訳(メタデータ) (2024-05-31T21:56:04Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。