論文の概要: AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models
- arxiv url: http://arxiv.org/abs/2605.24652v1
- Date: Sat, 23 May 2026 16:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.296455
- Title: AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models
- Title(参考訳): AVBench: 映像生成モデルのためのヒューマンアライメントと自動評価ベンチマーク
- Authors: Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang,
- Abstract要約: 人中心型AV生成に適した完全自動ベンチマークであるAVBenchを紹介する。
AVBenchは、人間中心の現実世界のシナリオ用に設計された10の評価次元を統合している。
連立決定に対するモデルの予測信頼度から連続的な評価スコアを導き出す。
- 参考スコア(独自算出の注目度): 37.78996308837551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advances in audio-video (AV) generation have enabled high-fidelity synthesis with synchronized sound, particularly for human-related scenarios involving speech and interactions. Yet evaluation for AV generation remains at an early stage, with only a few coarse-grained benchmarks for human-related scenarios and relying on limited preset evaluations with generic multimodal LLMs, leading to inaccurate assessments of model capabilities. To address these issues, we introduce AVBench, a fully automated benchmark tailored for human-centric AV generation. AVBench is built on two key designs for comprehensive and accurate evaluation: (i) Human-centric and fine-grained metrics. AVBench integrates ten evaluation dimensions designed for human-centered real-world scenarios, covering visual quality, audio quality, and multi-level consistency across modalities. These practical metrics capture human-related details that existing benchmarks often overlook. (ii) Specialized evaluators via preference learning. To address the lack of specialized training data, we construct large-scale supervision by transforming real-world videos into diverse training pairs with controlled perturbations. After fine-tuning on this high-quality dataset, the evaluators learn to reliably detect subtle cross-modal inconsistencies. Crucially, instead of producing discrete textual judgment, AVBench derives continuous evaluation scores from the model's prediction confidence on binary decisions. This probabilistic scoring mechanism enables a more reliable assessment than traditional VQA-style evaluation and aligns closely with human judgment. Taken together, AVBench offers automated evaluation for AV generation, demonstrates strong potential for data filtering, and serves as a differentiable reward signal for Reinforcement Learning from Human Feedback (RLHF).
- Abstract(参考訳): オーディオビデオ(AV)生成の急速な進歩により、特に音声と対話に関わる人間関係のシナリオにおいて、同期音による高忠実な合成が可能になった。
しかし、AV生成の評価はまだ初期段階にあり、人間関連シナリオの粗いベンチマークはごくわずかであり、汎用マルチモーダルLCMによる限定プレセット評価に依存しており、モデル機能の不正確な評価につながっている。
これらの問題に対処するために、人間中心のAV生成に適した完全に自動化されたベンチマークであるAVBenchを紹介する。
AVBenchは、総合的かつ正確な評価のための2つの重要な設計に基づいている。
(i)人中心できめ細かいメトリクス。
AVBenchは、人間中心の現実世界のシナリオのために設計された10の評価次元を統合し、視覚的品質、オーディオ品質、モダリティ間の複数レベルの一貫性をカバーしている。
これらの実践的なメトリクスは、既存のベンチマークがしばしば見落としている人間関連の詳細をキャプチャします。
二 選好学習による特化評価者
専門的なトレーニングデータの欠如に対処するため,実世界の映像を制御された摂動を伴う多様なトレーニングペアに変換することにより,大規模な監視を構築する。
この高品質なデータセットを微調整した後、評価者は微妙なクロスモーダル不整合を確実に検出することを学ぶ。
重要なことに、AVBenchは個別のテキストによる判断を生成する代わりに、モデルの二項決定に対する予測信頼度から連続的な評価スコアを導出する。
この確率的スコアリング機構は、従来のVQAスタイルの評価よりも信頼性の高い評価を可能にし、人間の判断と密接に一致させる。
AVBenchは、AV生成の自動評価を提供し、データフィルタリングの強力な可能性を示し、Reinforcement Learning from Human Feedback (RLHF)のための識別可能な報酬信号として機能する。
関連論文リスト
- EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation [59.569634087474185]
EvalVerseは包括的でパイプライン対応で、専門家による評価フレームワークです。
まず、専門的な映画制作ワークフローに沿った評価分類にドメイン知識を整理する。
第2に、人間の専門家による判断を、大規模な人的アノテーションによるキュレートされたデータセットに蒸留する。
第3に、専門家による微調整戦略を通じて、この知識を視覚言語モデル(VLM)に注入する。
論文 参考訳(メタデータ) (2026-05-22T06:22:21Z) - MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation [88.7702943548674]
マルチショットオーディオビデオ生成のための,初の総合的なベンチマークと適応型ハイブリッド評価フレームワークであるMSAVBenchを紹介する。
私たちのベンチマークでは、ビデオ、オーディオ、ショット、参照の4つの重要な領域にまたがっており、多様なタスク設定、最大15のショット数、非現実的なシナリオに挑戦しています。
MSAVBenchは人間の判断と高度に一致し、スピアマンのランク相関は91.5%に達する。
論文 参考訳(メタデータ) (2026-05-19T17:59:33Z) - AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation [42.157453071865056]
AVGen-Benchは、T2AV生成のためのタスク駆動ベンチマークである。
軽量スペシャリストモデルとマルチモーダル大言語モデル(MLLM)を組み合わせた多言語評価フレームワークを提案する。
評価の結果,テキストレンダリングの持続的失敗,音声のコヒーレンス,物理的推論,音声ピッチ制御の普遍的破壊など,強い視覚的美学と弱い意味的信頼性のギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation [48.84450712826316]
MSVBenchは、マルチショットビデオ生成に適した階層的なスクリプトと参照イメージを備えた最初の包括的なベンチマークである。
本稿では,大規模マルチモーダルモデルの高レベルな意味推論と,ドメイン固有のエキスパートモデルの微粒な知覚的厳密さを相乗化するハイブリッド評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-27T12:26:34Z) - AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs [13.950397580491666]
AVFakeBenchは,初の包括的オーディオビデオ偽造検出ベンチマークである。
AVFakeBenchには、慎重に12Kのオーディオビデオ質問が含まれており、7種類の偽造と4レベルのアノテーションを含んでいる。
AVFakeBench上での11の音声映像大言語モデル(AV-LMM)と2つの一般的な検出手法を評価する。
論文 参考訳(メタデータ) (2025-11-26T10:33:12Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。