論文の概要: BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios
- arxiv url: http://arxiv.org/abs/2605.00873v1
- Date: Fri, 24 Apr 2026 21:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.488124
- Title: BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios
- Title(参考訳): BRITE: 不可解シナリオの信頼性と解釈可能なT2V評価ベンチマーク
- Authors: Advait Tilak, Jiwon Choi, Nazifa Mouli, Wei Le,
- Abstract要約: 既存のベンチマークは、ほとんど見過ごせないシナリオであり、オーディオと視覚のアライメントを計測しない。
本稿では,BRITEについて紹介する。BRITEは難解なプロンプトを統一する最初のフレームワークで,音声・視覚的一貫性のきめ細かい評価,QAに基づく解釈可能な評価を行う。
- 参考スコア(独自算出の注目度): 4.853153612241331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of photorealistic Text-to-Video (T2V) generation brings in an urgent need for up-to-date evaluation methods. Existing benchmarks largely overlooked implausible scenarios and do not measure audio-visual alignment. We introduce BRITE, the first framework that unifies (1) implausible prompting, (2) fine-grained assessment of audio-visual consistency, and (3) QA-based interpretable evaluation into a comprehensive T2V benchmark. Unlike fully automated Multimodal LLM-based pipelines, which are prone to hallucination and prompt ambiguity, BRITE guarantees reliability through a rigorous human-in-the-loop protocol for benchmark creation. Evaluating five state-of-the-art models (Sora 2, Veo 3.1, Runway Gen4.5, Pixverse V5.5, and Qwen3Max), we reveal a critical performance gap: while models excel at static object composition, they exhibit significant degradation in object-action binding and audio-visual synchronization. Our framework offers the community a reliable, interpretable benchmark and evaluation framework that can detect and locate limitations in the next generation of T2V models, especially for off-manifold prompts
- Abstract(参考訳): フォトリアリスティックテキスト・トゥ・ビデオ(T2V)生成の急速な進歩は、最新の評価方法に緊急の必要性をもたらす。
既存のベンチマークは、ほとんど見過ごせないシナリオであり、オーディオと視覚のアライメントを計測しない。
本稿では,(1)予測不能なプロンプトを統一する最初のフレームワークであるBRITE,(2)音声・視覚的一貫性のきめ細かい評価,(3)QAに基づく解釈可能な評価を総合的なT2Vベンチマークに導入する。
完全に自動化されたマルチモーダルLLMベースのパイプラインとは異なり、BRITEはベンチマーク作成のための厳格なヒューマン・イン・ザ・ループプロトコルを通じて信頼性を保証する。
5つの最先端モデル(Sora 2, Veo 3.1, Runway Gen4.5, Pixverse V5.5, Qwen3Max)を評価すると、重要なパフォーマンスギャップが明らかになる。
当社のフレームワークは,次世代のT2Vモデル,特にオフマニフォールドプロンプトの制限を検出し,検出することのできる,信頼性の高い,解釈可能なベンチマークおよび評価フレームワークをコミュニティに提供する。
関連論文リスト
- DynT2I-Eval: A Dynamic Evaluation Framework for Text-to-Image Models [78.62380562116135]
テキスト・トゥ・イメージ(T2I)モデルのための完全に自動化された動的評価フレームワークであるDynT2I-Evalを提案する。
長い形式の記述から構造化された視覚意味空間を構築し、プロンプトを制御可能な次元に分解する。
DynT2I-Evalは、テキストアライメント、知覚品質、美学のモデル性能を評価する。
論文 参考訳(メタデータ) (2026-05-07T12:53:51Z) - AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation [42.157453071865056]
AVGen-Benchは、T2AV生成のためのタスク駆動ベンチマークである。
軽量スペシャリストモデルとマルチモーダル大言語モデル(MLLM)を組み合わせた多言語評価フレームワークを提案する。
評価の結果,テキストレンダリングの持続的失敗,音声のコヒーレンス,物理的推論,音声ピッチ制御の普遍的破壊など,強い視覚的美学と弱い意味的信頼性のギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - GEditBench v2: A Human-Aligned Benchmark for General Image Editing [58.86807672117726]
GEditBench v2は、23のタスクにまたがる1200の現実世界のユーザクエリを備えた包括的なベンチマークである。
また、視覚的整合性を評価するためのオープンソースのペアワイドアセスメントモデルであるPVC-Judgeを提案する。
PVC-Judgeは、オープンソースモデルの最先端評価性能を達成し、平均してGPT-5.1を超えている。
論文 参考訳(メタデータ) (2026-03-30T15:08:32Z) - MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation [48.84450712826316]
MSVBenchは、マルチショットビデオ生成に適した階層的なスクリプトと参照イメージを備えた最初の包括的なベンチマークである。
本稿では,大規模マルチモーダルモデルの高レベルな意味推論と,ドメイン固有のエキスパートモデルの微粒な知覚的厳密さを相乗化するハイブリッド評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-27T12:26:34Z) - VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation [10.151027538362259]
REVEALERは、強化誘導視覚推論に基づく要素レベルのアライメント評価のための統一的なフレームワークである。
提案手法は,MLLM(Multimodal Large Language Models)を用いて意味的要素を明示的にローカライズし,解釈可能なアライメント判断を導出する。
論文 参考訳(メタデータ) (2025-12-29T03:24:09Z) - T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation [41.03487954415606]
Text-to-Audio-Video (T2AV) は、自然言語から時間的コヒーレントなビデオと意味的に同期された音声を合成することを目的としている。
本稿では,T2AVシステムの総合評価のための統合ベンチマークであるT2AV-を提案する。
最強のモデルでさえ、人間レベルのリアリズムとクロスモーダルな一貫性にかなり劣っている。
論文 参考訳(メタデータ) (2025-12-24T10:30:35Z) - UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation [40.644151228285246]
テキスト・ツー・イメージ生成のための統合意味評価ベンチマークであるUniGenBench++を紹介する。
カバー範囲と効率性を確保するため、600のプロンプトが階層的に編成されている。
英語と中国語の両方のプロンプトを短くて長い形で提供する。
論文 参考訳(メタデータ) (2025-10-21T14:56:46Z) - UI2V-Bench: An Understanding-based Image-to-video Generation Benchmark [35.157850129371525]
I2V(Image-to-Video)の生成は、ビデオ合成の分野において重要な焦点となっている。
既存の評価ベンチマークは主にビデオの品質や時間的一貫性といった側面に焦点を当てている。
We propose UI2V-Bench, a novel benchmark for evaluation I2V model with focus on semantic understanding and reasoning。
論文 参考訳(メタデータ) (2025-09-29T08:14:26Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。