論文の概要: DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation
- arxiv url: http://arxiv.org/abs/2605.30090v1
- Date: Thu, 28 May 2026 15:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.429417
- Title: DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation
- Title(参考訳): DirectorBench: パーソナライズされたマルチエージェント評価による長期ビデオ生成の診断
- Authors: Jiamin Chen, Qianben Chen, Jiawen Zhang, Yidi Wu, Yuchen Li, Xiaokun Zhang, Wangchunshu Zhou, Chen Ma,
- Abstract要約: DirectorBenchは、長期ビデオ生成のためのパーソナライズされたマルチエージェント診断ベンチマークである。
DirectorBenchはチェックポイントレベルのボトルネックをローカライズし、プロファイル認識評価をサポートする。
DirectorBenchは人間の認識できる品質の違いを捉え、ワークフローとプロファイルに依存した障害モードを明らかにする。
- 参考スコア(独自算出の注目度): 28.46640572653782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video generation is rapidly moving from short, single-scene synthesis toward minute-long, multi-shot creation with narrative structure, cinematic control, audio, and cross-modal synchronization. However, evaluating such videos remains challenging, since existing benchmarks largely focus on local visual quality, short-horizon temporal consistency, or generic prompt alignment, and provide limited diagnosis of workflow failures and user-dependent preferences. We introduce DirectorBench, a personalized multi-agent diagnostic benchmark for long-form video generation. DirectorBench evaluates generated videos with respect to 80 structured metadata entries, 7 user profiles, and 40 checkpoint criteria across 5 dimensions: script, visual, audio, cross-modal, and stability. Instead of reducing quality to a single aggregate score, DirectorBench localizes checkpoint-level bottlenecks and supports profile-aware evaluation. We evaluate 4 long-form video generation workflows, 6 base LLMs, and 7 user profiles. Across workflows, DirectorBench reveals a between-unit bottleneck: transition quality averages only 0.256 and reaches 0.356 for the best workflow, while prompt-level user demand fulfillment averages 0.71. We further conduct human evaluation with 14 annotators to validate the alignment between DirectorBench and human judgment. The results show that DirectorBench captures human-perceptible quality differences and reveals workflow- and profile-dependent failure modes that are hidden by aggregate scoring. These findings highlight the importance of diagnostic and profile-aware benchmarking for long-form video generation.
- Abstract(参考訳): ロングフォームビデオ生成は、短いシングルシーン合成から、物語構造、撮影制御、オーディオ、およびクロスモーダル同期を備えた、分長のマルチショット生成へと急速に移行している。
しかし、既存のベンチマークでは、局所的な視覚的品質、短時間の時間的整合性、一般的なプロンプトアライメントに重点を置いており、ワークフローの失敗やユーザ依存の好みの診断が限られているため、このようなビデオの評価は依然として困難である。
DirectorBenchは、長期ビデオ生成のためのパーソナライズされたマルチエージェント診断ベンチマークである。
DirectorBenchは、80の構造化メタデータエントリ、7つのユーザプロファイル、スクリプト、ビジュアル、オーディオ、クロスモーダル、安定性の5次元にわたる40のチェックポイント基準に関する生成されたビデオを評価する。
DirectorBenchは、単一のアグリゲーションスコアに品質を低下させる代わりに、チェックポイントレベルのボトルネックをローカライズし、プロファイル認識評価をサポートする。
4つの長文ビデオ生成ワークフロー,6つのLLM,7つのユーザプロファイルを評価した。
DirectorBench氏はワークフロー全体で、ユニット間のボトルネックを明らかにしている。トランジション品質の平均は0.256で、最高のワークフローでは0.356に達し、プロンプトレベルのユーザ要求を満たす平均は0.71である。
さらに,14のアノテータを用いて人的評価を行い,ディレクターベンチと人的判断のアライメントを検証する。
その結果、DeleBenchは人間の認識可能な品質差を捉え、アグリゲーションスコアによって隠されたワークフローとプロファイルに依存した障害モードを明らかにした。
これらの知見は、長期ビデオ生成における診断とプロファイル対応ベンチマークの重要性を浮き彫りにした。
関連論文リスト
- MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation [88.7702943548674]
マルチショットオーディオビデオ生成のための,初の総合的なベンチマークと適応型ハイブリッド評価フレームワークであるMSAVBenchを紹介する。
私たちのベンチマークでは、ビデオ、オーディオ、ショット、参照の4つの重要な領域にまたがっており、多様なタスク設定、最大15のショット数、非現実的なシナリオに挑戦しています。
MSAVBenchは人間の判断と高度に一致し、スピアマンのランク相関は91.5%に達する。
論文 参考訳(メタデータ) (2026-05-19T17:59:33Z) - Advancing Narrative Long Video Generation via Training-Free Identity-Aware Memory [79.01059178883817]
IAMFlowはトレーニング不要のID対応メモリフレームワークで、永続的なエンティティのIDを明示的にモデル化し追跡する。
VLMは、レンダリングフレームから属性を非同期に検証し、洗練し、暗黙の類似性ベースのマッチングの代わりに明示的なエンティティ追跡を可能にする。
NarraStream-Benchは,6次元にまたがる324のマルチプロンプトスクリプトを備えた,ナラストリームビデオ生成のためのベンチマークである。
論文 参考訳(メタデータ) (2026-05-18T17:54:34Z) - HippoCamp: Benchmarking Contextual Agents on Personal Computers [71.97629614361549]
HippoCampは、マルチモーダルファイル管理におけるエージェントの能力を評価するために設計された新しいベンチマークである。
本ベンチマークでは,2K以上の実世界のファイルにまたがる42.4GBのデータを含む,多種多様なモダリティにまたがる実世界のプロファイルに対して,デバイススケールのファイルシステムをインスタンス化する。
論文 参考訳(メタデータ) (2026-04-01T17:58:33Z) - PEARL: Personalized Streaming Video Understanding Model [50.273809779498464]
マルチモーダルパーソナライズ法は、主に静的画像やオフラインビデオに限られる。
PEARL-Benchはこの困難な設定を評価するために特別に設計された最初の包括的なベンチマークである。
PEARLは8つのオフラインおよびオンラインモデルにわたる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-20T18:47:54Z) - A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [76.98722001848493]
LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。
これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。
LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
論文 参考訳(メタデータ) (2025-12-18T18:59:27Z) - VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos [41.9704057910616]
大型モデルの多段階推論能力を評価するために開発されたVRBenchは,最初の長めのナラティブビデオベンチマークである。
ビデオの長さは960本(平均1.6時間)で、人間ラベル付き多段階質問応答ペア8,243本、タイムスタンプ付き推論ステップ25,106本だ。
論文 参考訳(メタデータ) (2025-06-12T16:17:17Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。