論文の概要: Knowledge-Intensive Video Generation
- arxiv url: http://arxiv.org/abs/2606.01285v1
- Date: Sun, 31 May 2026 15:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.497243
- Title: Knowledge-Intensive Video Generation
- Title(参考訳): 知識集中型ビデオ生成
- Authors: Chenxu Wang, Mingda Chen,
- Abstract要約: 我々は知識集約型ビデオ生成(KIVI)を導入し、モデルが短い情報探索プロンプトからビデオを生成する。
本研究では,1080プロンプトのベンチマークであるKIVI-Benchを構築し,現実性と有用性を示す自動メトリクスを提案する。
7つの最先端のビデオ生成モデルの実験では、現在のシステムは人間のパフォーマンスに遅れを取っている。
- 参考スコア(独自算出の注目度): 9.30109113012239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generation has advanced rapidly in visual quality, but remains under-evaluated for factuality and practical usefulness. We introduce knowledge-intensive video generation (KIVI), where models generate videos from short information-seeking prompts that ask for explanations, procedures, or demonstrations. To evaluate this setting, we construct KIVI-Bench, a benchmark of 1,080 prompts, and propose automatic metrics for factuality and helpfulness. Human evaluation shows that our metrics significantly better align with human annotations than existing alternatives. Experiments on seven state-of-the-art video generation models show that current systems still lag behind human performance, especially on visual properties, procedural operations, and clear information presentation. These results highlight KIVI as a challenging direction for factual and instructionally useful video generation.
- Abstract(参考訳): テキスト・ビデオ・ジェネレーションは、視覚的品質が急速に向上してきたが、現実性や実用性については評価が低いままである。
我々は、知識集約型ビデオ生成(KIVI)を導入し、モデルが説明、手順、デモを求める短い情報探索プロンプトからビデオを生成する。
この設定を評価するために,1080プロンプトのベンチマークであるKIVI-Benchを構築し,実感と有用性のための自動メトリクスを提案する。
人間の評価は、既存の代替手段よりも、私たちのメトリクスが人間のアノテーションとかなりよく一致していることを示している。
7つの最先端のビデオ生成モデルの実験では、現在のシステムは人間のパフォーマンス、特に視覚特性、手続き操作、明確な情報提示に遅れを取っている。
これらの結果から,KIVIは現実的かつ教育的に有用なビデオ生成の挑戦的方向として注目されている。
関連論文リスト
- Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。
説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。
実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T07:04:55Z) - Large Language Models for Video Surveillance Applications [11.297664744056735]
本稿では,ジェネレーティブ・人工知能(GenAI)を用いた視覚言語モデルによる概念実証について述べる。
本ツールでは,ユーザ定義クエリに基づいて,カスタマイズしたテキスト要約を生成する。
論文 参考訳(メタデータ) (2025-01-06T08:57:44Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。