論文の概要: What Are You Doing? A Closer Look at Controllable Human Video Generation
- arxiv url: http://arxiv.org/abs/2503.04666v1
- Date: Thu, 06 Mar 2025 17:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:17.227176
- Title: What Are You Doing? A Closer Look at Controllable Human Video Generation
- Title(参考訳): あなたは何をしているの? 制御可能な人間のビデオ生成をもっとよく見る
- Authors: Emanuele Bugliarello, Anurag Arnab, Roni Paiss, Pieter-Jan Kindermans, Cordelia Schmid,
- Abstract要約: What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。
このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。
制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
- 参考スコア(独自算出の注目度): 73.89117620413724
- License:
- Abstract: High-quality benchmarks are crucial for driving progress in machine learning research. However, despite the growing interest in video generation, there is no comprehensive dataset to evaluate human generation. Humans can perform a wide variety of actions and interactions, but existing datasets, like TikTok and TED-Talks, lack the diversity and complexity to fully capture the capabilities of video generation models. We close this gap by introducing `What Are You Doing?' (WYD): a new benchmark for fine-grained evaluation of controllable image-to-video generation of humans. WYD consists of 1{,}544 captioned videos that have been meticulously collected and annotated with 56 fine-grained categories. These allow us to systematically measure performance across 9 aspects of human generation, including actions, interactions and motion. We also propose and validate automatic metrics that leverage our annotations and better capture human evaluations. Equipped with our dataset and metrics, we perform in-depth analyses of seven state-of-the-art models in controllable image-to-video generation, showing how WYD provides novel insights about the capabilities of these models. We release our data and code to drive forward progress in human video generation modeling at https://github.com/google-deepmind/wyd-benchmark.
- Abstract(参考訳): 高品質なベンチマークは、機械学習研究の進歩を促進するために不可欠である。
しかし、ビデオ生成への関心が高まっているにもかかわらず、人間の生成を評価するための包括的なデータセットは存在しない。
人間はさまざまなアクションやインタラクションを実行できるが、TikTokやTED-Talksのような既存のデータセットには、ビデオ生成モデルの能力をフルに捉えるための多様性と複雑さが欠けている。
We close this gap by introduced 'What Are You Doing?' (WYD): a new benchmark for fine-fine evaluation of controllable image-to-video generation of human。
WYDは、1{,}544のキャプション付きビデオで構成されており、56の細かいカテゴリーで細心の注意を払って注釈付けされている。
これらは、行動、相互作用、動きを含む、9つの世代におけるパフォーマンスを体系的に測定することを可能にする。
また、アノテーションを活用し、人間の評価をよりよく捉える自動メトリクスを提案し、検証する。
データセットとメトリクスが組み合わさって、制御可能な画像-映像生成において、7つの最先端モデルの詳細な分析を行い、WYDがこれらのモデルの能力に関する新たな洞察を提供する方法を示している。
我々は、人間のビデオ生成モデリングの進歩を促進するために、データとコードをhttps://github.com/google-deepmind/wyd-benchmark.comで公開しています。
関連論文リスト
- Learning Human Skill Generators at Key-Step Levels [56.91737190115577]
キーステップスキル生成(KS-Gen)は、人間のスキルビデオの生成の複雑さを軽減することを目的としている。
初期状態とスキル記述から、そのスキルを完成させるために重要なステップのビデオクリップを生成する。
KS-Genの複雑さを考慮し、本課題のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T09:21:40Z) - VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。
データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。
複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文 参考訳(メタデータ) (2025-01-20T08:58:56Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation [74.70013315714336]
Gen2Actは、ゼロショットのヒューマンビデオ生成として言語条件の操作をキャストし、生成したビデオに対して単一のポリシーで実行します。
実世界の多様なシナリオにおいて,Gen2Actがロボットデータに存在しないタスクに対して,未知のオブジェクトタイプを操作したり,新たな動作を実行したりすることができることを示す。
論文 参考訳(メタデータ) (2024-09-24T17:57:33Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。