論文の概要: HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation
- arxiv url: http://arxiv.org/abs/2503.23715v1
- Date: Mon, 31 Mar 2025 04:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:21.907674
- Title: HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation
- Title(参考訳): HOIGEN-1M:人間と物体のインタラクションビデオ生成のための大規模データセット
- Authors: Kun Liu, Qi Liu, Xinchen Liu, Jie Li, Yongdong Zhang, Jiebo Luo, Xiaodong He, Wu Liu,
- Abstract要約: 我々は,HOI生成のための最初の大規模データセットであるHOIGEN-1Mを紹介した。
高品質なビデオを実現するために,我々はまず,強力なマルチモーダル大言語モデル(MLLM)を用いて,HOIビデオを自動的にキュレートする効率的なフレームワークを設計する。
HOIビデオの正確なテキストキャプションを得るために,Mixture-of-Multimodal-Experts(MoME)戦略に基づく新しいビデオ記述手法を設計する。
- 参考スコア(独自算出の注目度): 99.6653979969241
- License:
- Abstract: Text-to-video (T2V) generation has made tremendous progress in generating complicated scenes based on texts. However, human-object interaction (HOI) often cannot be precisely generated by current T2V models due to the lack of large-scale videos with accurate captions for HOI. To address this issue, we introduce HOIGen-1M, the first largescale dataset for HOI Generation, consisting of over one million high-quality videos collected from diverse sources. In particular, to guarantee the high quality of videos, we first design an efficient framework to automatically curate HOI videos using the powerful multimodal large language models (MLLMs), and then the videos are further cleaned by human annotators. Moreover, to obtain accurate textual captions for HOI videos, we design a novel video description method based on a Mixture-of-Multimodal-Experts (MoME) strategy that not only generates expressive captions but also eliminates the hallucination by individual MLLM. Furthermore, due to the lack of an evaluation framework for generated HOI videos, we propose two new metrics to assess the quality of generated videos in a coarse-to-fine manner. Extensive experiments reveal that current T2V models struggle to generate high-quality HOI videos and confirm that our HOIGen-1M dataset is instrumental for improving HOI video generation. Project webpage is available at https://liuqi-creat.github.io/HOIGen.github.io.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は、テキストに基づいて複雑なシーンを生成するのに大きな進歩を遂げた。
しかし,Human-Object Interaction (HOI) は,Human-Object Interaction (HOI) の正確なキャプションを備えた大規模ビデオが欠如しているため,現行のT2Vモデルでは正確には生成できないことが多い。
この問題に対処するために,HOIGEN-1Mを導入する。HOIGEN-1MはHOI生成のための最初の大規模データセットで,多様なソースから収集された100万以上の高品質なビデオで構成されている。
特に,ビデオの品質を保証するために,我々はまず,強力なマルチモーダル大言語モデル(MLLM)を用いてHOIビデオを自動的にキュレートする効率的なフレームワークを設計し,さらに人間のアノテーションによってビデオのクリーニングを行う。
さらに,HOIビデオの正確なテキストキャプションを得るために,表現的キャプションを生成するだけでなく,個々のMLLMによる幻覚を排除したMixture-of-Multimodal-Experts(MoME)戦略に基づく新しいビデオ記述手法を設計する。
さらに、生成したHOIビデオの評価フレームワークが欠如しているため、粗大な方法で生成されたビデオの品質を評価するための2つの新しい指標を提案する。
大規模な実験により、現在のT2Vモデルは高品質なHOIビデオを生成するのに苦労し、HOIGEN-1MデータセットがHOIビデオ生成を改善するのに役立っていることが判明した。
プロジェクトのWebページはhttps://liuqi-creat.github.io/HOIGen.github.ioで公開されている。
関連論文リスト
- VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
オープンソースT2Vモデルによる幻覚映像の大規模データセットであるViBeを紹介する。
10種類のT2Vモデルを用いて、837のMSキャプションから3,782本の動画を手動で作成した。
提案するベンチマークには、幻覚映像のデータセットと、ビデオ埋め込みを用いた分類フレームワークが含まれる。
論文 参考訳(メタデータ) (2024-11-16T19:23:12Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation [33.62365864717086]
本稿では,表現的キャプションを備えた高精度な高品質データセットOpenVid-1Mを紹介する。
また、OpenVid-1Mから433K 1080pのビデオをキュレートしてOpenVidHD-0.4Mを作成し、高精細ビデオ生成を推進した。
論文 参考訳(メタデータ) (2024-07-02T15:40:29Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。