論文の概要: Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation
- arxiv url: http://arxiv.org/abs/2412.18688v1
- Date: Tue, 24 Dec 2024 21:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:52.929474
- Title: Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation
- Title(参考訳): 長大なビデオ生成の最新トレンドを振り返る動画
- Authors: Faraz Waseem, Muhammad Shahzad,
- Abstract要約: この記事の執筆時点では、現在最先端のシステムであるOpenAIのSoraは、最大1分間のビデオ制作に制限されている。
本稿では,GANや拡散モデル,ビデオ生成戦略,大規模トレーニングデータセット,長大映像の評価のための品質指標,および既存の映像生成能力の限界に対処するための今後の研究領域について,現在の長大映像生成の状況について検討する。
- 参考スコア(独自算出の注目度): 2.4240014793575138
- License:
- Abstract: An image may convey a thousand words, but a video composed of hundreds or thousands of image frames tells a more intricate story. Despite significant progress in multimodal large language models (MLLMs), generating extended videos remains a formidable challenge. As of this writing, OpenAI's Sora, the current state-of-the-art system, is still limited to producing videos that are up to one minute in length. This limitation stems from the complexity of long video generation, which requires more than generative AI techniques for approximating density functions essential aspects such as planning, story development, and maintaining spatial and temporal consistency present additional hurdles. Integrating generative AI with a divide-and-conquer approach could improve scalability for longer videos while offering greater control. In this survey, we examine the current landscape of long video generation, covering foundational techniques like GANs and diffusion models, video generation strategies, large-scale training datasets, quality metrics for evaluating long videos, and future research areas to address the limitations of the existing video generation capabilities. We believe it would serve as a comprehensive foundation, offering extensive information to guide future advancements and research in the field of long video generation.
- Abstract(参考訳): 画像は数千語を伝えるかもしれないが、何百、何千もの画像フレームからなるビデオは、より複雑な物語を物語っている。
MLLM (Multimodal large language model) の大幅な進歩にもかかわらず、拡張ビデオの生成は依然として困難な課題である。
この記事の執筆時点で、現在最先端のシステムであるOpenAIのSoraは、依然として最大1分間のビデオ制作に限られている。
この制限は、計画、ストーリー開発、空間的および時間的一貫性の維持といった重要な側面を近似するために、生成的AI技術以上のものを必要とする、長いビデオ生成の複雑さに起因している。
生成AIと分割/コンカレントアプローチを統合することで、長いビデオのスケーラビリティが向上し、コントロールが向上する。
本稿では,GANや拡散モデル,ビデオ生成戦略,大規模トレーニングデータセット,長期ビデオ評価のための品質指標,既存のビデオ生成能力の限界に対処するための今後の研究領域などについて検討する。
われわれは、長いビデオ生成の分野での今後の進歩と研究をガイドする広範な情報を提供する包括的基盤として機能すると信じている。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文 参考訳(メタデータ) (2024-10-14T17:59:56Z) - Multi-sentence Video Grounding for Long Video Generation [46.363084926441466]
長大映像生成のための多文ビデオグラウンドの勇敢で新しいアイデアを提案する。
提案手法は,画像・ビデオ編集,ビデオモーフィング,パーソナライズド生成,ビデオグラウンドニングの発達を,長いビデオ生成にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-07-18T07:05:05Z) - MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance [11.267119929093042]
我々は、任意の長さの高品質なビデオを生成することができるMimicMotionと呼ばれる制御可能なビデオ生成フレームワークを提案する。
信頼を意識したポーズガイダンスは、高いフレーム品質と時間的滑らかさを保証する。
長大かつスムーズなビデオを生成するために,我々は進行的な潜伏融合戦略を提案する。
論文 参考訳(メタデータ) (2024-06-28T06:40:53Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。