論文の概要: Allegro: Open the Black Box of Commercial-Level Video Generation Model
- arxiv url: http://arxiv.org/abs/2410.15458v1
- Date: Sun, 20 Oct 2024 17:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:39.347816
- Title: Allegro: Open the Black Box of Commercial-Level Video Generation Model
- Title(参考訳): Allegro、商用レベルビデオ生成モデルのブラックボックスをオープン
- Authors: Yuan Zhou, Qiuyue Wang, Yuxuan Cai, Huan Yang,
- Abstract要約: 品質と時間的一貫性を両立させる高度なビデオ生成モデルであるAllegroを紹介する。
本稿では,ハイパフォーマンスな商用レベルのビデオ生成モデルを学習するための包括的な方法論を提案する。
われわれのユーザー調査によると、Allegroは既存のオープンソースモデルやほとんどの商用モデルを上回っており、HaluoやKlingに次いでランクインしている。
- 参考スコア(独自算出の注目度): 12.985340654949589
- License:
- Abstract: Significant advancements have been made in the field of video generation, with the open-source community contributing a wealth of research papers and tools for training high-quality models. However, despite these efforts, the available information and resources remain insufficient for achieving commercial-level performance. In this report, we open the black box and introduce $\textbf{Allegro}$, an advanced video generation model that excels in both quality and temporal consistency. We also highlight the current limitations in the field and present a comprehensive methodology for training high-performance, commercial-level video generation models, addressing key aspects such as data, model architecture, training pipeline, and evaluation. Our user study shows that Allegro surpasses existing open-source models and most commercial models, ranking just behind Hailuo and Kling. Code: https://github.com/rhymes-ai/Allegro , Model: https://huggingface.co/rhymes-ai/Allegro , Gallery: https://rhymes.ai/allegro_gallery .
- Abstract(参考訳): ビデオ生成の分野では重要な進歩が見られ、オープンソースコミュニティは、高品質なモデルをトレーニングするための豊富な研究論文やツールに貢献している。
しかし、これらの努力にもかかわらず、利用可能な情報や資源は依然として商業レベルのパフォーマンスを達成するには不十分である。
本稿では,ブラックボックスを開いて,品質と時間的一貫性を両立させる高度なビデオ生成モデルである$\textbf{Allegro}$を導入する。
また、この分野における現在の限界を強調し、高性能で商用レベルのビデオ生成モデルをトレーニングするための包括的な方法論を示し、データ、モデルアーキテクチャ、トレーニングパイプライン、評価といった重要な側面に対処する。
われわれのユーザー調査によると、Allegroは既存のオープンソースモデルやほとんどの商用モデルを上回っており、HaluoやKlingに次いでランクインしている。
コード: https://github.com/rhymes-ai/Allegro , Model: https://huggingface.co/rhymes-ai/Allegro , Gallery: https://rhymes.ai/allegro_gallery
関連論文リスト
- Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - HunyuanVideo: A Systematic Framework For Large Video Generative Models [82.4392082688739]
HunyuanVideoは、革新的なオープンソースのビデオファンデーションモデルだ。
データキュレーション、高度なアーキテクチャ設計、プログレッシブモデルスケーリング、トレーニングが組み込まれている。
その結果,13億以上のパラメータを持つビデオ生成モデルの訓練に成功した。
論文 参考訳(メタデータ) (2024-12-03T23:52:37Z) - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models [146.85788712792177]
Molmoは視覚言語モデル(VLM)の新たなファミリーであり、オープンネスのクラスにおける最先端技術である。
我々の最高のクラス72Bモデルは、オープンウェイトとデータモデルのクラスで他よりも優れています。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - Mora: Enabling Generalist Video Generation via A Multi-Agent Framework [36.602810629788586]
既存のオープンソースモジュールを活用してSora機能を複製する,新しいマルチエージェントフレームワークであるMoraを紹介した。
VBench 上での Sora に匹敵する性能をMora が達成していることを示す。
論文 参考訳(メタデータ) (2024-03-20T02:19:21Z) - VideoCrafter2: Overcoming Data Limitations for High-Quality Video
Diffusion Models [76.85329896854189]
高品質なビデオモデルを実現するために,低品質な映像の活用と高品質な画像の合成の実現可能性について検討する。
我々は、高画質の映像で空間モジュールを微調整することにより、動きの劣化を伴わずに高画質に分布をシフトし、その結果、総称的な高品質な映像モデルを得る。
論文 参考訳(メタデータ) (2024-01-17T08:30:32Z) - PEEKABOO: Interactive Video Generation via Masked-Diffusion [16.27046318032809]
モジュールベースのビデオ生成モデルにビデオ制御を組み込むための第1のソリューションを提案する。
Peekabooは、既存のビデオ生成モデルとシームレスに統合され、追加のトレーニングや推論オーバーヘッドを必要とせずに、コントロールを提供する。
我々の広範囲な質的および定量的評価により、PeekabooはmIoUのベースラインモデルよりも最大3.8倍改善していることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T18:43:05Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。