論文の概要: Allegro: Open the Black Box of Commercial-Level Video Generation Model
- arxiv url: http://arxiv.org/abs/2410.15458v1
- Date: Sun, 20 Oct 2024 17:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:39.347816
- Title: Allegro: Open the Black Box of Commercial-Level Video Generation Model
- Title(参考訳): Allegro、商用レベルビデオ生成モデルのブラックボックスをオープン
- Authors: Yuan Zhou, Qiuyue Wang, Yuxuan Cai, Huan Yang,
- Abstract要約: 品質と時間的一貫性を両立させる高度なビデオ生成モデルであるAllegroを紹介する。
本稿では,ハイパフォーマンスな商用レベルのビデオ生成モデルを学習するための包括的な方法論を提案する。
われわれのユーザー調査によると、Allegroは既存のオープンソースモデルやほとんどの商用モデルを上回っており、HaluoやKlingに次いでランクインしている。
- 参考スコア(独自算出の注目度): 12.985340654949589
- License:
- Abstract: Significant advancements have been made in the field of video generation, with the open-source community contributing a wealth of research papers and tools for training high-quality models. However, despite these efforts, the available information and resources remain insufficient for achieving commercial-level performance. In this report, we open the black box and introduce $\textbf{Allegro}$, an advanced video generation model that excels in both quality and temporal consistency. We also highlight the current limitations in the field and present a comprehensive methodology for training high-performance, commercial-level video generation models, addressing key aspects such as data, model architecture, training pipeline, and evaluation. Our user study shows that Allegro surpasses existing open-source models and most commercial models, ranking just behind Hailuo and Kling. Code: https://github.com/rhymes-ai/Allegro , Model: https://huggingface.co/rhymes-ai/Allegro , Gallery: https://rhymes.ai/allegro_gallery .
- Abstract(参考訳): ビデオ生成の分野では重要な進歩が見られ、オープンソースコミュニティは、高品質なモデルをトレーニングするための豊富な研究論文やツールに貢献している。
しかし、これらの努力にもかかわらず、利用可能な情報や資源は依然として商業レベルのパフォーマンスを達成するには不十分である。
本稿では,ブラックボックスを開いて,品質と時間的一貫性を両立させる高度なビデオ生成モデルである$\textbf{Allegro}$を導入する。
また、この分野における現在の限界を強調し、高性能で商用レベルのビデオ生成モデルをトレーニングするための包括的な方法論を示し、データ、モデルアーキテクチャ、トレーニングパイプライン、評価といった重要な側面に対処する。
われわれのユーザー調査によると、Allegroは既存のオープンソースモデルやほとんどの商用モデルを上回っており、HaluoやKlingに次いでランクインしている。
コード: https://github.com/rhymes-ai/Allegro , Model: https://huggingface.co/rhymes-ai/Allegro , Gallery: https://rhymes.ai/allegro_gallery
関連論文リスト
- Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。
私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。
近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - Mora: Enabling Generalist Video Generation via A Multi-Agent Framework [36.602810629788586]
既存のオープンソースモジュールを活用してSora機能を複製する,新しいマルチエージェントフレームワークであるMoraを紹介した。
VBench 上での Sora に匹敵する性能をMora が達成していることを示す。
論文 参考訳(メタデータ) (2024-03-20T02:19:21Z) - AtomoVideo: High Fidelity Image-to-Video Generation [25.01443995920118]
AtomoVideo という画像合成のための高忠実度フレームワークを提案する。
多粒度画像インジェクションに基づいて、生成した映像の忠実度を所定の画像に高める。
我々のアーキテクチャは、ビデオフレーム予測タスクに柔軟に拡張し、反復生成による長いシーケンス予測を可能にする。
論文 参考訳(メタデータ) (2024-03-04T07:41:50Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - VideoCrafter2: Overcoming Data Limitations for High-Quality Video
Diffusion Models [76.85329896854189]
高品質なビデオモデルを実現するために,低品質な映像の活用と高品質な画像の合成の実現可能性について検討する。
我々は、高画質の映像で空間モジュールを微調整することにより、動きの劣化を伴わずに高画質に分布をシフトし、その結果、総称的な高品質な映像モデルを得る。
論文 参考訳(メタデータ) (2024-01-17T08:30:32Z) - PEEKABOO: Interactive Video Generation via Masked-Diffusion [16.27046318032809]
モジュールベースのビデオ生成モデルにビデオ制御を組み込むための第1のソリューションを提案する。
Peekabooは、既存のビデオ生成モデルとシームレスに統合され、追加のトレーニングや推論オーバーヘッドを必要とせずに、コントロールを提供する。
我々の広範囲な質的および定量的評価により、PeekabooはmIoUのベースラインモデルよりも最大3.8倍改善していることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T18:43:05Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。