論文の概要: Many-for-Many: Unify the Training of Multiple Video and Image Generation and Manipulation Tasks
- arxiv url: http://arxiv.org/abs/2506.01758v1
- Date: Mon, 02 Jun 2025 15:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.502037
- Title: Many-for-Many: Unify the Training of Multiple Video and Image Generation and Manipulation Tasks
- Title(参考訳): many-for-Many: 複数のビデオと画像の生成と操作の訓練を統一する
- Authors: Tao Yang, Ruibin Li, Yangming Shi, Yuqi Zhang, Qide Dong, Haoran Cheng, Weiguo Feng, Shilei Wen, Bingyue Peng, Lei Zhang,
- Abstract要約: 拡散モデルは、多くの視覚生成および操作タスクにおいて印象的な性能を示している。
我々は、様々な視覚生成と操作タスクから利用可能なトレーニングデータを活用する統一されたフレームワーク、すなわち、many-for-manyを導入する。
我々の共同学習は、映像生成性能を改善した統一的な視覚生成と操作モデルをもたらす。
- 参考スコア(独自算出の注目度): 19.583685515540417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown impressive performance in many visual generation and manipulation tasks. Many existing methods focus on training a model for a specific task, especially, text-to-video (T2V) generation, while many other works focus on finetuning the pretrained T2V model for image-to-video (I2V), video-to-video (V2V), image and video manipulation tasks, etc. However, training a strong T2V foundation model requires a large amount of high-quality annotations, which is very costly. In addition, many existing models can perform only one or several tasks. In this work, we introduce a unified framework, namely many-for-many, which leverages the available training data from many different visual generation and manipulation tasks to train a single model for those different tasks. Specifically, we design a lightweight adapter to unify the different conditions in different tasks, then employ a joint image-video learning strategy to progressively train the model from scratch. Our joint learning leads to a unified visual generation and manipulation model with improved video generation performance. In addition, we introduce depth maps as a condition to help our model better perceive the 3D space in visual generation. Two versions of our model are trained with different model sizes (8B and 2B), each of which can perform more than 10 different tasks. In particular, our 8B model demonstrates highly competitive performance in video generation tasks compared to open-source and even commercial engines. Our models and source codes are available at https://github.com/leeruibin/MfM.git.
- Abstract(参考訳): 拡散モデルは、多くの視覚生成および操作タスクにおいて印象的な性能を示している。
既存の多くの方法は、特定のタスク、特にテキスト・トゥ・ビデオ(T2V)生成のためのモデルのトレーニングに重点を置いているが、他の多くの研究は、事前訓練されたビデオ・ビデオ(I2V)、ビデオ・トゥ・ビデオ(V2V)、画像・ビデオ操作タスクなどのT2Vモデルを微調整することに焦点を当てている。
しかし、強力なT2V基盤モデルのトレーニングには大量の高品質のアノテーションが必要であり、非常にコストがかかる。
さらに、既存のモデルでは1つまたは複数のタスクしか実行できない。
本研究では,様々な視覚生成および操作タスクから利用可能なトレーニングデータを活用して,複数のタスクに対してひとつのモデルをトレーニングする,統一的なフレームワークであるMulti-for-Manyを導入する。
具体的には、異なるタスクにおける異なる条件を統一する軽量なアダプタを設計し、その上で、画像とビデオの合同学習戦略を用いて、モデルをスクラッチから段階的に訓練する。
我々の共同学習は、映像生成性能を改善した統一的な視覚生成と操作モデルをもたらす。
さらに,モデルが視覚生成における3次元空間をよりよく知覚するための条件として,深度マップを導入する。
モデルの2つのバージョンは、異なるモデルサイズ(8Bと2B)でトレーニングされ、それぞれが10以上のタスクを実行できる。
特に、当社の8Bモデルは、オープンソースや商用エンジンと比較して、ビデオ生成タスクにおいて非常に競争力のある性能を示している。
私たちのモデルとソースコードはhttps://github.com/leeruibin/MfM.git.comで公開されています。
関連論文リスト
- UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文 参考訳(メタデータ) (2025-03-16T21:11:25Z) - 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文 参考訳(メタデータ) (2024-06-13T17:59:42Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - SinFusion: Training Diffusion Models on a Single Image or Video [11.473177123332281]
拡散モデルでは画像生成とビデオ生成が大幅に進歩し、GANよりも品質と多様性が向上した。
本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。
我々の画像/ビデオ特異的拡散モデル(SinFusion)は、拡散モデルの条件付け機能を利用して、単一の画像またはビデオの外観とダイナミクスを学習する。
論文 参考訳(メタデータ) (2022-11-21T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。