論文の概要: OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows
- arxiv url: http://arxiv.org/abs/2412.01169v1
- Date: Mon, 02 Dec 2024 06:13:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:41:21.859772
- Title: OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows
- Title(参考訳): OmniFlow: マルチモーダル整流による任意の非同期生成
- Authors: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover,
- Abstract要約: OmniFlowは、テキスト・ツー・イメージ、テキスト・ツー・オーディオ、オーディオ・ツー・イメージ・シンセサイザーなど、あらゆる世代のタスク用に設計された新しい生成モデルである。
テキスト・ツー・イメージやテキスト・ツー・オーディオ合成など、さまざまなタスクにおいて、これまでの任意のモデルよりも優れています。
- 参考スコア(独自算出の注目度): 21.677178476653385
- License:
- Abstract: We introduce OmniFlow, a novel generative model designed for any-to-any generation tasks such as text-to-image, text-to-audio, and audio-to-image synthesis. OmniFlow advances the rectified flow (RF) framework used in text-to-image models to handle the joint distribution of multiple modalities. It outperforms previous any-to-any models on a wide range of tasks, such as text-to-image and text-to-audio synthesis. Our work offers three key contributions: First, we extend RF to a multi-modal setting and introduce a novel guidance mechanism, enabling users to flexibly control the alignment between different modalities in the generated outputs. Second, we propose a novel architecture that extends the text-to-image MMDiT architecture of Stable Diffusion 3 and enables audio and text generation. The extended modules can be efficiently pretrained individually and merged with the vanilla text-to-image MMDiT for fine-tuning. Lastly, we conduct a comprehensive study on the design choices of rectified flow transformers for large-scale audio and text generation, providing valuable insights into optimizing performance across diverse modalities. The Code will be available at https://github.com/jacklishufan/OmniFlows.
- Abstract(参考訳): OmniFlowは、テキスト・ツー・イメージ、テキスト・ツー・オーディオ、オーディオ・ツー・イメージ・シンセサイザーなど、あらゆる世代のタスク用に設計された新しい生成モデルである。
OmniFlowは、複数のモーダルの共分散を扱うためにテキスト・ツー・イメージモデルで使用される修正フロー(RF)フレームワークを進歩させる。
テキスト・ツー・イメージやテキスト・ツー・オーディオ合成など、さまざまなタスクにおいて、これまでの任意のモデルよりも優れています。
まず、RFをマルチモーダル設定に拡張し、新しいガイダンス機構を導入し、ユーザが生成した出力の異なるモーダル間のアライメントを柔軟に制御できるようにする。
第2に、安定拡散3のテキストから画像へのMMDiTアーキテクチャを拡張し、音声およびテキスト生成を可能にする新しいアーキテクチャを提案する。
拡張モジュールは、個別に効率よく事前訓練し、微細チューニングのためにバニラテキスト・ツー・イメージMMDiTとマージすることができる。
最後に,大規模音声およびテキスト生成のための整流流トランスフォーマの設計選択に関する総合的研究を行い,多種多様なモードで性能を最適化する上で貴重な知見を提供する。
コードはhttps://github.com/jacklishufan/OmniFlows.comで入手できる。
関連論文リスト
- C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z) - OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and
Generation [52.037766778458504]
我々は,Omni-perception Pre-Trainer (OPT)を提案する。
OPTは3つのシングルモーダルエンコーダを含むエンコーダ・デコーダ・フレームワークで構築され、各モダリティに対してトークンベースの埋め込みを生成する。
OPTは、強力な画像・テキスト・オーディオ・マルチモーダル表現を学習し、様々なクロスモーダル理解および生成タスクにおける有望な結果を達成することができる。
論文 参考訳(メタデータ) (2021-07-01T06:59:44Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。