論文の概要: Any-to-Any Generation via Composable Diffusion
- arxiv url: http://arxiv.org/abs/2305.11846v1
- Date: Fri, 19 May 2023 17:38:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:11:17.535026
- Title: Any-to-Any Generation via Composable Diffusion
- Title(参考訳): コンポーザブル拡散によるany-to-any生成
- Authors: Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, Mohit Bansal
- Abstract要約: Composable Diffusion (CoDi) は、出力モダリティの組み合わせを生成できる新しい生成モデルである。
CoDiは複数のモダリティを並列に生成することができ、その入力はテキストや画像のようなモダリティのサブセットに制限されない。
高度にカスタマイズ可能でフレキシブルなCoDiは、強力なジョイントモダリティ生成品質を実現する。
- 参考スコア(独自算出の注目度): 111.94094932032205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Composable Diffusion (CoDi), a novel generative model capable of
generating any combination of output modalities, such as language, image,
video, or audio, from any combination of input modalities. Unlike existing
generative AI systems, CoDi can generate multiple modalities in parallel and
its input is not limited to a subset of modalities like text or image. Despite
the absence of training datasets for many combinations of modalities, we
propose to align modalities in both the input and output space. This allows
CoDi to freely condition on any input combination and generate any group of
modalities, even if they are not present in the training data. CoDi employs a
novel composable generation strategy which involves building a shared
multimodal space by bridging alignment in the diffusion process, enabling the
synchronized generation of intertwined modalities, such as temporally aligned
video and audio. Highly customizable and flexible, CoDi achieves strong
joint-modality generation quality, and outperforms or is on par with the
unimodal state-of-the-art for single-modality synthesis. The project page with
demonstrations and code is at https://codi-gen.github.io
- Abstract(参考訳): 本稿では,入力モダリティの任意の組合せから,言語,画像,映像,音声といった出力モダリティの任意の組み合わせを生成可能な,新しい生成モデルであるcomposable diffusion (codi)を提案する。
既存の生成AIシステムとは異なり、CoDiは複数のモダリティを並列に生成することができ、入力はテキストや画像のようなモダリティのサブセットに制限されない。
モダリティの多くの組み合わせに対するトレーニングデータセットがないにもかかわらず、入力空間と出力空間の両方でモダリティを調整することを提案する。
これにより、CoDiは任意の入力組合せを自由に条件付けし、トレーニングデータに存在しない場合でも、任意のモダリティのグループを生成することができる。
CoDiは、拡散過程におけるアライメントをブリッジすることで共有マルチモーダル空間を構築することを伴う、新しい構成可能な生成戦略を採用し、時間的にアライメントされたビデオやオーディオのような、相互に結合したモダリティの同期生成を可能にする。
高度にカスタマイズ可能で柔軟なcodiは、強いジョイントモダリティ生成品質を達成し、単一モダリティ合成のユニモダリティ状態と同等か同等である。
デモとコードのプロジェクトページはhttps://codi-gen.github.ioにある。
関連論文リスト
- Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities [6.9522425458326635]
独立に訓練された単調デコーダから多モード生成モデルを柔軟に構成するマルチトワーデコーダアーキテクチャを提案する。
提案アーキテクチャは,テキスト音声データに制限のあるシナリオにおいて,非常に競争力のある性能を示す。
出力モダリティが音声であるTTS(text-to-Speech Generation)のようなクロスモーダルなタスクでは、事前訓練された音声バックボーンを使用することで、ベースラインよりも優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T00:23:55Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation [88.33780780220091]
CoDi-2は汎用的でインタラクティブなマルチモーダル言語モデル(MLLM)である
複雑なマルチモーダルなインターリーブ命令に従うことができ、ICL(In-context Learning)、理性、チャット、編集などを実行することができる。
論文 参考訳(メタデータ) (2023-11-30T18:21:25Z) - i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文 参考訳(メタデータ) (2023-05-21T01:25:44Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。