論文の概要: Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion
- arxiv url: http://arxiv.org/abs/2603.06577v1
- Date: Fri, 06 Mar 2026 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.418625
- Title: Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion
- Title(参考訳): Omni-Diffusion:masked Discrete Diffusionによる統合マルチモーダル理解と生成
- Authors: Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu,
- Abstract要約: オムニ・ディフュージョン(Omni-Diffusion)は、マスクベースの離散拡散モデルに基づいて構築された、最初の任意のマルチモーダル言語モデルである。
本手法は2つ以上のモダリティを処理する既存のマルチモーダルシステムに匹敵する性能または性能を示す。
- 参考スコア(独自算出の注目度): 66.78268790956493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.
- Abstract(参考訳): 最近のマルチモーダルな大規模言語モデル(MLLM)は目覚ましい進歩を遂げているが、それらは主に従来の自己回帰型アーキテクチャをバックボーンとして採用しており、アーキテクチャ設計において効率的かつ効率的な代替手段を探求する余地が残されている。
同時に、視覚的理解や画像生成など様々な領域への離散拡散モデルの適用が成功し、マルチモーダルシステムにとって有望なバックボーンとしての可能性を明らかにしている。
これらの先駆的な研究からインスピレーションを得たOmni-Diffusionは、マスクベースの離散拡散モデルに基づいて構築され、テキスト、音声、画像間の理解と生成を統一する初めての、あらゆる種類のマルチモーダル言語モデルである。
オムニ拡散(Omni-Diffusion)は、マスクベースの離散拡散モデルを用いて、離散多モードトークン上の結合分布を直接キャプチャする。
このアプローチはバイモーダルタスクだけでなく、複数のモダリティを含むより複雑なシナリオもサポートする。
様々なベンチマークにおいて,本手法は2つ以上のモダリティを処理する既存のマルチモーダルシステムと同等あるいは同等に動作し,次世代のマルチモーダル基盤モデルを動かす上での拡散モデルの有望性を強調した。
プロジェクトWebページ: https://omni-diffusion.github.io
関連論文リスト
- Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding [134.93925077411564]
Lumina-DiMOOは、シームレスなマルチモーダル生成と理解のためのオープンソースの基礎モデルである。
完全に離散的な拡散モデリングを使用して、様々なモードにわたる入力と出力を処理する。
複数のベンチマークで最先端のパフォーマンスを実現し、既存のオープンソース統一マルチモーダルモデルを上回っている。
論文 参考訳(メタデータ) (2025-10-07T17:59:20Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。
我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。
我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文 参考訳(メタデータ) (2024-12-31T05:49:00Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。