論文の概要: Dynin-Omni: Omnimodal Unified Large Diffusion Language Model
- arxiv url: http://arxiv.org/abs/2604.00007v1
- Date: Mon, 09 Mar 2026 13:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.182168
- Title: Dynin-Omni: Omnimodal Unified Large Diffusion Language Model
- Title(参考訳): Dynin-Omni:Omnimodal Unified Large Diffusion Language Model
- Authors: Jaeik Kim, Woojin Kim, Jihwan Hong, Yejoon Lee, Sieun Hyeon, Mintaek Lim, Yunseok Han, Dogeun Kim, Hoeun Lee, Hyunggeun Kim, Jaeyoung Do,
- Abstract要約: ダイニン・オムニ (Dynin-Omni) は、最初にマスク付き拡散に基づく一様基礎モデルである。
テキスト、画像、音声の理解と生成とビデオの理解を単一のアーキテクチャで統合する。
我々は、言語推論、画像生成と編集、ビデオ理解、音声認識と合成にまたがる19のマルチモーダルベンチマークでDynin-Omniを評価した。
- 参考スコア(独自算出の注目度): 7.014325813072902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Dynin-Omni, the first masked-diffusion-based omnimodal foundation model that unifies text, image, and speech understanding and generation, together with video understanding, within a single architecture. Unlike autoregressive unified models that serialize heterogeneous modalities, or compositional unified models that require orchestration with external modality-specific decoders, Dynin-Omni natively formulates omnimodal modeling as masked diffusion over a shared discrete token space, enabling iterative refinement under bidirectional context. Dynin-Omni adopts a multi-stage training strategy with model-merging-based modality expansion and omnimodal alignment. We evaluate Dynin-Omni across 19 multimodal benchmarks spanning language reasoning, image generation and editing, video understanding, and speech recognition and synthesis. Dynin-Omni achieves 87.6 on GSM8K, 1733.6 on MME-P, 61.4 on VideoMME, 0.87 on GenEval, and 2.1 WER on LibriSpeech test-clean, consistently outperforming existing open-source unified models while remaining competitive with strong modality-specific expert systems. These results demonstrate the potential of masked diffusion as a unified paradigm for any-to-any modeling, providing a flexible foundation for real-time omnimodal systems, unified cross-modal retrieval and generation, and embodied multimodal agents.
- Abstract(参考訳): 本稿では,Dynin-Omniについて紹介する。Dynin-Omniは,テキスト,画像,音声の理解と生成を単一のアーキテクチャで統一する,マスク付き拡散に基づく一様基礎モデルである。
不均一なモダリティをシリアライズする自己回帰統一モデルや、外部モダリティ固有のデコーダとのオーケストレーションを必要とする構成統一モデルとは異なり、ダイニン・オムニは本質的に、共有された離散トークン空間上のマスク付き拡散として一様モデリングを定式化し、双方向の文脈下で反復的洗練を可能にする。
Dynin-Omniはモデルマージベースのモダリティ拡張と全方位アライメントを備えたマルチステージトレーニング戦略を採用している。
我々は、言語推論、画像生成と編集、ビデオ理解、音声認識と合成にまたがる19のマルチモーダルベンチマークでDynin-Omniを評価した。
Dynin-OmniはGSM8Kで87.6、MME-Pで1733.6、VideoMMEで61.4、GenEvalで0.87、LibriSpeechテストクリーンで2.1 WERを達成した。
これらの結果は、任意のモデリングのための統一パラダイムとしてのマスク拡散の可能性を示し、リアルタイム・オムニモーダルシステムのための柔軟な基盤を提供し、クロスモーダル検索と生成を統一し、マルチモーダルエージェントを具現化した。
関連論文リスト
- Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion [66.78268790956493]
オムニ・ディフュージョン(Omni-Diffusion)は、マスクベースの離散拡散モデルに基づいて構築された、最初の任意のマルチモーダル言語モデルである。
本手法は2つ以上のモダリティを処理する既存のマルチモーダルシステムに匹敵する性能または性能を示す。
論文 参考訳(メタデータ) (2026-03-06T18:59:57Z) - Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model [77.66516875262963]
マルチモーダル理解・生成のための有効長適応オムニ拡散モデルである textbfLLaDA-o を提案する。
MoD上に構築されたデータ中心長適応戦略により,マルチモーダル環境でのフレキシブルなデコーディングを実現する。
実験により、LLaDA-oはマルチモーダル理解および生成ベンチマーク上でのオムニ拡散モデル間の最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2026-03-01T12:05:06Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。
各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文 参考訳(メタデータ) (2025-06-09T16:20:20Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。
我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。
我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文 参考訳(メタデータ) (2024-12-31T05:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。