論文の概要: The Design Space of Tri-Modal Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.21472v1
- Date: Wed, 25 Feb 2026 01:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.658113
- Title: The Design Space of Tri-Modal Masked Diffusion Models
- Title(参考訳): 三次元マスク付き拡散モデルの設計空間
- Authors: Louis Bethune, Victor Turrisi, Bruno Kacper Mlodozeniec, Pau Rodriguez Lopez, Lokesh Boominathan, Nikhil Bhendawade, Amitis Shidani, Joris Pelemans, Theo X. Olausson, Devon Hjelm, Paul Dixon, Joao Monteiro, Pierre Ablin, Vishnu Banna, Arno Blaas, Nick Henderson, Kari Noriy, Dan Busbridge, Josh Susskind, Marco Cuturi, Irina Belousova, Luca Zappella, Russ Webb, Jason Ramapuram,
- Abstract要約: テキスト, 画像テキスト, 音声テキストデータのスクラッチから事前学習した最初の3モーダルマスク拡散モデルを提案する。
我々の研究は、これまで行われた多モード離散拡散モデルに関する最も大規模な体系的オープンスタディである。
- 参考スコア(独自算出の注目度): 28.1724656131266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion models have emerged as strong alternatives to autoregressive language models, with recent work initializing and fine-tuning a base unimodal model for bimodal generation. Diverging from previous approaches, we introduce the first tri-modal masked diffusion model pretrained from scratch on text, image-text, and audio-text data. We systematically analyze multimodal scaling laws, modality mixing ratios, noise schedules, and batch-size effects, and we provide optimized inference sampling defaults. Our batch-size analysis yields a novel stochastic differential equation (SDE)-based reparameterization that eliminates the need for tuning the optimal batch size as reported in recent work. This reparameterization decouples the physical batch size, often chosen based on compute constraints (GPU saturation, FLOP efficiency, wall-clock time), from the logical batch size, chosen to balance gradient variance during stochastic optimization. Finally, we pretrain a preliminary 3B-parameter tri-modal model on 6.4T tokens, demonstrating the capabilities of a unified design and achieving strong results in text generation, text-to-image tasks, and text-to-speech tasks. Our work represents the largest-scale systematic open study of multimodal discrete diffusion models conducted to date, providing insights into scaling behaviors across multiple modalities.
- Abstract(参考訳): 離散拡散モデルは自己回帰言語モデルの強力な代替手段として現れており、最近の研究はバイモーダル生成のための基礎的ユニモーダルモデルを初期化し微調整している。
従来のアプローチとは違って,テキスト,画像テキスト,音声テキストデータにおいて,スクラッチから事前学習した最初の3モーダルマスク拡散モデルを導入する。
我々は,マルチモーダルスケーリング法則,モダリティ混合比,ノイズスケジュール,バッチサイズ効果を体系的に解析し,最適化された推論サンプリングデフォルトを提供する。
我々のバッチサイズ分析は、新しい確率微分方程式(SDE)に基づくパラメータ化をもたらし、最近の研究で報告されているように、最適なバッチサイズをチューニングする必要がなくなる。
この再パラメータ化は、しばしば計算制約(GPU飽和度、FLOP効率、壁時計時間)に基づいて選択される物理バッチサイズを論理バッチサイズから分離し、確率最適化時の勾配分散のバランスをとる。
最後に,6.4Tトークン上での予備的な3Bパラメータトリモーダルモデルを事前訓練し,統一設計の能力を実証し,テキスト生成,テキスト・ツー・イメージタスク,テキスト・トゥ・音声タスクにおいて強力な結果が得られることを示す。
我々の研究は、これまで行われたマルチモーダル離散拡散モデルに関する最も大規模な体系的オープンな研究であり、複数のモーダルをまたいだ振る舞いのスケーリングに関する洞察を提供する。
関連論文リスト
- Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing [25.50590395490414]
本稿では,事前学習した流れモデルに対する推論時間スケーリング手法を提案する。
本稿では,SDE に基づく生成,特に分散保存型 (VP) 補間型 (VP) 生成は,フローモデルにおける推論時間スケーリングのための粒子サンプリング法を改善することを示す。
論文 参考訳(メタデータ) (2025-03-25T06:30:45Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。