論文の概要: The Design Space of Tri-Modal Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.21472v1
- Date: Wed, 25 Feb 2026 01:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.658113
- Title: The Design Space of Tri-Modal Masked Diffusion Models
- Title(参考訳): 三次元マスク付き拡散モデルの設計空間
- Authors: Louis Bethune, Victor Turrisi, Bruno Kacper Mlodozeniec, Pau Rodriguez Lopez, Lokesh Boominathan, Nikhil Bhendawade, Amitis Shidani, Joris Pelemans, Theo X. Olausson, Devon Hjelm, Paul Dixon, Joao Monteiro, Pierre Ablin, Vishnu Banna, Arno Blaas, Nick Henderson, Kari Noriy, Dan Busbridge, Josh Susskind, Marco Cuturi, Irina Belousova, Luca Zappella, Russ Webb, Jason Ramapuram,
- Abstract要約: テキスト, 画像テキスト, 音声テキストデータのスクラッチから事前学習した最初の3モーダルマスク拡散モデルを提案する。
我々の研究は、これまで行われた多モード離散拡散モデルに関する最も大規模な体系的オープンスタディである。
- 参考スコア(独自算出の注目度): 28.1724656131266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion models have emerged as strong alternatives to autoregressive language models, with recent work initializing and fine-tuning a base unimodal model for bimodal generation. Diverging from previous approaches, we introduce the first tri-modal masked diffusion model pretrained from scratch on text, image-text, and audio-text data. We systematically analyze multimodal scaling laws, modality mixing ratios, noise schedules, and batch-size effects, and we provide optimized inference sampling defaults. Our batch-size analysis yields a novel stochastic differential equation (SDE)-based reparameterization that eliminates the need for tuning the optimal batch size as reported in recent work. This reparameterization decouples the physical batch size, often chosen based on compute constraints (GPU saturation, FLOP efficiency, wall-clock time), from the logical batch size, chosen to balance gradient variance during stochastic optimization. Finally, we pretrain a preliminary 3B-parameter tri-modal model on 6.4T tokens, demonstrating the capabilities of a unified design and achieving strong results in text generation, text-to-image tasks, and text-to-speech tasks. Our work represents the largest-scale systematic open study of multimodal discrete diffusion models conducted to date, providing insights into scaling behaviors across multiple modalities.
- Abstract(参考訳): 離散拡散モデルは自己回帰言語モデルの強力な代替手段として現れており、最近の研究はバイモーダル生成のための基礎的ユニモーダルモデルを初期化し微調整している。
従来のアプローチとは違って,テキスト,画像テキスト,音声テキストデータにおいて,スクラッチから事前学習した最初の3モーダルマスク拡散モデルを導入する。
我々は,マルチモーダルスケーリング法則,モダリティ混合比,ノイズスケジュール,バッチサイズ効果を体系的に解析し,最適化された推論サンプリングデフォルトを提供する。
我々のバッチサイズ分析は、新しい確率微分方程式(SDE)に基づくパラメータ化をもたらし、最近の研究で報告されているように、最適なバッチサイズをチューニングする必要がなくなる。
この再パラメータ化は、しばしば計算制約(GPU飽和度、FLOP効率、壁時計時間)に基づいて選択される物理バッチサイズを論理バッチサイズから分離し、確率最適化時の勾配分散のバランスをとる。
最後に,6.4Tトークン上での予備的な3Bパラメータトリモーダルモデルを事前訓練し,統一設計の能力を実証し,テキスト生成,テキスト・ツー・イメージタスク,テキスト・トゥ・音声タスクにおいて強力な結果が得られることを示す。
我々の研究は、これまで行われたマルチモーダル離散拡散モデルに関する最も大規模な体系的オープンな研究であり、複数のモーダルをまたいだ振る舞いのスケーリングに関する洞察を提供する。
関連論文リスト
- Evaluating Latent Generative Paradigms for High-Fidelity 3D Shape Completion from a Single Depth Image [8.280737466900135]
拡散確率モデルと自己回帰因果変換の2つの有望な生成モデルを比較した。
連続潜伏剤を用いた拡散モデルは判別モデルと自己回帰的アプローチの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-11-14T08:46:11Z) - TADA: Improved Diffusion Sampling with Training-free Augmented Dynamics [40.75121059939763]
我々は,ImageNet512 上で比較 FID を比較対象とするアートソルバの現在の状態よりも最大 186% 以上高速な新しいサンプリング手法を提案する。
提案手法の鍵は,高次元初期雑音を用いて,より詳細なサンプルを生成することである。
論文 参考訳(メタデータ) (2025-06-26T20:30:27Z) - Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing [25.50590395490414]
本稿では,事前学習した流れモデルに対する推論時間スケーリング手法を提案する。
本稿では,SDE に基づく生成,特に分散保存型 (VP) 補間型 (VP) 生成は,フローモデルにおける推論時間スケーリングのための粒子サンプリング法を改善することを示す。
論文 参考訳(メタデータ) (2025-03-25T06:30:45Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Discrete Diffusion Language Model for Efficient Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。
提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-25T09:55:22Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。