論文の概要: Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2512.14008v1
- Date: Tue, 16 Dec 2025 02:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.543966
- Title: Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models
- Title(参考訳): スパース・ラViDa:スパースマルチモーダル離散拡散言語モデル
- Authors: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen,
- Abstract要約: 提案するSparse-LaViDaは,MDMサンプリングを高速化するために,各推論ステップで不要なマスク付きトークンをトランケートするモデリングフレームワークである。
最先端の統一MDM LaViDa-Oをベースに構築されたSparse-LaViDaは、さまざまなタスクで最大2倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 63.50827603618498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Discrete Diffusion Models (MDMs) have achieved strong performance across a wide range of multimodal tasks, including image understanding, generation, and editing. However, their inference speed remains suboptimal due to the need to repeatedly process redundant masked tokens at every sampling step. In this work, we propose Sparse-LaViDa, a novel modeling framework that dynamically truncates unnecessary masked tokens at each inference step to accelerate MDM sampling. To preserve generation quality, we introduce specialized register tokens that serve as compact representations for the truncated tokens. Furthermore, to ensure consistency between training and inference, we design a specialized attention mask that faithfully matches the truncated sampling procedure during training. Built upon the state-of-the-art unified MDM LaViDa-O, Sparse-LaViDa achieves up to a 2x speedup across diverse tasks including text-to-image generation, image editing, and mathematical reasoning, while maintaining generation quality.
- Abstract(参考訳): Masked Discrete Diffusion Models (MDM) は、画像理解、生成、編集を含む幅広いマルチモーダルタスクにおいて、強力なパフォーマンスを実現している。
しかし、サンプリングステップ毎に冗長なマスク付きトークンを繰り返し処理する必要があるため、推論速度は依然として最適以下である。
本研究では,MDMサンプリングを高速化するために,各推論ステップで不要なマスク付きトークンを動的に切り離す新しいモデリングフレームワークであるSparse-LaViDaを提案する。
生成品質を維持するために,トランカットされたトークンのコンパクトな表現として機能する特殊なレジスタトークンを導入する。
さらに、トレーニングと推論の整合性を確保するため、トレーニング中に散在するサンプリング手順に忠実に適合する特別注意マスクを設計する。
最先端の統一MDM LaViDa-Oに基づいて構築されたSparse-LaViDaは、生成品質を維持しながら、テキスト・ツー・イメージ生成、画像編集、数学的推論など、さまざまなタスクで最大2倍のスピードアップを実現している。
関連論文リスト
- Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking [28.55159825491572]
マスケード拡散モデル(MDM)は、離散データのための強力な生成モデルであり、段階的にトークンを配列で解き放つことでサンプルを生成する。
本稿では、トークンがマスクされた状態とマスクされていない状態の間を中間状態にすることでMDMを増強する部分マスキングスキーム(Prime)を提案する。
本手法は,多種多様な生成モデルタスクに対して優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-24T04:16:40Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。