論文の概要: dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2512.19433v1
- Date: Mon, 22 Dec 2025 14:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.789422
- Title: dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models
- Title(参考訳): dMLLM-TTS:拡散多モード大言語モデルの自己検証と効率的なテスト時間スケーリング
- Authors: Yi Xin, Siqi Luo, Qi Qin, Haoxing Chen, Kaiwen Zhu, Zhiwei Zhang, Yangfan He, Rongchao Zhang, Jinbin Bai, Shuo Cao, Bin Fu, Junjun He, Yihao Liu, Yuewen Cao, Xiaohong Liu,
- Abstract要約: Diffusion Multi-modal Large Language Models (dMLLMs) は画像生成と理解を統一する新しいアーキテクチャとして最近登場した。
提案するdMLLM-TTSは,2つの相補的スケーリング軸上で動作し,その全生成ポテンシャルを解放する新しいフレームワークである。
我々のフレームワークは線形探索の最大6倍の効率で生成品質を大幅に向上させる。
- 参考スコア(独自算出の注目度): 40.03969764207708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Multi-modal Large Language Models (dMLLMs) have recently emerged as a novel architecture unifying image generation and understanding. However, developing effective and efficient Test-Time Scaling (TTS) methods to unlock their full generative potential remains an underexplored challenge. To address this, we propose dMLLM-TTS, a novel framework operating on two complementary scaling axes: (1) trajectory exploration scaling to enhance the diversity of generated hypotheses, and (2) iterative refinement scaling for stable generation. Conventional TTS approaches typically perform linear search across these two dimensions, incurring substantial computational costs of O(NT) and requiring an external verifier for best-of-N selection. To overcome these limitations, we propose two innovations. First, we design an efficient hierarchical search algorithm with O(N+T) complexity that adaptively expands and prunes sampling trajectories. Second, we introduce a self-verified feedback mechanism that leverages the dMLLMs' intrinsic image understanding capabilities to assess text-image alignment, eliminating the need for external verifier. Extensive experiments on the GenEval benchmark across three representative dMLLMs (e.g., Lumina-DiMOO, MMaDA, Muddit) show that our framework substantially improves generation quality while achieving up to 6x greater efficiency than linear search. Project page: https://github.com/Alpha-VLLM/Lumina-DiMOO.
- Abstract(参考訳): Diffusion Multi-modal Large Language Models (dMLLMs) は画像生成と理解を統一する新しいアーキテクチャとして最近登場した。
しかし、効率よく効率的なTTS(Test-Time Scaling)手法を開発し、その完全な生成能力を解き放つことは、まだ未解決の課題である。
そこで本研究では,(1)仮説の多様性を高めるための軌道探索スケーリング,(2)安定生成のための反復改良スケーリングという,2つの相補的なスケーリング軸で動作する新しいフレームワークであるdMLLM-TTSを提案する。
従来のTSアプローチは2次元にわたって線形探索を行い、O(NT)のかなりの計算コストを発生させる。
これらの制限を克服するために、我々は2つのイノベーションを提案する。
まず,O(N+T)複雑性を持つ効率的な階層探索アルゴリズムを設計する。
第2に,dMLLMの本質的な画像理解機能を活用した自己検証フィードバック機構を導入し,テキスト画像のアライメントの評価を行い,外部検証の必要性を解消する。
3種類のdMLLM(例: Lumina-DiMOO, MMaDA, Muddit)にまたがるGenEvalベンチマークの大規模な実験により、我々のフレームワークは、線形探索の最大6倍の効率で生成品質を大幅に向上することを示した。
プロジェクトページ:https://github.com/Alpha-VLLM/Lumina-DiMOO
関連論文リスト
- URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - VeriMoA: A Mixture-of-Agents Framework for Spec-to-HDL Generation [22.276878955961504]
大きな言語モデル(LLM)はハードウェア記述言語(HDL)の生成を約束するが、パラメトリック知識の制限とドメイン固有の制約のために困難に直面している。
We propose VeriMoA, a training-free mixed-of-agents framework with two synergistic innovations。
論文 参考訳(メタデータ) (2025-10-31T16:40:58Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers [16.135928990655422]
本稿では,2つのスケーリング問題に対処するシステムである textttBFS-Prover-V2 を紹介する。
1つ目は、トレーニング時にLLMのステッププロデューサの性能を継続的に改善する、新しいマルチターンオフポリチフレームワークである。
第二のイノベーションは、推論時に推論能力を拡大するプランナーによるマルチエージェント検索アーキテクチャである。
論文 参考訳(メタデータ) (2025-09-08T09:54:18Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。