論文の概要: Visual-Redundancy-Controlled Parallel Decoding for Diffusion-Based Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.25820v1
- Date: Mon, 25 May 2026 13:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.13034
- Title: Visual-Redundancy-Controlled Parallel Decoding for Diffusion-Based Multimodal Large Language Models
- Title(参考訳): 拡散に基づく多モード大言語モデルのための視覚冗長制御並列デコーディング
- Authors: Yulin Yuan, Hongshuo Zhao, Xiangming Meng,
- Abstract要約: 拡散に基づく多モード多言語モデル(dMLLM)は、複数のマスキング位置のトークンを並列に反復的に予測することでデコードする。
既存の信頼に基づく復号化ランクは、独立して位置を隠蔽し、トップKの位置をコミットし、コミットされたトークンが補完的な視覚的根拠を提供するかどうかを無視する。
本稿では,視覚的に相補的な位置を優先するためにトークン・ツー・イメージ・アテンションを用いたトレーニング不要な推論時間復号法である視覚冗長制御復号法(VRCD)を提案する。
- 参考スコア(独自算出の注目度): 9.95016675032699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based multimodal large language models (dMLLMs) decode by iteratively predicting tokens at multiple masked positions in parallel. This turns each decoding step into a position-selection problem: the model must choose not only which predictions are reliable in isolation, but also which positions should be committed together as context for later decoding steps. Existing confidence-based decoding ranks masked positions independently and commits the top-K positions, largely ignoring whether the committed tokens provide complementary visual grounding. We identify a step-level limitation of this strategy in multimodal settings: high-confidence tokens selected in the same step can rely on overlapping visual grounding, introducing visual redundancy among the committed tokens and leaving less complementary visual grounding available for later decoding. To quantify this effect, we introduce the Visual Redundancy Index (VRI), which measures visual grounding overlap among tokens committed in parallel. To control this redundancy during decoding, we propose Visual-Redundancy-Controlled Decoding (VRCD), a training-free inference-time decoding method that uses token-to-image attention to prioritize visually complementary positions. Across diverse multimodal benchmarks, VRCD reduces visual redundancy and remaining-position entropy with modest runtime overhead. In longer decoding experiments, it also achieves relative accuracy gains of up to 18.8% on M^3CoT and 6.9% on MMBench over confidence-based decoding. Code will be released at https://github.com/infiniteYuanyl/VRCD.
- Abstract(参考訳): 拡散に基づく多モード多言語モデル(dMLLM)は、複数のマスキング位置のトークンを並列に反復的に予測することでデコードする。
モデルは、どの予測が独立して信頼できるかだけでなく、後続のデコードステップのコンテキストとして、どの位置を一緒にコミットすべきかを選択する必要があります。
既存の信頼に基づく復号化ランクは、独立して位置を隠蔽し、トップKの位置をコミットし、コミットされたトークンが補完的な視覚的根拠を提供するかどうかを無視する。
同一ステップで選択された高信頼トークンは、重複する視覚的接地に依存し、コミットトークン間に視覚的冗長性を導入し、後続の復号化のために、補足的な視覚的接地を抑えることができる。
この効果を定量化するために、並列にコミットされたトークン間の視覚的グラウンドオーバーラップを計測するVisual Redundancy Index (VRI)を導入する。
デコーディングにおけるこの冗長性を制御するために,トークン・ツー・イメージ・アテンションを用いて視覚的に相補的な位置を優先するトレーニング不要な推論時間デコーディング法であるVisual-Redundancy-Controlled Decoding (VRCD)を提案する。
多様なマルチモーダルベンチマークを通じて、VRCDは最小のランタイムオーバーヘッドで視覚的冗長性と残りの位置エントロピーを低減する。
より長い復号実験では、M^3CoTでは18.8%、MMBenchでは6.9%の精度で復号化できる。
コードはhttps://github.com/infiniteYuanyl/VRCDでリリースされる。
関連論文リスト
- A More Word-like Image Tokenization for MLLMs [26.120899392740203]
本稿では,コヒーレントなセマンティックユニットへのパッチの埋め込みをクラスタ化するDisentangled Visual Tokenization (DiVT)を提案する。
多様なマルチモーダルベンチマークで、DiVTはベースラインにマッチするか、はるかに少ないビジュアルトークンで超える。
論文 参考訳(メタデータ) (2026-05-18T07:09:46Z) - PSD: Pushing the Pareto Frontier of Diffusion LLMs via Parallel Speculative Decoding [32.667256256847246]
拡散大言語モデル (dLLMs) は、マスク付きトークンシーケンスを反復的に記述することでテキストを生成する。
両軸に沿って推論を共同で改善するトレーニングフリーフレームワークであるParallel Speculative Decoding (PSD)を提案する。
論文 参考訳(メタデータ) (2026-05-15T04:43:02Z) - CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning [79.07656918674684]
CoME-VLは、対照的に訓練された視覚エンコーダと自己教師型DINOエンコーダを統合するモジュラーフュージョンフレームワークである。
提案手法は,RefCOCOのベースライン上での精度を高いマージンで向上させながら,検出のための最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-03T17:59:51Z) - Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation [66.53544128707817]
Cheersは、パッチレベルの詳細をセマンティック表現から切り離す、統一されたマルチモーダルモデルである。
チェアは視覚的理解と生成の両方において、高度なUMMと一致または超えます。
論文 参考訳(メタデータ) (2026-03-13T08:55:27Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。
本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。
実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-14T17:58:10Z) - METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。