Fugu-MT 論文翻訳(概要): LADR: Locality-Aware Dynamic Rescue for Efficient Text-to-Image Generation with Diffusion Large Language Models

論文の概要: LADR: Locality-Aware Dynamic Rescue for Efficient Text-to-Image Generation with Diffusion Large Language Models

arxiv url: http://arxiv.org/abs/2603.13450v1
Date: Fri, 13 Mar 2026 15:12:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.221642
Title: LADR: Locality-Aware Dynamic Rescue for Efficient Text-to-Image Generation with Diffusion Large Language Models
Title（参考訳）: LADR:拡散大言語モデルを用いた効率的なテキスト・画像生成のための局所性を考慮した動的レスキュー
Authors: Chenglin Wang, Yucheng Zhou, Shawn Chen, Tao Wang, Kai Zhang,
Abstract要約: Locality-Aware Dynamic Rescue (LADR) は画像の空間マルコフ特性を利用して推論を高速化する訓練不要の手法である。 LADRは、観測されたピクセルに空間的に隣接した領域である'世代フロンティア'でのトークンの回収を優先する。 4つのテキスト・画像生成ベンチマークの実験により、LADRは標準ベースラインよりも約4倍のスピードアップを達成することが示された。
参考スコア（独自算出の注目度）: 10.535207607235046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Discrete Diffusion Language Models have emerged as a compelling paradigm for unified multimodal generation, yet their deployment is hindered by high inference latency arising from iterative decoding. Existing acceleration strategies often require expensive re-training or fail to leverage the 2D spatial redundancy inherent in visual data. To address this, we propose Locality-Aware Dynamic Rescue (LADR), a training-free method that expedites inference by exploiting the spatial Markov property of images. LADR prioritizes the recovery of tokens at the ''generation frontier'', regions spatially adjacent to observed pixels, thereby maximizing information gain. Specifically, our method integrates morphological neighbor identification to locate candidate tokens, employs a risk-bounded filtering mechanism to prevent error propagation, and utilizes manifold-consistent inverse scheduling to align the diffusion trajectory with the accelerated mask density. Extensive experiments on four text-to-image generation benchmarks demonstrate that our LADR achieves an approximate 4 x speedup over standard baselines. Remarkably, it maintains or even enhances generative fidelity, particularly in spatial reasoning tasks, offering a state-of-the-art trade-off between efficiency and quality.
Abstract（参考訳）: 離散拡散言語モデルは、統一されたマルチモーダル生成のための魅力的なパラダイムとして登場したが、そのデプロイメントは反復的復号化による高い推論遅延によって妨げられている。既存の加速戦略は、しばしば高価な再訓練を必要とするか、視覚データに固有の2次元空間冗長性を活用するのに失敗する。そこで我々は,画像の空間的マルコフ特性を利用して推論を高速化する学習不要な手法であるLocality-Aware Dynamic Rescue (LADR)を提案する。 LADRは、観測されたピクセルに空間的に隣接した領域である'世代フロンティア'でのトークンの回収を優先し、情報ゲインを最大化する。具体的には, 形態的近傍同定を統合して候補トークンの特定を行い, リスクバウンドなフィルタリング機構を用いて誤りの伝播を防止し, 拡散軌道を加速マスク密度に合わせるために, 多様体一貫性の逆スケジューリングを利用する。 4つのテキスト・画像生成ベンチマークの大規模な実験により、LADRは標準ベースラインよりも約4倍のスピードアップを達成することが示された。注目すべきは、特に空間的推論タスクにおいて、生成的忠実性を維持したり、強化したりすることで、効率と品質の最先端のトレードオフを提供します。

関連論文リスト

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents [10.559617160878227]
GUIPrunerは、高解像度のGUIナビゲーションに適したトレーニング不要のフレームワークである。時間分解能(TAR)とSSP(Stratified Structure-Aware Pruning)の相乗効果常に最先端の性能を達成し、高解像度圧縮下での大規模モデルで観測される崩壊を効果的に防止する。
論文参考訳（メタデータ） (2026-02-26T17:12:40Z)
Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文参考訳（メタデータ） (2026-02-06T16:39:10Z)
DTAMS: High-Capacity Generative Steganography via Dynamic Multi-Timestep Selection and Adaptive Deviation Mapping in Latent Diffusion [11.99197806023714]
画像ステガノグラフィーは、高い知覚力と柔軟性のために注目を集めている。既存のジェネレーティブ・ステガノグラフィー法は比較的低い埋め込み速度でのみ許容されるセキュリティと堅牢性を維持する。本稿では,強力な堅牢性とセキュリティを確保しつつ,高い埋め込み率を実現する新しいDTAMSフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-01T11:15:25Z)
Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文参考訳（メタデータ） (2026-01-29T17:38:29Z)
RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T12:35:57Z)
Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文参考訳（メタデータ） (2026-01-25T17:36:04Z)
Multi-Scale Local Speculative Decoding for Image Generation [10.239314110594249]
マルチスケールローカル投機復号(MuLo-SD)を導入する。 MuLo-SDは、多重解像度のドラフトと空間情報による検証を組み合わせることで、AR画像生成を高速化する。我々は MuLo-SD が $mathbf1.7times$ までの大幅な高速化を実現することを示した。
論文参考訳（メタデータ） (2026-01-08T17:39:35Z)
Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。 TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。 MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文参考訳（メタデータ） (2025-11-25T00:42:09Z)
EfficientIML: Efficient High-Resolution Image Manipulation Localization [38.432078329653926]
1200以上の拡散生成操作を意味的に抽出したマスクを用いた新しい高分解能SIFデータセットを提案する。本稿では,軽量で3段階のRWKVバックボーンを有する新しいEfficientIMLモデルを提案する。提案手法は, ローカライズ性能, FLOP, 推論速度において, ViT ベースや他の SOTA 軽量ベースラインよりも優れている。
論文参考訳（メタデータ） (2025-09-10T13:32:02Z)
Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。 GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。 GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-21T18:56:19Z)
DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。 MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-12-11T18:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。