論文の概要: Context-Aware Initialization for Reducing Generative Path Length in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2512.19004v1
- Date: Mon, 22 Dec 2025 03:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.606802
- Title: Context-Aware Initialization for Reducing Generative Path Length in Diffusion Language Models
- Title(参考訳): 拡散言語モデルにおける生成経路長低減のための文脈認識初期化
- Authors: Tongyuan Miao, Gary Huang, Kai Jun Han, Annie Jiang,
- Abstract要約: DLLM(Large Language Models)は完全な並列トークン復号を可能にするが、推論時には実用的でないことが多い。
既存の加速法の多くは、改良された解法やサンプリング戦略を通じて、この生成軌道をより効率的にトラバースすることに焦点を当てている。
本稿では,軽量補助モデルから拡散初期化に事前条件付き事前条件を注入する学習自由インタフェースを提案する。
インジェクションされたプリエントは不完全であり、アンマスクのみのデコーディングは早期に過剰にコミットできるため、プリエントベースのリメイキング機構を事前の懐疑論の一形態として導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Large Language Models (DLLMs) enable fully parallel token decoding but often remain impractical at inference time due to the many denoising iterations required to refine an information-free, fully masked initialization into coherent text. Most existing acceleration methods focus on traversing this generative trajectory more efficiently via improved solvers or sampling strategies. We advance a complementary perspective: shorten the trajectory itself by starting closer to the target distribution through context-aware initialization. We propose a training-free interface that injects prompt-conditioned priors from a lightweight auxiliary model into the diffusion initialization, and instantiate it with two mechanisms: discrete token injection and representation-level embedding interpolation. Because injected priors can be imperfect and unmask-only decoding can over-commit early, we also introduce a simple confidence-based remasking mechanism as a form of prior skepticism. Preliminary evidence on GSM8K suggests that context-aware initialization can substantially reduce denoising iterations (about 35\% fewer function evaluations in our setting), while also exposing a key open challenge: naive warm-starting can degrade final accuracy relative to strong diffusion baselines. We use these findings to motivate a research agenda around calibration, revision mechanisms, and representation alignment for reliable warm-started diffusion decoding.
- Abstract(参考訳): Diffusion Large Language Models (DLLM) は完全な並列トークン復号を可能にするが、情報フリーで完全にマスキングされた初期化をコヒーレントテキストに洗練するのに必要とされる多くのデノイングイテレーションのため、推論時に非現実的であることが多い。
既存の加速法の多くは、改良された解法やサンプリング戦略を通じて、この生成軌道をより効率的にトラバースすることに焦点を当てている。
我々は、文脈認識初期化を通じて目標分布に近づき始めることにより、軌道自体を短くするという補完的な視点を推し進める。
本稿では,軽量な補助モデルから拡散初期化に事前条件付きプリミティブを注入し,離散トークン注入と表現レベルの埋め込み補間という2つのメカニズムでインスタンス化する訓練自由インタフェースを提案する。
インジェクションされたプリエントは不完全であり、アンマスクのみのデコーディングは早期に過剰にコミットできるため、プリエントベースのリメイキング機構を事前の懐疑論の一形態として導入する。
GSM8Kに関する予備的な証拠は、文脈認識の初期化は、デノイングイテレーションを著しく削減し(我々の設定では、関数評価を約35 %減らす)、同時に、重要なオープンな課題を明らかにしている。
これらの知見を応用して、キャリブレーション、リビジョン機構、表現アライメントアライメントに関する研究課題を、信頼性の高いウォームスタート拡散復号のためのモチベーションとして活用する。
関連論文リスト
- Adaptive 3D Reconstruction via Diffusion Priors and Forward Curvature-Matching Likelihood Updates [1.2425910171551517]
画像から高品質な点雲を再構築することは、コンピュータビジョンでは依然として難しい。
近年の拡散法は, 事前モデルと可能性更新を組み合わせることでこの問題に対処している。
我々は,新しいFCM (Forward Curvature-Matching) 更新手法と拡散サンプリングを組み合わせることで,このアプローチを推し進める。
論文 参考訳(メタデータ) (2025-11-09T10:14:14Z) - TopoSizing: An LLM-aided Framework of Topology-based Understanding and Sizing for AMS Circuits [7.615431299673158]
従来のブラックボックス最適化はサンプリング効率を実現するが、回路理解に欠ける。
提案するTopoSizeは、生のネットリストから直接、堅牢な回路理解を行うエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-09-17T16:52:46Z) - A Hybrid Early-Exit Algorithm for Large Language Models Based on Space Alignment Decoding (SPADE) [3.1775609005777024]
大規模言語モデルは、その深い構造のために計算コストが高い。
中間層表現を出力層に整合させる新しい復号法であるSPADEを提案する。
我々は,SPADEを用いて高品質な出力を生成しながら,信頼度を監視し,中間層での推論を停止するハイブリッド・アーリーエグジットアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-07-23T15:49:03Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Accelerating Large Language Model Inference with Self-Supervised Early Exits [0.0]
本稿では,大規模・事前学習型言語モデル(LLM)における推論を高速化する新しい手法を提案する。
本稿では,既存の変圧器層上に早期出口「頭部」を統合し,信頼度基準に基づく条件付き項化を容易にすることを提案する。
論文 参考訳(メタデータ) (2024-07-30T07:58:28Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。