論文の概要: Focus on the Core: Empowering Diffusion Large Language Models by Self-Contrast
- arxiv url: http://arxiv.org/abs/2605.01373v1
- Date: Sat, 02 May 2026 10:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.737352
- Title: Focus on the Core: Empowering Diffusion Large Language Models by Self-Contrast
- Title(参考訳): コアにフォーカスする:自己コントラストによる拡散大言語モデルの強化
- Authors: Jinyuan Feng, Xin Yu, Yiqun Chen, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu, Zhiqiang Pu,
- Abstract要約: 高情報密度(HD)トークンについて検討し,2つの重要な知見を示した。
トレーニング不要なデコード戦略であるCore textbf(FoCore)を提案する。
FoCoreは、LLaDAとDreamのバックボーン間の生成品質と効率を継続的に改善する。
- 参考スコア(独自算出の注目度): 25.00502163665476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The iterative denoising paradigm of Diffusion Large Language Models (DLMs) endows them with a distinct advantage in global context modeling. However, current decoding strategies fail to leverage this capability, typically exhibiting a local preference that overlooks the heterogeneous information density within the context, ultimately degrading generation quality. To address this limitation, we systematically investigate high-information-density (HD) tokens and present two key findings: (1) explicitly conditioning on HD tokens substantially improves output quality; and (2) HD tokens exhibit an early-decoding tendency, converging earlier than surrounding tokens. Motivated by these findings, we propose Focus on the Core \textbf{(FoCore)}, a training-free decoding strategy that utilizes HD tokens in a self-contrast manner, wherein HD tokens are temporarily remasked as negative samples, to guide generation. We further introduce FoCore\_Accelerate \textbf{(FoCore\_A)}, an efficient variant that, upon detecting HD token convergence, performs parallel decoding over stable candidates within a local context window, substantially accelerating generation. Extensive experiments on math, code and logical reasoning benchmarks demonstrate that FoCore consistently improves generation quality and efficiency across both LLaDA and Dream backbones. For instance, on HumanEval, FoCore improves pass@1 from 39.02 to 42.68 over standard Classifier-Free Guidance, while FoCore-A reduces the number of decoding steps by 2.07x and per-sample latency from 20.76s to 8.64s (-58.4\%).
- Abstract(参考訳): 拡散大言語モデル(DLM)の反復的記述パラダイムは、グローバルコンテキストモデリングにおいて、それらに明確な優位性を与える。
しかし、現在の復号化戦略は、通常、コンテキスト内の異質な情報密度を見落とし、最終的に生成品質を低下させる局所的な嗜好を示すため、この機能を利用することができない。
この制限に対処するために,高情報密度(HD)トークンを体系的に検討し,(1)HDトークンを明示的に条件付けすることで出力品質が大幅に向上し,(2)HDトークンは周辺トークンよりも早く収束する早期復号傾向を示す,という2つの重要な知見を示す。
これらの結果から,HDトークンを負のサンプルとして一時的に再マッピングする自己コントラスト方式で,訓練不要なデコード戦略であるCore \textbf{(FoCore)}を提案する。
また、FoCore\_Accelerate \textbf{(FoCore\_A)}は、HDトークン収束を検出すると、ローカルコンテキストウィンドウ内の安定した候補に対して並列デコードを行い、生成を大幅に高速化する。
数学、コード、論理的推論ベンチマークに関する大規模な実験は、FoCoreがLLaDAとDreamのバックボーン間の生成品質と効率を一貫して改善していることを示している。
例えば、HumanEvalでは、FoCoreは標準のClassifier-Free Guidanceよりもパス@1を39.02から42.68に改善し、FoCore-Aはデコードステップの2.07xとサンプル毎のレイテンシを20.76sから8.64s(-58.4\%)に削減する。
関連論文リスト
- Breaking Block Boundaries: Anchor-based History-stable Decoding for Diffusion Large Language Models [54.468024377748]
本稿では,Anchor-based History-stable Decoding (AHD) を提案する。
AHDは動的アンカーを通してトークンの安定性トレンドをリアルタイムで監視する。
当社のアプローチでは、デコーディングのステップを80%削減し、パフォーマンスを3.67%向上させています。
論文 参考訳(メタデータ) (2026-04-10T05:08:39Z) - CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization [122.88484422855934]
本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
論文 参考訳(メタデータ) (2026-03-06T16:39:17Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Deferred Commitment Decoding for Diffusion Language Models with Confidence-Aware Sliding Windows [33.361153168706444]
トレーニング不要なデコード戦略として,Dederred Commitment Decoding (DCD)を提案する。
DCDは、マスクされたトークンの上に信頼性を意識したスライディングウィンドウを保持しており、十分な文脈証拠が得られるまで、高い不確実性トークンを延期しながら、早期に低不確実性トークンを解決している。
実験の結果、DCDは固定ブロックベースの拡散法に比べて平均時間で1.39%向上し、最も顕著な改善は9.0%に達した。
論文 参考訳(メタデータ) (2026-01-05T12:57:33Z) - Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
ハードセグメンテーションなしでデコードウインドウを狭める正規化法である畳み込み復号法(Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。