論文の概要: Anchored Diffusion Language Model
- arxiv url: http://arxiv.org/abs/2505.18456v1
- Date: Sat, 24 May 2025 01:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.435861
- Title: Anchored Diffusion Language Model
- Title(参考訳): アンコレッド拡散言語モデル
- Authors: Litu Rout, Constantine Caramanis, Sanjay Shakkottai,
- Abstract要約: 本稿では,アンカーネットワークを介して重要なトークン上の分布を予測する新しいフレームワークであるAnchored Diffusion Language Model (ADLM)を紹介する。
ADLMはLM1BとOpenWebTextでテストの難易度を大幅に改善し、以前のDLMよりも25.4%向上した。
また、MAUVEスコアでARモデルを上回っており、DLMがARモデルよりも優れた人間的なテキストを生成するのはこれが初めてである。
- 参考スコア(独自算出の注目度): 39.17770765212062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Language Models (DLMs) promise parallel generation and bidirectional context, yet they underperform autoregressive (AR) models in both likelihood modeling and generated text quality. We identify that this performance gap arises when important tokens (e.g., key words or low-frequency words that anchor a sentence) are masked early in the forward process, limiting contextual information for accurate reconstruction. To address this, we introduce the Anchored Diffusion Language Model (ADLM), a novel two-stage framework that first predicts distributions over important tokens via an anchor network, and then predicts the likelihoods of missing tokens conditioned on the anchored predictions. ADLM significantly improves test perplexity on LM1B and OpenWebText, achieving up to 25.4% gains over prior DLMs, and narrows the gap with strong AR baselines. It also achieves state-of-the-art performance in zero-shot generalization across seven benchmarks and surpasses AR models in MAUVE score, which marks the first time a DLM generates better human-like text than an AR model. Theoretically, we derive an Anchored Negative Evidence Lower Bound (ANELBO) objective and show that anchoring improves sample complexity and likelihood modeling. Beyond diffusion, anchoring boosts performance in AR models and enhances reasoning in math and logic tasks, outperforming existing chain-of-thought approaches
- Abstract(参考訳): 拡散言語モデル(DLM)は並列生成と双方向のコンテキストを約束するが、可能性モデリングと生成されたテキスト品質の両方において自己回帰(AR)モデルより優れている。
この性能差は、重要なトークン(例えば、キーワードや文をアンカーする低周波単語)が前処理の早い段階でマスクされ、正確な復元のための文脈情報を制限するときに生じる。
これを解決するために、アンカーネットワークを介して重要なトークン上の分布を最初に予測し、アンカー付き予測で条件付きトークンが不足する可能性を予測する新しい2段階フレームワークであるAnchored Diffusion Language Model (ADLM)を導入する。
ADLMはLM1BとOpenWebTextにおけるテストの難易度を大幅に改善し、従来のDLMよりも最大25.4%向上し、ARベースラインの強いギャップを狭める。
また、7つのベンチマークでゼロショットの一般化を達成し、MAUVEスコアでARモデルを上回り、DLMがARモデルよりも優れたヒューマンライクテキストを生成するのはこれが初めてである。
理論的には、Anchored Negative Evidence Lower Bound(ANELBO)の目的を導出し、アンカーリングがサンプルの複雑さと可能性モデリングを改善することを示す。
拡散を超えて、アンカーはARモデルのパフォーマンスを高め、数学や論理タスクの推論を強化し、既存のチェーン・オブ・プリート・アプローチより優れている
関連論文リスト
- d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付き微調整(SFT)とRLの組み合わせにより,事前学習したdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。