論文の概要: Encoder-Decoder Diffusion Language Models for Efficient Training and Inference
- arxiv url: http://arxiv.org/abs/2510.22852v1
- Date: Sun, 26 Oct 2025 22:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.395978
- Title: Encoder-Decoder Diffusion Language Models for Efficient Training and Inference
- Title(参考訳): 効率的な訓練と推論のためのエンコーダ・デコーダ拡散言語モデル
- Authors: Marianne Arriola, Yair Schiff, Hao Phung, Aaron Gokaslan, Volodymyr Kuleshov,
- Abstract要約: 本稿では,特殊なトレーニングアルゴリズムとサンプリングアルゴリズムを備えたアーキテクチャからなる,効率的な拡散デコーダ(E2D2)のフレームワークを提案する。
E2D2は、生成品質と、要約、翻訳、数学的推論タスクにおける推論との間の優れたトレードオフを実現する。
- 参考スコア(独自算出の注目度): 27.027494484311948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion models enable parallel token sampling for faster inference than autoregressive approaches. However, prior diffusion models use a decoder-only architecture, which requires sampling algorithms that invoke the full network at every denoising step and incur high computational cost. Our key insight is that discrete diffusion models perform two types of computation: 1) representing clean tokens and 2) denoising corrupted tokens, which enables us to use separate modules for each task. We propose an encoder-decoder architecture to accelerate discrete diffusion inference, which relies on an encoder to represent clean tokens and a lightweight decoder to iteratively refine a noised sequence. We also show that this architecture enables faster training of block diffusion models, which partition sequences into blocks for better quality and are commonly used in diffusion language model inference. We introduce a framework for Efficient Encoder-Decoder Diffusion (E2D2), consisting of an architecture with specialized training and sampling algorithms, and we show that E2D2 achieves superior trade-offs between generation quality and inference throughput on summarization, translation, and mathematical reasoning tasks. We provide the code, model weights, and blog post on the project page: https://m-arriola.com/e2d2
- Abstract(参考訳): 離散拡散モデルにより、自己回帰的アプローチよりも高速な推論のための並列トークンサンプリングが可能となる。
しかし、事前拡散モデルではデコーダのみのアーキテクチャを採用しており、デノナイジングステップ毎に全ネットワークを起動し、高い計算コストを発生させるサンプリングアルゴリズムを必要とする。
我々の重要な洞察は、離散拡散モデルが2種類の計算を行うことである。
1)清潔なトークンを表現し、
2) 破損したトークンをデノベートすることで、各タスクに別々のモジュールを使用することができます。
本稿では,離散拡散推論を高速化するエンコーダデコーダアーキテクチャを提案する。これはクリーントークンを表すエンコーダと,ノイズシーケンスを反復的に洗練するための軽量デコーダに依存している。
また、このアーキテクチャにより、ブロック拡散モデルの高速な訓練が可能であり、それによってシーケンスをブロックに分割し、より良い品質を保ち、拡散言語モデル推論で一般的に使用されることを示す。
本稿では,特殊な学習アルゴリズムとサンプリングアルゴリズムを備えたアーキテクチャで構成された,効率的なエンコーダ・デコーダ拡散(E2D2)のためのフレームワークを提案する。
私たちはプロジェクトページでコード、モデルの重み付け、ブログポストを提供しています。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models [50.34197948438868]
ThinkDiffは、マルチモーダルなインコンテキスト理解と推論機能を備えたテキストから画像への拡散モデルを強化するアライメントパラダイムである。
我々はThinkDiffの精度が19.2%から46.3%に大幅に向上したことを示す。
また、複数の画像やテキストを論理的に一貫性のある画像に合成する際、例外的な性能を示す。
論文 参考訳(メタデータ) (2025-02-12T05:30:08Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。