論文の概要: Autoregressive Models Rival Diffusion Models at ANY-ORDER Generation
- arxiv url: http://arxiv.org/abs/2601.13228v1
- Date: Mon, 19 Jan 2026 17:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.98212
- Title: Autoregressive Models Rival Diffusion Models at ANY-ORDER Generation
- Title(参考訳): ANY-ORDER生成における自己回帰モデルとリバル拡散モデル
- Authors: Tianqi Du, Lizhe Fang, Weijie Yang, Chenheng Zhang, Zeming Wei, Yifei Wang, Yisen Wang,
- Abstract要約: Any-order Any-subset Autoregressive Modeling (A3)を提案する。
A3は、任意のトークングループと生成順序に標準ARファクタライゼーションを拡張するフレームワークである。
質問応答、常識推論、ストーリーインフィルの実験は、A3が拡散ベースモデルより優れていることを示している。
- 参考スコア(独自算出の注目度): 35.63237650402896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models enable any-order generation and bidirectional conditioning, offering appealing flexibility for tasks such as infilling, rewriting, and self-correction. However, their formulation-predicting one part of a sequence from another within a single-step dependency-limits modeling depth and often yields lower sample quality and stability than autoregressive (AR) models. To address this, we revisit autoregressive modeling as a foundation and reformulate diffusion-style training into a structured multi-group prediction process. We propose Any-order Any-subset Autoregressive modeling (A3), a generalized framework that extends the standard AR factorization to arbitrary token groups and generation orders. A3 preserves the probabilistic rigor and multi-layer dependency modeling of AR while inheriting diffusion models' flexibility for parallel and bidirectional generation. We implement A3 through a two-stream attention architecture and a progressive adaptation strategy that transitions pretrained AR models toward any-order prediction. Experiments on question answering, commonsense reasoning, and story infilling demonstrate that A3 outperforms diffusion-based models while maintaining flexible decoding. This work offers a unified approach for a flexible, efficient, and novel language modeling paradigm.
- Abstract(参考訳): 拡散言語モデルは任意の順序の生成と双方向の条件付けを可能にし、補充、書き換え、自己補正といったタスクに魅力的な柔軟性を提供する。
しかし、それらの定式化は、一段階の依存性-リミットモデリングの深さ内で、ある配列の別の部分から予測し、しばしば自己回帰(AR)モデルよりも低いサンプル品質と安定性をもたらす。
そこで我々は,自己回帰モデリングを基礎として再考し,拡散スタイルのトレーニングを構造化された多群予測プロセスに再構成する。
我々は、任意のトークングループと生成順序に標準AR分解を拡張する一般化されたフレームワークであるA3(Any-order Any-subset Autoregressive Modeling)を提案する。
A3はARの確率的厳密性と多層依存性モデリングを保ちながら、並列および双方向生成のための拡散モデルの柔軟性を継承する。
2ストリームのアテンションアーキテクチャと、事前学習されたARモデルを任意の順序の予測に遷移させるプログレッシブ適応戦略により、A3を実装した。
質問応答、コモンセンス推論、ストーリーインフィルの実験は、A3がフレキシブルデコーディングを維持しながら拡散ベースのモデルより優れていることを示した。
この作業は、柔軟で効率的で斬新な言語モデリングパラダイムに統一されたアプローチを提供する。
関連論文リスト
- Composition and Alignment of Diffusion Models using Constrained Learning [79.36736636241564]
拡散モデルは、複雑な分布からサンプルを採取する能力により、生成的モデリングにおいて普及している。
i) 拡散モデルを微調整して報酬と整合させるアライメントと、(ii) 予め訓練された拡散モデルを組み合わせて、それぞれが生成した出力に望ましい属性を強調する合成である。
本稿では,共役モデルが報酬制約を満たすこと,あるいは(潜在的に複数の)事前学習モデルに近づき続けることを強制することによって,拡散モデルのアライメントと構成を統一する制約付き最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T15:06:30Z) - Discrete Diffusion Models for Language Generation [0.0]
本論文は、自然言語生成のための離散拡散モデルの実現可能性と性能について考察する。
我々は、生成性能を評価するためにBits Per Token(BPT)、Negative Log-Likelihood(NLL)、Perplexity(PPL)、Batch Processing Speedを使用します。
ARモデルは平均BPTが4.59で圧縮性能が向上するが、D3PMは処理速度が向上し、毎秒3.97バッチに達する。
論文 参考訳(メタデータ) (2025-07-02T23:43:02Z) - Preference-Based Alignment of Discrete Diffusion Models [14.874943508610857]
連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を導入する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
以上の結果から,D2-DPOは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習によるアプローチの代替となることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T11:07:35Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - Self-Reflective Variational Autoencoder [21.054722609128525]
変分オートエンコーダ(VAE)は潜在変数生成モデルを学習するための強力なフレームワークである。
自己回帰推論(self-reflective inference)と呼ばれるソリューションを導入します。
実験では, 後部と後部を正確に一致させることの明確な利点を実証的に示す。
論文 参考訳(メタデータ) (2020-07-10T05:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。