論文の概要: Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture
- arxiv url: http://arxiv.org/abs/2506.19935v1
- Date: Tue, 24 Jun 2025 18:22:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.502447
- Title: Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture
- Title(参考訳): マスケ拡散モデルとしての任意の次 GPT: 定式化とアーキテクチャの分離
- Authors: Shuchen Xue, Tianyu Xie, Tianyang Hu, Zijin Feng, Jiacheng Sun, Kenji Kawaguchi, Zhenguo Li, Zhi-Ming Ma,
- Abstract要約: 自己回帰(AR)モデルの代替として、仮面拡散モデル(MDM)が登場している。
ARモデルはデコーダのみであることが多いが、MDMはエンコーダのみである。
本研究は,デコーダのみのフレームワークにおけるMDMを評価した。
MDM内でアーキテクチャの影響(デコーダのみ対エンコーダのみ)を調査する。
- 参考スコア(独自算出の注目度): 65.88390432432116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) predominantly use autoregressive (AR) approaches, but masked diffusion models (MDMs) are emerging as viable alternatives. A key challenge in comparing AR and MDM paradigms is their typical architectural difference: AR models are often decoder-only, while MDMs have largely been encoder-only. This practice of changing both the modeling paradigm and architecture simultaneously makes direct comparisons unfair, as it's hard to distinguish whether observed differences stem from the paradigm itself or the architectural shift. This research evaluates MDMs within a decoder-only framework to: (1) equitably compare MDM (as Any-Order AR, or AO-AR) and standard AR paradigms. Our investigation suggests that the standard AO-AR objective, which averages over all token permutations, may benefit from refinement, as many permutations appear less informative compared to the language's inherent left-to-right structure. (2) Investigate architectural influences (decoder-only vs. encoder-only) within MDMs. We demonstrate that while encoder-only MDMs model a simpler conditional probability space, decoder-only MDMs can achieve dramatic generation speedups ($\sim25\times$) and comparable perplexity with temperature annealing despite modeling a vastly larger space, highlighting key trade-offs. This work thus decouples core paradigm differences from architectural influences, offering insights for future model design. Code is available at https://github.com/scxue/AO-GPT-MDM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、主に自己回帰(AR)アプローチを用いるが、マスク拡散モデル(MDM)は実行可能な代替手段として出現している。
ARモデルはしばしばデコーダのみであり、MDMはエンコーダのみである。
モデリングパラダイムとアーキテクチャの両方を同時に変更するというこのプラクティスは、観察された違いがパラダイム自体とアーキテクチャのシフトに由来するかどうかを区別するのは難しいため、直接的な比較を不公平にします。
本研究は、デコーダのみのフレームワークにおけるMDMを評価し、(1)MDM(Any-Order AR、またはAO-AR)と標準ARパラダイムとを等しく比較する。
本研究は,すべてのトークン置換の平均値である標準AO-ARの目的が,言語固有の左から右への構造に比べて,多くの置換がより情報的でないように見えるため,改良の恩恵を受けることを示唆している。
2)MDMにおける建築的影響(デコーダのみ対エンコーダのみ)について検討する。
エンコーダのみの MDM はより単純な条件付き確率空間をモデル化する一方で,デコーダのみの MDM は劇的な生成速度アップ (\sim25\times$) を実現することができる。
この作業は、コアパラダイムとアーキテクチャの影響を分離し、将来のモデル設計に対する洞察を提供する。
コードはhttps://github.com/scxue/AO-GPT-MDMで入手できる。
関連論文リスト
- Sparse Autoencoders, Again? [15.48801130346124]
我々は、正準SAEと変分オートエンコーダの両方を用いて、未承認の弱点を定式化する。
提案したモデルの大域的ミニマは、多様体の和合にまたがるある種の構造化されたデータを復元する。
一般に、等価容量SAEとVAEの性能を超えることができる。
論文 参考訳(メタデータ) (2025-06-05T10:26:06Z) - Esoteric Language Models [31.619674001793875]
我々は,ARとMDMのパラダイムを融合した新しいモデルのファミリーであるEso-LMを紹介する。
Eso-LMは、標準言語モデリングベンチマークに新しい状態を設定した。
我々は、並列生成を保持しながら、DMs*のKVキャッシュを導入する**です。
論文 参考訳(メタデータ) (2025-06-02T17:47:27Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Enhancing DNA Foundation Models to Address Masking Inefficiencies [18.54660252939211]
マスク付きオートエンコーダフレームワークをベースとした改良型エンコーダデコーダアーキテクチャを提案する。
我々は,BIOSCAN-5Mデータセットに対するアプローチを,200万以上のユニークなDNAバーコードから評価した。
論文 参考訳(メタデータ) (2025-02-25T17:56:25Z) - Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-09T20:02:05Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。