論文の概要: Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture
- arxiv url: http://arxiv.org/abs/2506.19935v1
- Date: Tue, 24 Jun 2025 18:22:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.502447
- Title: Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture
- Title(参考訳): マスケ拡散モデルとしての任意の次 GPT: 定式化とアーキテクチャの分離
- Authors: Shuchen Xue, Tianyu Xie, Tianyang Hu, Zijin Feng, Jiacheng Sun, Kenji Kawaguchi, Zhenguo Li, Zhi-Ming Ma,
- Abstract要約: 自己回帰(AR)モデルの代替として、仮面拡散モデル(MDM)が登場している。
ARモデルはデコーダのみであることが多いが、MDMはエンコーダのみである。
本研究は,デコーダのみのフレームワークにおけるMDMを評価した。
MDM内でアーキテクチャの影響(デコーダのみ対エンコーダのみ)を調査する。
- 参考スコア(独自算出の注目度): 65.88390432432116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) predominantly use autoregressive (AR) approaches, but masked diffusion models (MDMs) are emerging as viable alternatives. A key challenge in comparing AR and MDM paradigms is their typical architectural difference: AR models are often decoder-only, while MDMs have largely been encoder-only. This practice of changing both the modeling paradigm and architecture simultaneously makes direct comparisons unfair, as it's hard to distinguish whether observed differences stem from the paradigm itself or the architectural shift. This research evaluates MDMs within a decoder-only framework to: (1) equitably compare MDM (as Any-Order AR, or AO-AR) and standard AR paradigms. Our investigation suggests that the standard AO-AR objective, which averages over all token permutations, may benefit from refinement, as many permutations appear less informative compared to the language's inherent left-to-right structure. (2) Investigate architectural influences (decoder-only vs. encoder-only) within MDMs. We demonstrate that while encoder-only MDMs model a simpler conditional probability space, decoder-only MDMs can achieve dramatic generation speedups ($\sim25\times$) and comparable perplexity with temperature annealing despite modeling a vastly larger space, highlighting key trade-offs. This work thus decouples core paradigm differences from architectural influences, offering insights for future model design. Code is available at https://github.com/scxue/AO-GPT-MDM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、主に自己回帰(AR)アプローチを用いるが、マスク拡散モデル(MDM)は実行可能な代替手段として出現している。
ARモデルはしばしばデコーダのみであり、MDMはエンコーダのみである。
モデリングパラダイムとアーキテクチャの両方を同時に変更するというこのプラクティスは、観察された違いがパラダイム自体とアーキテクチャのシフトに由来するかどうかを区別するのは難しいため、直接的な比較を不公平にします。
本研究は、デコーダのみのフレームワークにおけるMDMを評価し、(1)MDM(Any-Order AR、またはAO-AR)と標準ARパラダイムとを等しく比較する。
本研究は,すべてのトークン置換の平均値である標準AO-ARの目的が,言語固有の左から右への構造に比べて,多くの置換がより情報的でないように見えるため,改良の恩恵を受けることを示唆している。
2)MDMにおける建築的影響(デコーダのみ対エンコーダのみ)について検討する。
エンコーダのみの MDM はより単純な条件付き確率空間をモデル化する一方で,デコーダのみの MDM は劇的な生成速度アップ (\sim25\times$) を実現することができる。
この作業は、コアパラダイムとアーキテクチャの影響を分離し、将来のモデル設計に対する洞察を提供する。
コードはhttps://github.com/scxue/AO-GPT-MDMで入手できる。
関連論文リスト
- MDiff4STR: Mask Diffusion Model for Scene Text Recognition [59.79818820650126]
Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル (ARM) に代わる有望な代替品として登場した。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
シーンテキスト認識に適した2つの重要な改善戦略を備えたマスク拡散モデルMDiff4STRを提案する。
論文 参考訳(メタデータ) (2025-12-01T08:57:51Z) - Masked Diffusion Models are Secretly Learned-Order Autoregressive Models [21.17429712617749]
Masked Diffusion Modelsは、トレーニング中にデコード順序を識別し、最適化できることを示す。
これらの命令に対してMDMの目的が正確に重み付けされた自己回帰的損失に分解されることを証明する。
論文 参考訳(メタデータ) (2025-11-24T14:17:56Z) - TiDAR: Think in Diffusion, Talk in Autoregression [59.94106070312094]
TiDARは、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャである。
TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
論文 参考訳(メタデータ) (2025-11-12T02:59:33Z) - Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs [27.331524018411926]
時間依存シミュレーションタスクに対して,エンコーダのみのモデルとデコーダのみのモデルを比較した。
デコーダのみのモデルは、既存のアプローチを修正せずに適用した場合に、エンコーダのみのモデルよりもはるかに悪いことが判明した。
自己回帰モデルにおいて、双方向性を模倣しようとする2つの新しいアプローチ、Parallel FlippingとSequence Duublingを導入する。
論文 参考訳(メタデータ) (2025-10-06T18:46:50Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - MOMEMTO: Patch-based Memory Gate Model in Time Series Foundation Model [0.07777489763207261]
パッチベースのメモリモジュールで強化された異常検出のためのTFMである textbfMOMEMTO を提案する。
メモリモジュールは、複数のドメインから代表的な通常のパターンをキャプチャし、単一のモデルを協調的に微調整できるように設計されている。
実験の結果,MOMEMTOは単一モデルとして,ベースライン法に比べてAUC,VUSのスコアが高いことがわかった。
論文 参考訳(メタデータ) (2025-09-23T07:48:25Z) - Sparse Autoencoders, Again? [15.48801130346124]
我々は、正準SAEと変分オートエンコーダの両方を用いて、未承認の弱点を定式化する。
提案したモデルの大域的ミニマは、多様体の和合にまたがるある種の構造化されたデータを復元する。
一般に、等価容量SAEとVAEの性能を超えることができる。
論文 参考訳(メタデータ) (2025-06-05T10:26:06Z) - Esoteric Language Models [31.619674001793875]
我々は,ARとMDMのパラダイムを融合した新しいモデルのファミリーであるEso-LMを紹介する。
Eso-LMは、標準言語モデリングベンチマークに新しい状態を設定した。
我々は、並列生成を保持しながら、DMs*のKVキャッシュを導入する**です。
論文 参考訳(メタデータ) (2025-06-02T17:47:27Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Enhancing DNA Foundation Models to Address Masking Inefficiencies [18.54660252939211]
マスク付きオートエンコーダフレームワークをベースとした改良型エンコーダデコーダアーキテクチャを提案する。
我々は,BIOSCAN-5Mデータセットに対するアプローチを,200万以上のユニークなDNAバーコードから評価した。
論文 参考訳(メタデータ) (2025-02-25T17:56:25Z) - Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-09T20:02:05Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。