論文の概要: Scaling up Masked Diffusion Models on Text
- arxiv url: http://arxiv.org/abs/2410.18514v1
- Date: Thu, 24 Oct 2024 08:01:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:47.007666
- Title: Scaling up Masked Diffusion Models on Text
- Title(参考訳): テキストによるマスケ拡散モデルのスケールアップ
- Authors: Shen Nie, Fengqi Zhu, Chao Du, Tianyu Pang, Qian Liu, Guangtao Zeng, Min Lin, Chongxuan Li,
- Abstract要約: 仮面拡散モデル(MDM)は、言語モデリングにおいて有望であるが、テキスト生成や言語理解といった中核的な言語タスクにおけるスケーラビリティと有効性は、未解明のままである。
本稿では,自動回帰モデル(ARM)に匹敵するスケーリング率と比較的小さな計算ギャップを実証し,MDMに対する最初のスケーリング法則を確立する。
- 参考スコア(独自算出の注目度): 43.16800764711572
- License:
- Abstract: Masked diffusion models (MDMs) have shown promise in language modeling, yet their scalability and effectiveness in core language tasks, such as text generation and language understanding, remain underexplored. This paper establishes the first scaling law for MDMs, demonstrating a scaling rate comparable to autoregressive models (ARMs) and a relatively small compute gap. Motivated by their scalability, we train a family of MDMs with up to 1.1 billion (B) parameters to systematically evaluate their performance against ARMs of comparable or larger sizes. Fully leveraging the probabilistic formulation of MDMs, we propose a simple yet effective \emph{unsupervised classifier-free guidance} that effectively exploits large-scale unpaired data, boosting performance for conditional inference. In language understanding, a 1.1B MDM shows competitive results, outperforming the larger 1.5B GPT-2 model on four out of eight zero-shot benchmarks. In text generation, MDMs provide a flexible trade-off compared to ARMs utilizing KV-cache: MDMs match the performance of ARMs while being 1.4 times faster, or achieve higher quality than ARMs at a higher computational cost. Moreover, MDMs address challenging tasks for ARMs by effectively handling bidirectional reasoning and adapting to temporal shifts in data. Notably, a 1.1B MDM breaks the \emph{reverse curse} encountered by much larger ARMs with significantly more data and computation, such as Llama-2 (13B) and GPT-3 (175B). Our code is available at \url{https://github.com/ML-GSAI/SMDM}.
- Abstract(参考訳): 仮面拡散モデル(MDM)は、言語モデリングにおいて有望であるが、テキスト生成や言語理解といった中核的な言語タスクにおけるスケーラビリティと有効性は、未解明のままである。
本稿では,自動回帰モデル(ARM)に匹敵するスケーリング率と比較的小さな計算ギャップを実証し,MDMに対する最初のスケーリング法則を確立する。
そのスケーラビリティに動機づけられた私たちは、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、同等またはより大きなARMに対して、そのパフォーマンスを体系的に評価します。
MDMの確率的定式化をフル活用して,大規模未ペア化データを効果的に活用し,条件付き推論の性能向上を図る,単純かつ効果的な'emph{unsupervised classifier-free guidance}を提案する。
言語理解では、1.1BのMDMが競争結果を示し、8つのゼロショットベンチマークのうち4つで1.5BのGPT-2モデルを上回っている。
テキスト生成では、MDMはKV-cacheを使用するARMと比較して柔軟なトレードオフを提供する: MDMは、1.4倍高速でARMのパフォーマンスと一致し、より高い計算コストでARMよりも高い品質を達成する。
さらに、MDMは、双方向推論を効果的に処理し、データの時間的シフトに適応することによって、ARMの課題に対処する。
特に、1.1BのMDMは、Llama-2 (13B) や GPT-3 (175B) など、はるかに大きなデータと計算量を持つARMが直面する「emph{reverse curse}」を破る。
私たちのコードは \url{https://github.com/ML-GSAI/SMDM} で利用可能です。
関連論文リスト
- Large Language Diffusion Models [77.02553707673418]
自己回帰モデル(ARM)は、大規模言語モデル(LLM)の基盤として広く見なされている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインを上回っています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - Defensive Dual Masking for Robust Adversarial Defense [5.932787778915417]
本稿では,このような攻撃に対するモデルロバスト性を高めるための新しいアプローチであるDDMアルゴリズムを提案する。
DDMは, [MASK]トークンをトレーニングサンプルに戦略的に挿入し, 対向的摂動をより効果的に扱うためのモデルを作成する, 独自の対向的トレーニング戦略を採用している。
推論中、潜在的な敵トークンは、入力のコアセマンティクスを保持しながら潜在的な脅威を中和するために、動的に[MASK]トークンに置き換えられる。
論文 参考訳(メタデータ) (2024-12-10T00:41:25Z) - ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction [55.03585818289934]
自己回帰モデル(ARM)と拡散モデル(DM)は、生成モデルにおける2つの主要なパラダイムを表す。
拡散補正(Diffusion Correction: ACDC)を用いた自己回帰型コヒーレント多モード生成について紹介する。
ACDCは、追加の微調整を必要とせず、推論段階でARMとDMの両方の強度を組み合わせる。
論文 参考訳(メタデータ) (2024-10-07T03:22:51Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。