論文の概要: Scaling up Masked Diffusion Models on Text
- arxiv url: http://arxiv.org/abs/2410.18514v2
- Date: Fri, 20 Dec 2024 03:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:35.578874
- Title: Scaling up Masked Diffusion Models on Text
- Title(参考訳): テキストによるマスケ拡散モデルのスケールアップ
- Authors: Shen Nie, Fengqi Zhu, Chao Du, Tianyu Pang, Qian Liu, Guangtao Zeng, Min Lin, Chongxuan Li,
- Abstract要約: 仮面拡散モデル(MDM)は言語モデリングにおいて有望であることを示す。
本稿では,MDMのスケーリングに関する最初の法則を確立する。
我々は、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、そのパフォーマンスをより大きなサイズに対して評価する。
- 参考スコア(独自算出の注目度): 43.16800764711572
- License:
- Abstract: Masked diffusion models (MDMs) have shown promise in language modeling, yet their scalability and effectiveness in core language tasks, such as text generation and language understanding, remain underexplored. This paper establishes the first scaling law for MDMs, demonstrating a scaling rate comparable to autoregressive models (ARMs) and a relatively small compute gap. Motivated by their scalability, we train a family of MDMs with up to 1.1 billion (B) parameters to systematically evaluate their performance against ARMs of comparable or larger sizes. Fully leveraging the probabilistic formulation of MDMs, we propose a simple yet effective unsupervised classifier-free guidance that effectively exploits large-scale unpaired data, boosting performance for conditional inference. In language understanding, the 1.1B MDM outperforms the 1.1B TinyLlama model trained on the same data across four of eight zero-shot benchmarks. Notably, it achieves competitive math reasoning ability with the 7B Llama-2 model on the GSM8K dataset. In text generation, MDMs provide a flexible trade-off compared to ARMs utilizing KV-cache: MDMs match the performance of ARMs while being 1.4 times faster or achieving higher quality than ARMs at a higher computational cost. Moreover, MDMs address challenging tasks for ARMs by effectively handling bidirectional reasoning and adapting to temporal shifts in data. Notably, a 1.1B MDM breaks the reverse curse encountered by much larger ARMs with significantly more data and computation, such as 13B Llama-2 and 175B GPT-3. Our code is available at https://github.com/ML-GSAI/SMDM.
- Abstract(参考訳): 仮面拡散モデル(MDM)は、言語モデリングにおいて有望であるが、テキスト生成や言語理解といった中核的な言語タスクにおけるスケーラビリティと有効性は、未解明のままである。
本稿では,自動回帰モデル(ARM)に匹敵するスケーリング率と比較的小さな計算ギャップを実証し,MDMに対する最初のスケーリング法則を確立する。
そのスケーラビリティに動機づけられた私たちは、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、同等またはより大きなARMに対して、そのパフォーマンスを体系的に評価します。
MDMの確率的定式化をフル活用して、大規模未ペアデータを有効に活用し、条件付き推論の性能を高める、シンプルで効果的な教師なし分類器フリーガイダンスを提案する。
言語理解において、1.1B MDMは8つのゼロショットベンチマークのうち4つの同じデータで訓練された1.1B TinyLlamaモデルより優れている。
特に、GSM8Kデータセット上の7B Llama-2モデルによる競合数学推論能力を実現する。
テキスト生成では、MDMはKV-cacheを利用するARMと比較して柔軟なトレードオフを提供する。
さらに、MDMは、双方向推論を効果的に処理し、データの時間的シフトに適応することによって、ARMの課題に対処する。
特に、1.1BのMDMは、より大きなARMが遭遇する逆の呪いを破り、13BのLlama-2や175BのGPT-3のようなデータと計算量が大幅に増加した。
私たちのコードはhttps://github.com/ML-GSAI/SMDMで公開されています。
関連論文リスト
- Large Language Diffusion Models [77.02553707673418]
自己回帰モデル(ARM)は、大規模言語モデル(LLM)の基盤として広く見なされている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインを上回っています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - Defensive Dual Masking for Robust Adversarial Defense [5.932787778915417]
本稿では,このような攻撃に対するモデルロバスト性を高めるための新しいアプローチであるDDMアルゴリズムを提案する。
DDMは, [MASK]トークンをトレーニングサンプルに戦略的に挿入し, 対向的摂動をより効果的に扱うためのモデルを作成する, 独自の対向的トレーニング戦略を採用している。
推論中、潜在的な敵トークンは、入力のコアセマンティクスを保持しながら潜在的な脅威を中和するために、動的に[MASK]トークンに置き換えられる。
論文 参考訳(メタデータ) (2024-12-10T00:41:25Z) - ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction [55.03585818289934]
自己回帰モデル(ARM)と拡散モデル(DM)は、生成モデルにおける2つの主要なパラダイムを表す。
拡散補正(Diffusion Correction: ACDC)を用いた自己回帰型コヒーレント多モード生成について紹介する。
ACDCは、追加の微調整を必要とせず、推論段階でARMとDMの両方の強度を組み合わせる。
論文 参考訳(メタデータ) (2024-10-07T03:22:51Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。