論文の概要: Scaling up Masked Diffusion Models on Text
- arxiv url: http://arxiv.org/abs/2410.18514v1
- Date: Thu, 24 Oct 2024 08:01:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:47.007666
- Title: Scaling up Masked Diffusion Models on Text
- Title(参考訳): テキストによるマスケ拡散モデルのスケールアップ
- Authors: Shen Nie, Fengqi Zhu, Chao Du, Tianyu Pang, Qian Liu, Guangtao Zeng, Min Lin, Chongxuan Li,
- Abstract要約: 仮面拡散モデル(MDM)は、言語モデリングにおいて有望であるが、テキスト生成や言語理解といった中核的な言語タスクにおけるスケーラビリティと有効性は、未解明のままである。
本稿では,自動回帰モデル(ARM)に匹敵するスケーリング率と比較的小さな計算ギャップを実証し,MDMに対する最初のスケーリング法則を確立する。
- 参考スコア(独自算出の注目度): 43.16800764711572
- License:
- Abstract: Masked diffusion models (MDMs) have shown promise in language modeling, yet their scalability and effectiveness in core language tasks, such as text generation and language understanding, remain underexplored. This paper establishes the first scaling law for MDMs, demonstrating a scaling rate comparable to autoregressive models (ARMs) and a relatively small compute gap. Motivated by their scalability, we train a family of MDMs with up to 1.1 billion (B) parameters to systematically evaluate their performance against ARMs of comparable or larger sizes. Fully leveraging the probabilistic formulation of MDMs, we propose a simple yet effective \emph{unsupervised classifier-free guidance} that effectively exploits large-scale unpaired data, boosting performance for conditional inference. In language understanding, a 1.1B MDM shows competitive results, outperforming the larger 1.5B GPT-2 model on four out of eight zero-shot benchmarks. In text generation, MDMs provide a flexible trade-off compared to ARMs utilizing KV-cache: MDMs match the performance of ARMs while being 1.4 times faster, or achieve higher quality than ARMs at a higher computational cost. Moreover, MDMs address challenging tasks for ARMs by effectively handling bidirectional reasoning and adapting to temporal shifts in data. Notably, a 1.1B MDM breaks the \emph{reverse curse} encountered by much larger ARMs with significantly more data and computation, such as Llama-2 (13B) and GPT-3 (175B). Our code is available at \url{https://github.com/ML-GSAI/SMDM}.
- Abstract(参考訳): 仮面拡散モデル(MDM)は、言語モデリングにおいて有望であるが、テキスト生成や言語理解といった中核的な言語タスクにおけるスケーラビリティと有効性は、未解明のままである。
本稿では,自動回帰モデル(ARM)に匹敵するスケーリング率と比較的小さな計算ギャップを実証し,MDMに対する最初のスケーリング法則を確立する。
そのスケーラビリティに動機づけられた私たちは、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、同等またはより大きなARMに対して、そのパフォーマンスを体系的に評価します。
MDMの確率的定式化をフル活用して,大規模未ペア化データを効果的に活用し,条件付き推論の性能向上を図る,単純かつ効果的な'emph{unsupervised classifier-free guidance}を提案する。
言語理解では、1.1BのMDMが競争結果を示し、8つのゼロショットベンチマークのうち4つで1.5BのGPT-2モデルを上回っている。
テキスト生成では、MDMはKV-cacheを使用するARMと比較して柔軟なトレードオフを提供する: MDMは、1.4倍高速でARMのパフォーマンスと一致し、より高い計算コストでARMよりも高い品質を達成する。
さらに、MDMは、双方向推論を効果的に処理し、データの時間的シフトに適応することによって、ARMの課題に対処する。
特に、1.1BのMDMは、Llama-2 (13B) や GPT-3 (175B) など、はるかに大きなデータと計算量を持つARMが直面する「emph{reverse curse}」を破る。
私たちのコードは \url{https://github.com/ML-GSAI/SMDM} で利用可能です。
関連論文リスト
- ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction [55.03585818289934]
自己回帰モデル(ARM)と拡散モデル(DM)は、生成モデルにおける2つの主要なパラダイムを表す。
拡散補正(Diffusion Correction: ACDC)を用いた自己回帰型コヒーレント多モード生成について紹介する。
ACDCは、追加の微調整を必要とせず、推論段階でARMとDMの両方の強度を組み合わせる。
論文 参考訳(メタデータ) (2024-10-07T03:22:51Z) - Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling [47.82616476928464]
仮面拡散モデル (MDM) は離散データの生成モデルとして人気がある。
我々はMDMのトレーニングとサンプリングの両方が理論的に時間変数から解放されていることを示す。
一般に使用されている32ビット浮動小数点精度においても,まず基礎となる数値問題を同定した。
論文 参考訳(メタデータ) (2024-09-04T17:48:19Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - ROIC-DM: Robust Text Inference and Classification via Diffusion Model [40.47452511263549]
本稿では,拡散モデル(ROIC-DM)に基づく,ロバストテキスト推論と分類のための革新的なモデルを提案する。
ROIC-DMは、発達段階を含む訓練に特化しており、従来の言語モデルよりも頑健である。
3つのデータセットに対するいくつかの強いテキスト対逆攻撃による大規模な実験は、ROIC-DMが従来の言語モデルよりも堅牢性が高いことを示した。
論文 参考訳(メタデータ) (2024-01-07T15:05:26Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z) - RobustPdM: Designing Robust Predictive Maintenance against Adversarial
Attacks [0.0]
対人攻撃はRUL予測の深刻な欠陥(最大11倍)を引き起こす可能性を示し、3Xによる最先端のPdM攻撃の有効性を上回った。
また,敵攻撃を防御する新たな対人訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-25T20:49:12Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。