論文の概要: Partition Generative Modeling: Masked Modeling Without Masks
- arxiv url: http://arxiv.org/abs/2505.18883v2
- Date: Thu, 09 Oct 2025 20:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.485926
- Title: Partition Generative Modeling: Masked Modeling Without Masks
- Title(参考訳): 分割生成モデリング: マスクなしの仮面モデリング
- Authors: Justin Deschenaux, Lan Tran, Caglar Gulcehre,
- Abstract要約: マスケ生成モデル(MGM)は、複雑なデータをキャプチャし、自己回帰モデル(AR)よりも高速な生成を可能にするために広く利用されている。
本稿では,ARとMGMの強みを組み合わせた新しいアプローチである分割生成モデル(PGM)を紹介する。
OpenWebTextでは、PGMはサンプリングレイテンシとスループットを少なくとも5倍改善し、ジェネレーティブ・パープレクティビティ(Generative Perplexity)の優れたサンプルを生成する。
- 参考スコア(独自算出の注目度): 10.751153162476726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked generative models (MGMs) are widely used to capture complex data and enable faster generation than autoregressive models (AR) through parallel decoding. However, MGMs typically operate on fixed-length inputs, which can be inefficient: early in sampling, most tokens are masked and carry no information, leading to wasted computation. In contrast, AR models process only tokens generated previously, making early iterations faster. In this work, we introduce the Partition Generative Model (PGM), a novel approach that combines the strengths of AR and MGMs. Rather than masking, PGM partitions tokens into two groups and employs sparse attention to block information flow between them. Since there is no information flow between partitions, the model can process the previously-generated tokens only during sampling, while retaining the ability to generate tokens in parallel and in any order. On OpenWebText, PGMs offer at least $5\times$ improvements in sampling latency and throughput, while producing samples with superior Generative Perplexity, compared to Masked Diffusion Language Models. On ImageNet, PGMs achieve a $7.5\times$ higher throughput than MaskGIT, with only a slight increase in FID (5.54 vs. 5.35). With twice as many sampling steps, the FID reduces to 4.56 while while being $3.9\times$ faster than MaskGIT. Finally, PGMs integrate seamlessly with MGM distillation, providing further inference speedups.
- Abstract(参考訳): Masked Generative Model (MGM) は、複雑なデータをキャプチャし、並列デコーディングによる自己回帰モデル(AR)よりも高速な生成を可能にするために広く使われている。
しかし、MGMは通常固定長の入力で動作し、サンプリングの早い段階では、ほとんどのトークンはマスクされ、情報を持たないため、時間の無駄な計算に繋がる。
対照的に、ARモデルは以前に生成されたトークンのみを処理するため、初期のイテレーションはより高速になる。
本稿では,ARとMGMの強みを組み合わせた新しいアプローチである分割生成モデル(PGM)を紹介する。
マスクの代わりに、PGMはトークンを2つのグループに分割し、それらの間の情報の流れをブロックするためにわずかな注意を払っている。
パーティション間の情報フローが存在しないため、モデルはサンプリング時にのみ、事前に生成されたトークンを処理できると同時に、並列かつ任意の順序でトークンを生成することができる。
OpenWebTextでは、PGMはサンプリングレイテンシとスループットを少なくとも5\times$改善し、Masked Diffusion Language Modelsよりも優れた生成パープレクティヴなサンプルを生成する。
ImageNetでは、PGMはMaskGITよりも7.5\times$高いスループットを実現しており、FIDはわずかに増加している(5.54対5.35)。
2倍のサンプリングステップでFIDは4.56に減少し、MaskGITより3.9\times$速い。
最後に、PGMはMGM蒸留とシームレスに統合され、さらなる推論スピードアップを提供する。
関連論文リスト
- Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking [17.511240770486452]
仮面拡散モデル (MDM) は, 言語モデリングにおける自己回帰モデル (ARM) と比較して, 競合性能を示した。
本稿では,Entropy bounded unmasking 手法を用いて,既存のサンプルのドロップイン置換であるEB-Samplerを紹介する。
EB-Samplerは、パフォーマンスを損なうことなく、標準的なコーディングと数学推論ベンチマークで、最先端のMDMのサンプリングを約2~3倍高速化する。
論文 参考訳(メタデータ) (2025-05-30T17:52:55Z) - Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking [17.371579113481644]
マスケード拡散モデル(MDM)は、離散データのための強力な生成モデルであり、段階的にトークンを配列で解き放つことでサンプルを生成する。
本稿では、トークンがマスクされた状態とマスクされていない状態の間を中間状態にすることでMDMを増強する部分マスキングスキーム(Prime)を提案する。
本手法は,多種多様な生成モデルタスクに対して優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-24T04:16:40Z) - Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions [41.45689715854447]
Insertion Language Models (ILM)を導入し、任意の位置にトークンを挿入することを学習する。
ILMはトークン間の強い依存関係を表現することができ、任意の順序でシーケンスを生成する能力により、正確にシーケンスをモデル化することができる。
論文 参考訳(メタデータ) (2025-05-09T03:29:15Z) - Enhancing DNA Foundation Models to Address Masking Inefficiencies [18.54660252939211]
マスク付きオートエンコーダフレームワークをベースとした改良型エンコーダデコーダアーキテクチャを提案する。
我々は,BIOSCAN-5Mデータセットに対するアプローチを,200万以上のユニークなDNAバーコードから評価した。
論文 参考訳(メタデータ) (2025-02-25T17:56:25Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Extreme Masking for Learning Instance and Distributed Visual
Representations [50.152264456036114]
本稿では,個々のトークン上の分散表現を同時に学習するためのスケーラブルなアプローチと,総合的なインスタンス表現を提案する。
分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。
我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。
論文 参考訳(メタデータ) (2022-06-09T17:59:43Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。