論文の概要: [MASK] is All You Need
- arxiv url: http://arxiv.org/abs/2412.06787v1
- Date: Mon, 09 Dec 2024 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:26.611744
- Title: [MASK] is All You Need
- Title(参考訳): [MASK]は必要なだけ
- Authors: Vincent Tao Hu, Björn Ommer,
- Abstract要約: 本研究では、離散状態モデルを用いて、マスケ生成モデルと非自己回帰モデルとの接続を提案する。
離散状態モデル上での[MASK]トークンからイメージセグメンテーションなどの典型的な識別タスクを非マスキングプロセスとして再キャストする。
これにより、関節分布をモデル化するためのトレーニングを一度だけ行うことで、フレキシブルな条件付きサンプリングを含む様々なサンプリングプロセスを実行することができる。
- 参考スコア(独自算出の注目度): 28.90875822599164
- License:
- Abstract: In generative models, two paradigms have gained attraction in various applications: next-set prediction-based Masked Generative Models and next-noise prediction-based Non-Autoregressive Models, e.g., Diffusion Models. In this work, we propose using discrete-state models to connect them and explore their scalability in the vision domain. First, we conduct a step-by-step analysis in a unified design space across two types of models including timestep-independence, noise schedule, temperature, guidance strength, etc in a scalable manner. Second, we re-cast typical discriminative tasks, e.g., image segmentation, as an unmasking process from [MASK]tokens on a discrete-state model. This enables us to perform various sampling processes, including flexible conditional sampling by only training once to model the joint distribution. All aforementioned explorations lead to our framework named Discrete Interpolants, which enables us to achieve state-of-the-art or competitive performance compared to previous discrete-state based methods in various benchmarks, like ImageNet256, MS COCO, and video dataset FaceForensics. In summary, by leveraging [MASK] in discrete-state models, we can bridge Masked Generative and Non-autoregressive Diffusion models, as well as generative and discriminative tasks.
- Abstract(参考訳): 生成モデルでは、次の2つのパラダイムが様々な応用において注目されている: 次セット予測に基づくマスケッド生成モデルと、次セット予測に基づく非自己回帰モデル、例えば拡散モデル。
本研究では、離散状態モデルを用いてそれらを接続し、その拡張性を視覚領域で探索する。
まず, 時間差, ノイズスケジュール, 温度, 誘導強度などの2種類のモデルにまたがって, 統一設計空間におけるステップバイステップ解析を行う。
第2に、画像分割などの典型的な識別タスクを、[MASK]トークンから離散状態モデル上でのアンマスクプロセスとして再キャストする。
これにより、関節分布をモデル化するためのトレーニングを一度だけ行うことで、フレキシブルな条件付きサンプリングを含む様々なサンプリングプロセスを実行することができる。
これにより、ImageNet256やMS COCO、ビデオデータセットのFaceForensicsなど、さまざまなベンチマークにおいて、従来の離散状態ベースのメソッドと比較して、最先端または競合的なパフォーマンスを実現できます。
要約すると、[MASK]を離散状態モデルに活用することにより、マスケード生成および非自己回帰拡散モデル、および生成的および識別的タスクを橋渡しすることができる。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - On the Efficient Marginalization of Probabilistic Sequence Models [3.5897534810405403]
この論文は、複雑な確率的クエリに答えるために自己回帰モデルを使うことに焦点を当てている。
我々は,モデルに依存しない逐次モデルにおいて,境界化のための新しい,効率的な近似手法のクラスを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:29:08Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Predict, Refine, Synthesize: Self-Guiding Diffusion Models for
Probabilistic Time Series Forecasting [10.491628898499684]
時系列の非条件学習拡散モデルであるTSDiffを提案する。
提案する自己誘導機構により、補助的ネットワークやトレーニング手順の変更を必要とせず、推論中に下流タスクに対してTSDiffを条件付けることができる。
本研究では,予測,改良,合成データ生成という3つの時系列タスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-21T10:56:36Z) - A Class of Two-Timescale Stochastic EM Algorithms for Nonconvex Latent
Variable Models [21.13011760066456]
expectation-Maximization (EM)アルゴリズムは、変数モデルを学習するための一般的な選択肢である。
本稿では,Two-Time Methodsと呼ばれる手法の一般クラスを提案する。
論文 参考訳(メタデータ) (2022-03-18T22:46:34Z) - Oops I Took A Gradient: Scalable Sampling for Discrete Distributions [53.3142984019796]
このアプローチは、多くの困難な設定において、ジェネリックサンプリングよりも優れていることを示す。
また,高次元離散データを用いた深部エネルギーモデルトレーニングのための改良型サンプリング器についても実演した。
論文 参考訳(メタデータ) (2021-02-08T20:08:50Z) - Conditional Generative Models for Counterfactual Explanations [0.0]
本稿では,分散的非分布的モデル記述を生成する汎用フレームワークを提案する。
このフレームワークは、使用される生成モデルの種類や基礎となる予測モデルのタスクに関して柔軟である。
論文 参考訳(メタデータ) (2021-01-25T14:31:13Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Deep Neural Dynamic Bayesian Networks applied to EEG sleep spindles
modeling [0.0]
本稿では,視覚的スコアリングにおいて専門家が積極的に実施する制約を組み込んだ単一チャネル脳波生成モデルを提案する。
我々は、一般化期待最大化の特別な場合として、正確に、抽出可能な推論のためのアルゴリズムを導出する。
我々は、このモデルを3つの公開データセット上で検証し、より複雑なモデルが最先端の検出器を越えられるように支援する。
論文 参考訳(メタデータ) (2020-10-16T21:48:29Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。