論文の概要: Improving Joint Embedding Predictive Architecture with Diffusion Noise
- arxiv url: http://arxiv.org/abs/2507.15216v1
- Date: Mon, 21 Jul 2025 03:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.242176
- Title: Improving Joint Embedding Predictive Architecture with Diffusion Noise
- Title(参考訳): 拡散雑音による複合埋め込み予測アーキテクチャの改善
- Authors: Yuping Qiu, Rui Zhu, Ying-cong Chen,
- Abstract要約: 自己教師付き学習は、多くの下流タスクに広く適用され、機能学習の驚くほど成功した方法となった。
これは特に差別的なタスクに対して有効であることが証明され、傾向の進行する生成モデルを上回っている。
本稿では,N-JEPA (Noise-based JEPA) を用いて,マスク付きトークンの位置埋め込みにより拡散雑音をMIMに組み込む手法を提案する。
- 参考スコア(独自算出の注目度): 17.836067519894154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has become an incredibly successful method for feature learning, widely applied to many downstream tasks. It has proven especially effective for discriminative tasks, surpassing the trending generative models. However, generative models perform better in image generation and detail enhancement. Thus, it is natural for us to find a connection between SSL and generative models to further enhance the representation capacity of SSL. As generative models can create new samples by approximating the data distribution, such modeling should also lead to a semantic understanding of the raw visual data, which is necessary for recognition tasks. This enlightens us to combine the core principle of the diffusion model: diffusion noise, with SSL to learn a competitive recognition model. Specifically, diffusion noise can be viewed as a particular state of mask that reveals a close relationship between masked image modeling (MIM) and diffusion models. In this paper, we propose N-JEPA (Noise-based JEPA) to incorporate diffusion noise into MIM by the position embedding of masked tokens. The multi-level noise schedule is a series of feature augmentations to further enhance the robustness of our model. We perform a comprehensive study to confirm its effectiveness in the classification of downstream tasks. Codes will be released soon in public.
- Abstract(参考訳): 自己教師付き学習は、多くの下流タスクに広く適用され、機能学習の驚くほど成功した方法となった。
これは特に差別的なタスクに対して有効であることが証明され、傾向の進行する生成モデルを上回っている。
しかし、生成モデルは画像生成と細部拡張において優れた性能を発揮する。
したがって、SSLの表現能力をさらに高めるために、SSLと生成モデルの間の接続を見つけることは自然である。
生成モデルがデータ分布を近似することで新しいサンプルを作成することができるので、そのようなモデリングは、認識タスクに必要な生の視覚データのセマンティックな理解にも繋がるべきである。
これにより拡散モデルの中核となる原理である拡散ノイズとSSLを組み合わせることで、競争力のある認識モデルを学ぶことができる。
具体的には、拡散ノイズは、マスク付き画像モデリング(MIM)と拡散モデルとの密接な関係を明らかにするマスクの特定の状態と見なすことができる。
本稿では,N-JEPA (Noise-based JEPA) を用いて,マスク付きトークンの位置埋め込みにより拡散雑音をMIMに組み込む手法を提案する。
マルチレベルノイズスケジュールは、我々のモデルの堅牢性をさらに高めるための一連の機能拡張である。
下流タスクの分類におけるその有効性を確認するための総合的な研究を行う。
コードは間もなく一般公開される予定だ。
関連論文リスト
- Glauber Generative Model: Discrete Diffusion Models via Binary Classification [21.816933208895843]
離散拡散モデルの新しいクラスであるグラウバー生成モデル(GGM)を紹介する。
GGMはマルコフ連鎖を展開させ、離散トークンの共分散からサンプルにノイズトークンの列を分解する。
言語生成や画像生成において,既存の離散拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T10:42:13Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。