論文の概要: Representation Learning in Continuous-Time Score-Based Generative Models
- arxiv url: http://arxiv.org/abs/2105.14257v1
- Date: Sat, 29 May 2021 09:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 18:57:41.311481
- Title: Representation Learning in Continuous-Time Score-Based Generative Models
- Title(参考訳): 連続時間スコアベース生成モデルにおける表現学習
- Authors: Korbinian Abstreiter, Stefan Bauer, Arash Mehrjou
- Abstract要約: このようなモデルのトレーニングは、マルチスケールのデノナイジングオートエンコーダとして見ることのできるスコアマッチングのデノナイジングに依存している。
そこで我々は,教師あり信号のない表現学習を実現するために,デノベーションスコアマッチングフレームワークを拡張した。
対照的に、スコアに基づく表現学習は、スコアマッチング目的の新たな定式化に依存している。
- 参考スコア(独自算出の注目度): 19.990583896271573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Score-based methods represented as stochastic differential equations on a
continuous time domain have recently proven successful as a non-adversarial
generative model. Training such models relies on denoising score matching,
which can be seen as multi-scale denoising autoencoders. Here, we augment the
denoising score-matching framework to enable representation learning without
any supervised signal. GANs and VAEs learn representations by directly
transforming latent codes to data samples. In contrast, score-based
representation learning relies on a new formulation of the denoising
score-matching objective and thus encodes information needed for denoising. We
show how this difference allows for manual control of the level of detail
encoded in the representation.
- Abstract(参考訳): 連続時間領域上の確率微分方程式として表されるスコアベースの手法は、最近非逆生成モデルとして成功した。
このようなモデルのトレーニングは、マルチスケールのデノージングオートエンコーダとして見ることができる、デノージングスコアマッチングに依存している。
ここでは,教師あり信号のない表現学習を実現するために,デノイングスコアマッチングフレームワークを強化する。
GANとVAEは、遅延コードを直接データサンプルに変換することで表現を学ぶ。
対照的に、スコアベースの表現学習は、音符マッチング目標の新しい定式化に依存しているため、音符マッチングに必要な情報をエンコードする。
この違いが表現にエンコードされたディテールのレベルを手作業で制御できることを示す。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Sample what you cant compress [6.24979299238534]
拡散に基づく損失の下で、連続エンコーダとデコーダの学習方法を示す。
このアプローチは、GANベースのオートエンコーダと比較して、再構築品質が向上する。
また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。
論文 参考訳(メタデータ) (2024-09-04T08:42:42Z) - Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Factorized Diffusion Architectures for Unsupervised Image Generation and
Segmentation [24.436957604430678]
本研究では,非教師付き拡散モデルとして訓練されたニューラルネットワークアーキテクチャを,画像の生成とセグメント分割の両面から同時に学習する。
実験により,複数のデータセットにまたがって,高精度な教師なし画像分割と高品質な合成画像生成を実現することができた。
論文 参考訳(メタデータ) (2023-09-27T15:32:46Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。