Fugu-MT 論文翻訳(概要): Diffusion-Based Representation Learning

論文の概要: Diffusion-Based Representation Learning

arxiv url: http://arxiv.org/abs/2105.14257v4
Date: Mon, 04 Nov 2024 03:01:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.131048
Title: Diffusion-Based Representation Learning
Title（参考訳）: 拡散に基づく表現学習
Authors: Sarthak Mittal, Korbinian Abstreiter, Stefan Bauer, Bernhard Schölkopf, Arash Mehrjou,
Abstract要約: 教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
参考スコア（独自算出の注目度）: 65.55681678004038
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion-based methods represented as stochastic differential equations on a continuous-time domain have recently proven successful as a non-adversarial generative model. Training such models relies on denoising score matching, which can be seen as multi-scale denoising autoencoders. Here, we augment the denoising score matching framework to enable representation learning without any supervised signal. GANs and VAEs learn representations by directly transforming latent codes to data samples. In contrast, the introduced diffusion-based representation learning relies on a new formulation of the denoising score matching objective and thus encodes the information needed for denoising. We illustrate how this difference allows for manual control of the level of details encoded in the representation. Using the same approach, we propose to learn an infinite-dimensional latent code that achieves improvements of state-of-the-art models on semi-supervised image classification. We also compare the quality of learned representations of diffusion score matching with other methods like autoencoder and contrastively trained systems through their performances on downstream tasks.
Abstract（参考訳）: 連続時間領域上の確率微分方程式として表される拡散に基づく手法は、最近非逆生成モデルとして成功している。このようなモデルのトレーニングは、マルチスケールのデノナイジングオートエンコーダとして見ることのできるスコアマッチングのデノナイジングに依存している。ここでは,教師あり信号のない表現学習を実現するために,デノベーションスコアマッチングフレームワークを改良する。 GANとVAEは、遅延コードを直接データサンプルに変換することで表現を学習する。対照的に、拡散に基づく表現学習は、Denoising score matchingの目的を新たに定式化することで、denoisingに必要な情報をエンコードする。この違いが表現にエンコードされた詳細のレベルを手動で制御する方法について説明する。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。また,学習した拡散スコアの表現の質を,下流タスクのパフォーマンスを通じて,オートエンコーダや対照的に訓練されたシステムなど他の手法と比較する。

関連論文リスト

Generalization of Diffusion Models Arises with a Balanced Representation Space [32.68561555837436]
我々は,表現学習のレンズを用いて,拡散モデルにおける記憶と一般化の区別を分析する。暗記は,学習重みに生のトレーニングサンプルを格納し,符号化と復号を行い,局所的な「スピーキー」表現を生成するモデルに対応することを示す。本稿では,表現ステアリングによる正確な制御を可能にする,暗記検出のための表現ベース手法と,トレーニング不要な編集手法を提案する。
論文参考訳（メタデータ） (2025-12-24T05:40:40Z)
Automated Learning of Semantic Embedding Representations for Diffusion Models [1.688134675717698]
拡散モデルの表現能力を拡大するために,マルチレベル・デノナイジング・オートエンコーダ・フレームワークを用いる。我々の研究は、DDMが生成タスクに適合するだけでなく、汎用的なディープラーニングアプリケーションにも有利である可能性を正当化している。
論文参考訳（メタデータ） (2025-05-09T02:10:46Z)
Video Summarization using Denoising Diffusion Probabilistic Model [21.4190413531697]
本稿では,確率分布の観点から要約を生成する方法を学ぶ,映像要約のための生成フレームワークを提案する。具体的には、雑音予測によりトレーニングデータの確率分布を学習するDDPM(Denoising Diffusion Probabilistic Model)に基づく新しい拡散要約法を提案する。提案手法は主観的アノテーションノイズに耐性があり,識別法よりも訓練データを過度に適合させる傾向が低く,高い一般化能力を有する。
論文参考訳（メタデータ） (2024-12-11T13:02:09Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
Sample what you cant compress [6.24979299238534]
拡散に基づく損失の下で、連続エンコーダとデコーダの学習方法を示す。このアプローチは、GANベースのオートエンコーダと比較して、再構築品質が向上する。また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。
論文参考訳（メタデータ） (2024-09-04T08:42:42Z)
Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文参考訳（メタデータ） (2024-03-08T10:19:00Z)
Factorized Diffusion Architectures for Unsupervised Image Generation and Segmentation [24.436957604430678]
本研究では,非教師付き拡散モデルとして訓練されたニューラルネットワークアーキテクチャを,画像の生成とセグメント分割の両面から同時に学習する。実験により,複数のデータセットにまたがって,高精度な教師なし画像分割と高品質な合成画像生成を実現することができた。
論文参考訳（メタデータ） (2023-09-27T15:32:46Z)
Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文参考訳（メタデータ） (2023-04-06T17:59:56Z)
Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。 DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。 CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文参考訳（メタデータ） (2023-03-17T04:20:47Z)
Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文参考訳（メタデータ） (2022-07-19T14:35:42Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-04-01T16:48:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。