論文の概要: Denoising Autoregressive Representation Learning
- arxiv url: http://arxiv.org/abs/2403.05196v1
- Date: Fri, 8 Mar 2024 10:19:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:18:16.454394
- Title: Denoising Autoregressive Representation Learning
- Title(参考訳): 自己回帰表現学習の認知
- Authors: Yazhe Li, Jorg Bornschein, Ting Chen
- Abstract要約: DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
- 参考スコア(独自算出の注目度): 14.819256445166523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore a new generative approach for learning visual
representations. Our method, DARL, employs a decoder-only Transformer to
predict image patches autoregressively. We find that training with Mean Squared
Error (MSE) alone leads to strong representations. To enhance the image
generation ability, we replace the MSE loss with the diffusion objective by
using a denoising patch decoder. We show that the learned representation can be
improved by using tailored noise schedules and longer training in larger
models. Notably, the optimal schedule differs significantly from the typical
ones used in standard image diffusion models. Overall, despite its simple
architecture, DARL delivers performance remarkably close to state-of-the-art
masked prediction models under the fine-tuning protocol. This marks an
important step towards a unified model capable of both visual perception and
generation, effectively combining the strengths of autoregressive and denoising
diffusion models.
- Abstract(参考訳): 本稿では,視覚表現学習のための新しい生成手法を提案する。
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
Mean Squared Error (MSE) によるトレーニングだけでも,強い表現につながることが分かっています。
画像生成能力を向上させるため,消音パッチデコーダを用いてmse損失を拡散目標に置き換える。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
特に、最適なスケジュールは標準画像拡散モデルで使用される典型的なスケジュールと大きく異なる。
全体としては、単純なアーキテクチャにもかかわらず、DARLは微調整プロトコルの下で最先端のマスク付き予測モデルに近いパフォーマンスを提供する。
これは視覚知覚と生成の両方が可能な統一モデルへの重要な一歩であり、自己回帰拡散モデルの強みと消音拡散モデルの強みを効果的に組み合わせている。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - A Recycling Training Strategy for Medical Image Segmentation with
Diffusion Denoising Models [8.649603931882227]
拡散モデルのデノイングは、画像上に条件付きセグメンテーションマスクを生成することにより、画像セグメンテーションに応用されている。
本研究では, トレーニング戦略の改善に焦点をあて, 新たなリサイクル手法を提案する。
提案手法は,同一のネットワークアーキテクチャと計算予算とを公正に比較し,非拡散型教師付きトレーニングによるリサイクルベース拡散モデルの性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-30T23:03:49Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。