Fugu-MT 論文翻訳(概要): Denoising Autoregressive Representation Learning

論文の概要: Denoising Autoregressive Representation Learning

arxiv url: http://arxiv.org/abs/2403.05196v1
Date: Fri, 8 Mar 2024 10:19:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 20:18:16.454394
Title: Denoising Autoregressive Representation Learning
Title（参考訳）: 自己回帰表現学習の認知
Authors: Yazhe Li, Jorg Bornschein, Ting Chen
Abstract要約: DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
参考スコア（独自算出の注目度）: 14.819256445166523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we explore a new generative approach for learning visual representations. Our method, DARL, employs a decoder-only Transformer to predict image patches autoregressively. We find that training with Mean Squared Error (MSE) alone leads to strong representations. To enhance the image generation ability, we replace the MSE loss with the diffusion objective by using a denoising patch decoder. We show that the learned representation can be improved by using tailored noise schedules and longer training in larger models. Notably, the optimal schedule differs significantly from the typical ones used in standard image diffusion models. Overall, despite its simple architecture, DARL delivers performance remarkably close to state-of-the-art masked prediction models under the fine-tuning protocol. This marks an important step towards a unified model capable of both visual perception and generation, effectively combining the strengths of autoregressive and denoising diffusion models.
Abstract（参考訳）: 本稿では,視覚表現学習のための新しい生成手法を提案する。 DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。 Mean Squared Error (MSE) によるトレーニングだけでも,強い表現につながることが分かっています。画像生成能力を向上させるため,消音パッチデコーダを用いてmse損失を拡散目標に置き換える。提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。特に、最適なスケジュールは標準画像拡散モデルで使用される典型的なスケジュールと大きく異なる。全体としては、単純なアーキテクチャにもかかわらず、DARLは微調整プロトコルの下で最先端のマスク付き予測モデルに近いパフォーマンスを提供する。これは視覚知覚と生成の両方が可能な統一モデルへの重要な一歩であり、自己回帰拡散モデルの強みと消音拡散モデルの強みを効果的に組み合わせている。

関連論文リスト

Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文参考訳（メタデータ） (2025-12-24T07:07:08Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文参考訳（メタデータ） (2023-11-29T18:53:34Z)
A Recycling Training Strategy for Medical Image Segmentation with Diffusion Denoising Models [8.649603931882227]
拡散モデルのデノイングは、画像上に条件付きセグメンテーションマスクを生成することにより、画像セグメンテーションに応用されている。本研究では, トレーニング戦略の改善に焦点をあて, 新たなリサイクル手法を提案する。提案手法は,同一のネットワークアーキテクチャと計算予算とを公正に比較し,非拡散型教師付きトレーニングによるリサイクルベース拡散モデルの性能向上を図っている。
論文参考訳（メタデータ） (2023-08-30T23:03:49Z)
Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文参考訳（メタデータ） (2023-04-06T17:59:56Z)
Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。 DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。 CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文参考訳（メタデータ） (2023-03-17T04:20:47Z)
ADIR: Adaptive Diffusion for Image Reconstruction [42.90778718695398]
拡散モデルのデノイングは画像生成において顕著な成功を収めており、自然画像統計に関する豊富な情報を収集している。本稿では,拡散モデルで学習した強力な事前知識を活用しつつ,利用可能な測定値との整合性を実現する条件付きサンプリングフレームワークを提案する。大規模かつ多様なデータセットから効率よく抽出される劣化した入力とセマンティックかつ視覚的に類似した画像を用いてLoRAに基づく適応を用いる。
論文参考訳（メタデータ） (2022-12-06T18:39:58Z)
Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文参考訳（メタデータ） (2021-05-29T09:26:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。