論文の概要: Diffusion Autoencoders are Scalable Image Tokenizers
- arxiv url: http://arxiv.org/abs/2501.18593v1
- Date: Thu, 30 Jan 2025 18:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:43.473540
- Title: Diffusion Autoencoders are Scalable Image Tokenizers
- Title(参考訳): 拡散オートエンコーダはスケーラブルなイメージトケナイザである
- Authors: Yinbo Chen, Rohit Girdhar, Xiaolong Wang, Sai Saketh Rambhatla, Ishan Misra,
- Abstract要約: 画像をコンパクトな視覚表現に変換することは、効率的で高品質な画像生成モデルを学ぶための重要なステップである。
本稿では、画像生成モデルのためのコンパクトな視覚表現を学習するシンプルな拡散トークン(DiTo)を提案する。
- 参考スコア(独自算出の注目度): 48.22793874381871
- License:
- Abstract: Tokenizing images into compact visual representations is a key step in learning efficient and high-quality image generative models. We present a simple diffusion tokenizer (DiTo) that learns compact visual representations for image generation models. Our key insight is that a single learning objective, diffusion L2 loss, can be used for training scalable image tokenizers. Since diffusion is already widely used for image generation, our insight greatly simplifies training such tokenizers. In contrast, current state-of-the-art tokenizers rely on an empirically found combination of heuristics and losses, thus requiring a complex training recipe that relies on non-trivially balancing different losses and pretrained supervised models. We show design decisions, along with theoretical grounding, that enable us to scale DiTo for learning competitive image representations. Our results show that DiTo is a simpler, scalable, and self-supervised alternative to the current state-of-the-art image tokenizer which is supervised. DiTo achieves competitive or better quality than state-of-the-art in image reconstruction and downstream image generation tasks.
- Abstract(参考訳): 画像をコンパクトな視覚表現に変換することは、効率的で高品質な画像生成モデルを学ぶための重要なステップである。
本稿では、画像生成モデルのためのコンパクトな視覚表現を学習するシンプルな拡散トークン(DiTo)を提案する。
私たちのキーとなる洞察は、単一の学習目標である拡散L2損失は、スケーラブルな画像トークンのトレーニングに使用できるということです。
拡散はすでに画像生成に広く利用されているため、我々の洞察はそのようなトークン化器の訓練を大幅に単純化する。
対照的に、現在の最先端のトークンライザは経験的に見いだされたヒューリスティックと損失の組み合わせに依存しているため、異なる損失と事前訓練された教師付きモデルとを非自明にバランスする複雑なトレーニングレシピを必要とする。
競合する画像表現を学習するためにDiToをスケールできる設計決定と理論的根拠を示す。
以上の結果から,DiToは,現在管理されている最先端の画像トークンに代わる,シンプルでスケーラブルで自己管理型の代替手段であることがわかった。
DiToは、画像再構成や下流画像生成タスクにおける最先端技術よりも、競争力や品質の向上を実現している。
関連論文リスト
- Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - Diffusion-based image inpainting with internal learning [4.912318087940015]
本稿では,1枚の画像,あるいは数枚の画像でトレーニング可能な画像インペイントのための軽量拡散モデルを提案する。
このアプローチは,特定のケースにおいて,最先端の大規模モデルと競合することを示す。
論文 参考訳(メタデータ) (2024-06-06T16:04:06Z) - Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。