論文の概要: ADDP: Learning General Representations for Image Recognition and
Generation with Alternating Denoising Diffusion Process
- arxiv url: http://arxiv.org/abs/2306.05423v1
- Date: Thu, 8 Jun 2023 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 12:47:23.978060
- Title: ADDP: Learning General Representations for Image Recognition and
Generation with Alternating Denoising Diffusion Process
- Title(参考訳): ADDP:交互拡散プロセスによる画像認識と生成のための一般表現学習
- Authors: Changyao Tian, Chenxin Tao, Jifeng Dai, Hao Li, Ziheng Li, Lewei Lu,
Xiaogang Wang, Hongsheng Li, Gao Huang, Xizhou Zhu
- Abstract要約: 本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
- 参考スコア(独自算出の注目度): 65.61896995046227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image recognition and generation have long been developed independently of
each other. With the recent trend towards general-purpose representation
learning, the development of general representations for both recognition and
generation tasks is also promoted. However, preliminary attempts mainly focus
on generation performance, but are still inferior on recognition tasks. These
methods are modeled in the vector-quantized (VQ) space, whereas leading
recognition methods use pixels as inputs. Our key insights are twofold: (1)
pixels as inputs are crucial for recognition tasks; (2) VQ tokens as
reconstruction targets are beneficial for generation tasks. These observations
motivate us to propose an Alternating Denoising Diffusion Process (ADDP) that
integrates these two spaces within a single representation learning framework.
In each denoising step, our method first decodes pixels from previous VQ
tokens, then generates new VQ tokens from the decoded pixels. The diffusion
process gradually masks out a portion of VQ tokens to construct the training
samples. The learned representations can be used to generate diverse
high-fidelity images and also demonstrate excellent transfer performance on
recognition tasks. Extensive experiments show that our method achieves
competitive performance on unconditional generation, ImageNet classification,
COCO detection, and ADE20k segmentation. Importantly, our method represents the
first successful development of general representations applicable to both
generation and dense recognition tasks. Code shall be released.
- Abstract(参考訳): 画像認識と生成は、長い間互いに独立して開発されてきた。
近年の汎用表現学習の進展に伴い、認識課題と生成課題の両方に対する一般表現の開発も進められている。
しかし、予備試行は主に生成性能に焦点をあてるが、認識タスクにはまだ劣っている。
これらの手法はベクトル量子化(VQ)空間でモデル化されるが、先行認識法は画素を入力として使用する。
1) 入力としての画素は認識タスクに不可欠であり, (2) 再構成対象としてのvqトークンは生成タスクに有用である。
これら2つの空間を1つの表現学習フレームワークに統合する交互除極拡散プロセス (ADDP) を提案する。
各デノージングステップでは、まず前回のvqトークンから画素をデコードし、その後デコードされたピクセルから新しいvqトークンを生成する。
拡散過程は徐々にVQトークンの一部をマスクしてトレーニングサンプルを構築する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用できる。
実験の結果,非条件生成,イメージネット分類,COCO検出,ADE20kセグメンテーションの競合性能が得られた。
重要なことに,本手法は生成タスクと高密度認識タスクの両方に適用可能な汎用表現の最初の成功例である。
コードは解放される。
関連論文リスト
- Image Understanding Makes for A Good Tokenizer for Image Generation [62.875788091204626]
我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。
我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
論文 参考訳(メタデータ) (2024-11-07T03:55:23Z) - Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。