論文の概要: ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process
- arxiv url: http://arxiv.org/abs/2306.05423v2
- Date: Tue, 2 Apr 2024 09:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:41:51.137748
- Title: ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process
- Title(参考訳): ADDP: 交互拡散過程による画像認識と生成のための一般表現学習
- Authors: Changyao Tian, Chenxin Tao, Jifeng Dai, Hao Li, Ziheng Li, Lewei Lu, Xiaogang Wang, Hongsheng Li, Gao Huang, Xizhou Zhu,
- Abstract要約: 本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
- 参考スコア(独自算出の注目度): 94.41510903676837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image recognition and generation have long been developed independently of each other. With the recent trend towards general-purpose representation learning, the development of general representations for both recognition and generation tasks is also promoted. However, preliminary attempts mainly focus on generation performance, but are still inferior on recognition tasks. These methods are modeled in the vector-quantized (VQ) space, whereas leading recognition methods use pixels as inputs. Our key insights are twofold: (1) pixels as inputs are crucial for recognition tasks; (2) VQ tokens as reconstruction targets are beneficial for generation tasks. These observations motivate us to propose an Alternating Denoising Diffusion Process (ADDP) that integrates these two spaces within a single representation learning framework. In each denoising step, our method first decodes pixels from previous VQ tokens, then generates new VQ tokens from the decoded pixels. The diffusion process gradually masks out a portion of VQ tokens to construct the training samples. The learned representations can be used to generate diverse high-fidelity images and also demonstrate excellent transfer performance on recognition tasks. Extensive experiments show that our method achieves competitive performance on unconditional generation, ImageNet classification, COCO detection, and ADE20k segmentation. Importantly, our method represents the first successful development of general representations applicable to both generation and dense recognition tasks. Code is released at \url{https://github.com/ChangyaoTian/ADDP}.
- Abstract(参考訳): 画像認識と生成は、長い間互いに独立して開発されてきた。
近年の汎用表現学習の動向により、認識タスクと生成タスクの両方のための汎用表現の開発も進められている。
しかし、予備試行は主に生成性能に焦点をあてるが、認識タスクにはまだ劣っている。
これらの手法はベクトル量子化(VQ)空間でモデル化されるが、先行認識法は画素を入力として使用する。
1) 入力としての画素は認識タスクに不可欠であり,(2) 再構成対象としてのVQトークンは生成タスクに有用である。
これら2つの空間を1つの表現学習フレームワークに統合する交互除極拡散プロセス (ADDP) を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
拡散過程は徐々にVQトークンの一部を隠蔽してトレーニングサンプルを構築する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
実験の結果,非条件生成,イメージネット分類,COCO検出,ADE20kセグメンテーションの競合性能が得られた。
重要なことに,本手法は,生成タスクと高密度認識タスクの両方に適用可能な汎用表現の最初の成功例である。
コードは \url{https://github.com/ChangyaoTian/ADDP} でリリースされる。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。
本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文 参考訳(メタデータ) (2023-10-09T14:10:29Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Annotation-Efficient Learning for Medical Image Segmentation based on
Noisy Pseudo Labels and Adversarial Learning [12.781598229608983]
医療画像セグメンテーションのためのアノテーション効率の高い学習フレームワークを提案する。
我々は、改良されたサイクル一貫性生成適応ネットワーク(GAN)を用いて、障害のない医療画像と補助マスクのセットから学習する。
基礎画像の光学ディスクや超音波画像の胎児頭部のような単純な形状の物体、X線画像の肺やCT画像の肝臓のような複雑な構造、という2つの状況で、我々の枠組みを検証した。
論文 参考訳(メタデータ) (2020-12-29T03:22:41Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。