論文の概要: ADDP: Learning General Representations for Image Recognition and
Generation with Alternating Denoising Diffusion Process
- arxiv url: http://arxiv.org/abs/2306.05423v1
- Date: Thu, 8 Jun 2023 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 12:47:23.978060
- Title: ADDP: Learning General Representations for Image Recognition and
Generation with Alternating Denoising Diffusion Process
- Title(参考訳): ADDP:交互拡散プロセスによる画像認識と生成のための一般表現学習
- Authors: Changyao Tian, Chenxin Tao, Jifeng Dai, Hao Li, Ziheng Li, Lewei Lu,
Xiaogang Wang, Hongsheng Li, Gao Huang, Xizhou Zhu
- Abstract要約: 本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
- 参考スコア(独自算出の注目度): 65.61896995046227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image recognition and generation have long been developed independently of
each other. With the recent trend towards general-purpose representation
learning, the development of general representations for both recognition and
generation tasks is also promoted. However, preliminary attempts mainly focus
on generation performance, but are still inferior on recognition tasks. These
methods are modeled in the vector-quantized (VQ) space, whereas leading
recognition methods use pixels as inputs. Our key insights are twofold: (1)
pixels as inputs are crucial for recognition tasks; (2) VQ tokens as
reconstruction targets are beneficial for generation tasks. These observations
motivate us to propose an Alternating Denoising Diffusion Process (ADDP) that
integrates these two spaces within a single representation learning framework.
In each denoising step, our method first decodes pixels from previous VQ
tokens, then generates new VQ tokens from the decoded pixels. The diffusion
process gradually masks out a portion of VQ tokens to construct the training
samples. The learned representations can be used to generate diverse
high-fidelity images and also demonstrate excellent transfer performance on
recognition tasks. Extensive experiments show that our method achieves
competitive performance on unconditional generation, ImageNet classification,
COCO detection, and ADE20k segmentation. Importantly, our method represents the
first successful development of general representations applicable to both
generation and dense recognition tasks. Code shall be released.
- Abstract(参考訳): 画像認識と生成は、長い間互いに独立して開発されてきた。
近年の汎用表現学習の進展に伴い、認識課題と生成課題の両方に対する一般表現の開発も進められている。
しかし、予備試行は主に生成性能に焦点をあてるが、認識タスクにはまだ劣っている。
これらの手法はベクトル量子化(VQ)空間でモデル化されるが、先行認識法は画素を入力として使用する。
1) 入力としての画素は認識タスクに不可欠であり, (2) 再構成対象としてのvqトークンは生成タスクに有用である。
これら2つの空間を1つの表現学習フレームワークに統合する交互除極拡散プロセス (ADDP) を提案する。
各デノージングステップでは、まず前回のvqトークンから画素をデコードし、その後デコードされたピクセルから新しいvqトークンを生成する。
拡散過程は徐々にVQトークンの一部をマスクしてトレーニングサンプルを構築する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用できる。
実験の結果,非条件生成,イメージネット分類,COCO検出,ADE20kセグメンテーションの競合性能が得られた。
重要なことに,本手法は生成タスクと高密度認識タスクの両方に適用可能な汎用表現の最初の成功例である。
コードは解放される。
関連論文リスト
- Adversarial Masking Contrastive Learning for vein recognition [10.886119051977785]
ベイン認識は、セキュリティとプライバシーの高さから注目を集めている。
静脈認識のために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーのようなディープニューラルネットワークが導入されている。
近年の進歩にもかかわらず、画像サンプルの不足のため、指先の特徴抽出のための既存のソリューションはまだ最適ではない。
論文 参考訳(メタデータ) (2024-01-16T03:09:45Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - CAST: Concurrent Recognition and Segmentation with Adaptive Segment
Tokens [45.435377462998325]
非ラベル画像に基づく階層的画像分割による画像認識を学習する。
私たちの研究は、監督なしに、最初の同時認識と階層分割モデルを提供します。
論文 参考訳(メタデータ) (2022-10-01T16:31:44Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Unsupervised Pretraining for Object Detection by Patch Reidentification [72.75287435882798]
教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-08T15:13:59Z) - Annotation-Efficient Learning for Medical Image Segmentation based on
Noisy Pseudo Labels and Adversarial Learning [12.781598229608983]
医療画像セグメンテーションのためのアノテーション効率の高い学習フレームワークを提案する。
我々は、改良されたサイクル一貫性生成適応ネットワーク(GAN)を用いて、障害のない医療画像と補助マスクのセットから学習する。
基礎画像の光学ディスクや超音波画像の胎児頭部のような単純な形状の物体、X線画像の肺やCT画像の肝臓のような複雑な構造、という2つの状況で、我々の枠組みを検証した。
論文 参考訳(メタデータ) (2020-12-29T03:22:41Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。