Fugu-MT 論文翻訳(概要): ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process

論文の概要: ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process

arxiv url: http://arxiv.org/abs/2306.05423v2
Date: Tue, 2 Apr 2024 09:12:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 13:41:51.137748
Title: ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process
Title（参考訳）: ADDP: 交互拡散過程による画像認識と生成のための一般表現学習
Authors: Changyao Tian, Chenxin Tao, Jifeng Dai, Hao Li, Ziheng Li, Lewei Lu, Xiaogang Wang, Hongsheng Li, Gao Huang, Xizhou Zhu,
Abstract要約: 本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
参考スコア（独自算出の注目度）: 94.41510903676837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image recognition and generation have long been developed independently of each other. With the recent trend towards general-purpose representation learning, the development of general representations for both recognition and generation tasks is also promoted. However, preliminary attempts mainly focus on generation performance, but are still inferior on recognition tasks. These methods are modeled in the vector-quantized (VQ) space, whereas leading recognition methods use pixels as inputs. Our key insights are twofold: (1) pixels as inputs are crucial for recognition tasks; (2) VQ tokens as reconstruction targets are beneficial for generation tasks. These observations motivate us to propose an Alternating Denoising Diffusion Process (ADDP) that integrates these two spaces within a single representation learning framework. In each denoising step, our method first decodes pixels from previous VQ tokens, then generates new VQ tokens from the decoded pixels. The diffusion process gradually masks out a portion of VQ tokens to construct the training samples. The learned representations can be used to generate diverse high-fidelity images and also demonstrate excellent transfer performance on recognition tasks. Extensive experiments show that our method achieves competitive performance on unconditional generation, ImageNet classification, COCO detection, and ADE20k segmentation. Importantly, our method represents the first successful development of general representations applicable to both generation and dense recognition tasks. Code is released at \url{https://github.com/ChangyaoTian/ADDP}.
Abstract（参考訳）: 画像認識と生成は、長い間互いに独立して開発されてきた。近年の汎用表現学習の動向により、認識タスクと生成タスクの両方のための汎用表現の開発も進められている。しかし、予備試行は主に生成性能に焦点をあてるが、認識タスクにはまだ劣っている。これらの手法はベクトル量子化(VQ)空間でモデル化されるが、先行認識法は画素を入力として使用する。 1) 入力としての画素は認識タスクに不可欠であり,(2) 再構成対象としてのVQトークンは生成タスクに有用である。これら2つの空間を1つの表現学習フレームワークに統合する交互除極拡散プロセス (ADDP) を提案する。復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。拡散過程は徐々にVQトークンの一部を隠蔽してトレーニングサンプルを構築する。学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。実験の結果,非条件生成,イメージネット分類,COCO検出,ADE20kセグメンテーションの競合性能が得られた。重要なことに,本手法は,生成タスクと高密度認識タスクの両方に適用可能な汎用表現の最初の成功例である。コードは \url{https://github.com/ChangyaoTian/ADDP} でリリースされる。

関連論文リスト

ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文参考訳（メタデータ） (2026-01-07T14:09:18Z)
Seg-VAR: Image Segmentation with Visual Autoregressive Modeling [60.79579744943664]
本稿では,セグメンテーションを条件付き自己回帰マスク生成問題として再考する新しい枠組みを提案する。これは、差別的な学習を潜在的な学習プロセスに置き換えることによって達成される。提案手法は,(1)入力画像から潜時前処理を生成する画像エンコーダ,(2)分割マスクを離散潜時トークンにマッピングする空間認識セグレット(セグメンテーションマスクの潜時表現)エンコーダ,(3)これらの潜時マスクを再構成するデコーダの3つのコアコンポーネントを含む。
論文参考訳（メタデータ） (2025-11-16T13:36:19Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。 HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文参考訳（メタデータ） (2025-03-27T20:50:38Z)
BRIDLE: Generalized Self-supervised Learning with Quantization [15.121857164574704]
自己教師付き学習は、さまざまな領域にわたるラベルなしデータから意味のある表現を学ぶための強力なアプローチである。 BERTが自然言語処理において双方向の深いコンテキストを捉えることに触発されて、同様のフレームワークがオーディオなどの他のモダリティに適応している。本稿では、残留量子化を双方向学習プロセスに組み込んだ自己教師型事前学習フレームワークBRIDLEを紹介する。
論文参考訳（メタデータ） (2025-02-04T08:54:06Z)
TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文参考訳（メタデータ） (2024-12-04T06:46:55Z)
Image Understanding Makes for A Good Tokenizer for Image Generation [62.875788091204626]
我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
論文参考訳（メタデータ） (2024-11-07T03:55:23Z)
Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文参考訳（メタデータ） (2024-11-04T18:58:01Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文参考訳（メタデータ） (2024-09-06T08:02:43Z)
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。本稿では,AVGという自己回帰ボウケン生成手法を提案する。 AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-24T13:39:51Z)
CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-02-29T15:05:11Z)
Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。 RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文参考訳（メタデータ） (2023-11-27T09:20:12Z)
MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。 ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文参考訳（メタデータ） (2022-11-16T18:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。