論文の概要: Exploring Stochastic Autoregressive Image Modeling for Visual
Representation
- arxiv url: http://arxiv.org/abs/2212.01610v1
- Date: Sat, 3 Dec 2022 13:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:38:20.454747
- Title: Exploring Stochastic Autoregressive Image Modeling for Visual
Representation
- Title(参考訳): 視覚表現のための確率的自己回帰画像モデリングの探索
- Authors: Yu Qi, Fan Yang, Yousong Zhu, Yufei Liu, Liwei Wu, Rui Zhao, Wei Li
- Abstract要約: 本稿では,2つの簡単な設計による自己回帰画像モデリング(SAIM)を提案する。
予測と並列エンコーダデコーダの導入により,SAIMは自己回帰画像モデリングの性能を著しく向上させる。
提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
- 参考スコア(独自算出の注目度): 24.582376834198403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive language modeling (ALM) have been successfully used in
self-supervised pre-training in Natural language processing (NLP). However,
this paradigm has not achieved comparable results with other self-supervised
approach in computer vision (e.g., contrastive learning, mask image modeling).
In this paper, we try to find the reason why autoregressive modeling does not
work well on vision tasks. To tackle this problem, we fully analyze the
limitation of visual autoregressive methods and proposed a novel stochastic
autoregressive image modeling (named SAIM) by the two simple designs. First, we
employ stochastic permutation strategy to generate effective and robust image
context which is critical for vision tasks. Second, we create a parallel
encoder-decoder training process in which the encoder serves a similar role to
the standard vision transformer focus on learning the whole contextual
information, and meanwhile the decoder predicts the content of the current
position, so that the encoder and decoder can reinforce each other. By
introducing stochastic prediction and the parallel encoder-decoder, SAIM
significantly improve the performance of autoregressive image modeling. Our
method achieves the best accuracy (83.9%) on the vanilla ViT-Base model among
methods using only ImageNet-1K data. Transfer performance in downstream tasks
also show that our model achieves competitive performance.
- Abstract(参考訳): 自己回帰型言語モデリング(ALM)は、自然言語処理(NLP)における自己教師付き事前学習に成功している。
しかし、このパラダイムはコンピュータビジョンにおける他の自己教師ありアプローチ(例:コントラスト学習、マスク画像モデリング)と同等の結果を得られていない。
本稿では,視覚タスクにおいて自己回帰的モデリングがうまく機能しない理由を見いだそうとする。
そこで我々は,視覚的自己回帰手法の限界を十分に解析し,その2つの簡単な設計法により,新しい確率的自己回帰画像モデリング(SAIM)を提案する。
まず,視覚タスクに不可欠な効果的でロバストな画像コンテキストを生成するために,確率的置換戦略を用いる。
第二に、エンコーダが標準的な視覚変換器と同じような役割を果たす並列エンコーダデコーダトレーニングプロセスを作成し、その一方でデコーダは現在の位置の内容を予測し、エンコーダとデコーダが相互に強化できるようにする。
確率予測と並列エンコーダデコーダを導入することにより、SAIMは自己回帰画像モデリングの性能を大幅に向上させる。
提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
下流タスクにおける転送性能は、我々のモデルが競合性能を達成することを示す。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Semantic Image Synthesis with Semantically Coupled VQ-Model [42.19799555533789]
本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。
本モデルは,ADE20k,Cityscapes,COCO-Stuffといった人気セマンティック画像データセットを用いた自己回帰モデルを用いて,セマンティック画像合成を改善することを示す。
論文 参考訳(メタデータ) (2022-09-06T14:37:01Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。
実験はMicrosoftデータセット上で行われる。
その結果,提案手法は現代の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-01-18T12:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。