論文の概要: Rejuvenating image-GPT as Strong Visual Representation Learners
- arxiv url: http://arxiv.org/abs/2312.02147v1
- Date: Mon, 4 Dec 2023 18:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 13:54:47.303128
- Title: Rejuvenating image-GPT as Strong Visual Representation Learners
- Title(参考訳): 強い視覚表現学習者としてのイメージGPT
- Authors: Sucheng Ren, Zeyu Wang, Hongru Zhu, Junfei Xiao, Alan Yuille, Cihang
Xie
- Abstract要約: 本稿では,次のピクセルの予測に自己回帰事前学習を導入する先駆的な研究である画像GPTを強化する。
我々は、予測対象を生の画素から意味トークンにシフトし、視覚的内容の高レベルな理解を可能にする。
実験では、D-iGPTが視覚表現の強力な学習者として優れていることが示された。
- 参考スコア(独自算出の注目度): 30.491155918582376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper enhances image-GPT (iGPT), one of the pioneering works that
introduce autoregressive pretraining to predict next pixels for visual
representation learning. Two simple yet essential changes are made. First, we
shift the prediction target from raw pixels to semantic tokens, enabling a
higher-level understanding of visual content. Second, we supplement the
autoregressive modeling by instructing the model to predict not only the next
tokens but also the visible tokens. This pipeline is particularly effective
when semantic tokens are encoded by discriminatively trained models, such as
CLIP. We introduce this novel approach as D-iGPT. Extensive experiments
showcase that D-iGPT excels as a strong learner of visual representations: A
notable achievement of D-iGPT is its compelling performance on the ImageNet-1K
dataset -- by training on publicly available datasets, D-iGPT achieves 89.5\%
top-1 accuracy with a vanilla ViT-Large model. This model also shows strong
generalization on the downstream task and robustness on out-of-distribution
samples. Code is avaiable at
\href{https://github.com/OliverRensu/D-iGPT}{https://github.com/OliverRensu/D-iGPT}.
- Abstract(参考訳): 本稿では,視覚表現学習のための次画素予測のための自己回帰プリトレーニングを導入する先駆的研究の一つであるimage-gpt (igpt) を強化する。
単純だが重要な変更が2つある。
まず、予測対象を生のピクセルから意味トークンにシフトし、視覚コンテンツの高レベルな理解を可能にする。
次に、次のトークンだけでなく可視トークンも予測するようにモデルに指示することで、自己回帰モデリングを補完する。
このパイプラインは、クリップのような識別訓練されたモデルによって意味トークンが符号化される場合に特に有効である。
本手法をD-iGPTとして紹介する。
D-iGPTの顕著な成果は、ImageNet-1Kデータセット上での魅力的なパフォーマンスです -- D-iGPTは、公開データセットでトレーニングすることで、バニラViT-Largeモデルで89.5\%のトップ1の精度を達成します。
このモデルはまた、下流タスクの強い一般化と分散サンプルのロバスト性を示す。
コードは \href{https://github.com/oliverrensu/d-igpt}{https://github.com/oliverrensu/d-igpt} で利用可能である。
関連論文リスト
- Graph-level Representation Learning with Joint-Embedding Predictive
Architectures [47.94798593020009]
JEPA(Joint-Embedding Predictive Architectures)は、自己指導型表現学習の斬新で強力な技術である。
JEPAsは、生成ベースの事前トレーニングに関連する過度な問題を避けながら、データ拡張と負のサンプルの必要性を回避している。
このパラダイムを用いてグラフレベルの表現を効果的にモデル化できることを示し、グラフドメインの最初のJEPAであるGraph-JEPAを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:42:02Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (2021-11-24T18:59:58Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。