Fugu-MT 論文翻訳(概要): Rejuvenating image-GPT as Strong Visual Representation Learners

論文の概要: Rejuvenating image-GPT as Strong Visual Representation Learners

arxiv url: http://arxiv.org/abs/2312.02147v1
Date: Mon, 4 Dec 2023 18:59:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 13:54:47.303128
Title: Rejuvenating image-GPT as Strong Visual Representation Learners
Title（参考訳）: 強い視覚表現学習者としてのイメージGPT
Authors: Sucheng Ren, Zeyu Wang, Hongru Zhu, Junfei Xiao, Alan Yuille, Cihang Xie
Abstract要約: 本稿では,次のピクセルの予測に自己回帰事前学習を導入する先駆的な研究である画像GPTを強化する。我々は、予測対象を生の画素から意味トークンにシフトし、視覚的内容の高レベルな理解を可能にする。実験では、D-iGPTが視覚表現の強力な学習者として優れていることが示された。
参考スコア（独自算出の注目度）: 30.491155918582376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper enhances image-GPT (iGPT), one of the pioneering works that introduce autoregressive pretraining to predict next pixels for visual representation learning. Two simple yet essential changes are made. First, we shift the prediction target from raw pixels to semantic tokens, enabling a higher-level understanding of visual content. Second, we supplement the autoregressive modeling by instructing the model to predict not only the next tokens but also the visible tokens. This pipeline is particularly effective when semantic tokens are encoded by discriminatively trained models, such as CLIP. We introduce this novel approach as D-iGPT. Extensive experiments showcase that D-iGPT excels as a strong learner of visual representations: A notable achievement of D-iGPT is its compelling performance on the ImageNet-1K dataset -- by training on publicly available datasets, D-iGPT achieves 89.5\% top-1 accuracy with a vanilla ViT-Large model. This model also shows strong generalization on the downstream task and robustness on out-of-distribution samples. Code is avaiable at \href{https://github.com/OliverRensu/D-iGPT}{https://github.com/OliverRensu/D-iGPT}.
Abstract（参考訳）: 本稿では,視覚表現学習のための次画素予測のための自己回帰プリトレーニングを導入する先駆的研究の一つであるimage-gpt (igpt) を強化する。単純だが重要な変更が2つある。まず、予測対象を生のピクセルから意味トークンにシフトし、視覚コンテンツの高レベルな理解を可能にする。次に、次のトークンだけでなく可視トークンも予測するようにモデルに指示することで、自己回帰モデリングを補完する。このパイプラインは、クリップのような識別訓練されたモデルによって意味トークンが符号化される場合に特に有効である。本手法をD-iGPTとして紹介する。 D-iGPTの顕著な成果は、ImageNet-1Kデータセット上での魅力的なパフォーマンスです -- D-iGPTは、公開データセットでトレーニングすることで、バニラViT-Largeモデルで89.5\%のトップ1の精度を達成します。このモデルはまた、下流タスクの強い一般化と分散サンプルのロバスト性を示す。コードは \href{https://github.com/oliverrensu/d-igpt}{https://github.com/oliverrensu/d-igpt} で利用可能である。

関連論文リスト

Selective Training for Large Vision Language Models via Visual Information Gain [7.834991119179473]
本稿では,視覚情報ゲイン(VIG)について紹介する。 VIGは視覚入力による予測の不確実性の低減を測定する。本稿では,高VIGサンプルとトークンを優先するVIG誘導型選択学習手法を提案する。
論文参考訳（メタデータ） (2026-02-19T09:12:21Z)
Next-Embedding Prediction Makes Strong Vision Learners [68.55755328850634]
モデルをトレーニングして埋め込みを生成し、予測タスクを直接実行します。 Next-Embedding Predictive Autoregression (NEPA)はタスク間で強力な結果をもたらす。埋め込みから生成する事前学習は、視覚的な自己教師型学習に代わる、シンプルでスケーラブルで、潜在的にモダリティに依存しない代替手段を提供する、と私たちは信じています。
論文参考訳（メタデータ） (2025-12-18T18:59:58Z)
Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training [78.60953331455565]
PRIORは、NTP損失の差分重み付けによって画像関連トークンを優先する、視覚言語による事前学習手法である。 NTPと比較した場合, 平均相対的改善率は19%, 8%であった。
論文参考訳（メタデータ） (2025-05-13T21:27:52Z)
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文参考訳（メタデータ） (2025-03-20T14:41:29Z)
Should VLMs be Pre-trained with Image Data? [54.50406730361859]
画像とテキストデータの混在による事前学習により、モデルが視覚言語タスクでより良いパフォーマンスを発揮できることがわかった。平均6つの多様なタスクにおいて、1Bモデルに対して、事前学習による視覚トークンの80%を導入すると、完全に事前訓練されたモデルに視覚トークンを導入するよりも平均2%改善されることがわかった。
論文参考訳（メタデータ） (2025-03-10T17:58:19Z)
SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文参考訳（メタデータ） (2023-12-16T08:23:43Z)
SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文参考訳（メタデータ） (2023-08-03T07:00:04Z)
Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。 VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文参考訳（メタデータ） (2023-03-09T02:43:10Z)
VC-GPT: Visual Conditioned GPT for End-to-End Generative Vision-and-Language Pre-training [9.511101155155957]
視覚と言語による事前学習モデル(VLM)は、クロスモーダル領域において大きな成功を収めているが、そのほとんどは、事前学習に数百万の並列画像キャプチャーデータを必要とする。本研究では,視覚前訓練モデル (CLIP-ViT) をエンコーダとして,言語前訓練モデル (GPT2) をデコーダとして利用することにより,生成前訓練の必要性を減らすことに焦点を当てる。
論文参考訳（メタデータ） (2022-01-30T04:44:54Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文参考訳（メタデータ） (2021-11-24T18:59:58Z)
Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。 ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文参考訳（メタデータ） (2021-10-09T18:36:00Z)
So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文参考訳（メタデータ） (2021-04-22T09:05:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。