論文の概要: Adapting LLaMA Decoder to Vision Transformer
- arxiv url: http://arxiv.org/abs/2404.06773v2
- Date: Sat, 13 Apr 2024 13:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:31:26.090789
- Title: Adapting LLaMA Decoder to Vision Transformer
- Title(参考訳): 視覚変換器へのLLaMAデコーダの適用
- Authors: Jiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo,
- Abstract要約: 本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTのステップバイステップを「LLaMAfy」と呼び、カジュアルマスクを自己注意に直接適用することで、注意崩壊の問題が発生することを発見した。
トレーニング開始時の自己注意にカジュアルマスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
イメージLLaMA (iLLaMA) はアーキテクチャにおいてLLaMAと似ており、直接的に使用することができる。
- 参考スコア(独自算出の注目度): 66.1939239027835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work examines whether decoder-only Transformers such as LLaMA, which were originally designed for large language models (LLMs), can be adapted to the computer vision field. We first "LLaMAfy" a standard ViT step-by-step to align with LLaMA's architecture, and find that directly applying a casual mask to the self-attention brings an attention collapse issue, resulting in the failure to the network training. We suggest to reposition the class token behind the image tokens with a post-sequence class token technique to overcome this challenge, enabling causal self-attention to efficiently capture the entire image's information. Additionally, we develop a soft mask strategy that gradually introduces a casual mask to the self-attention at the onset of training to facilitate the optimization behavior. The tailored model, dubbed as image LLaMA (iLLaMA), is akin to LLaMA in architecture and enables direct supervised learning. Its causal self-attention boosts computational efficiency and learns complex representation by elevating attention map ranks. iLLaMA rivals the performance with its encoder-only counterparts, achieving 75.1% ImageNet top-1 accuracy with only 5.7M parameters. Scaling the model to ~310M and pre-training on ImageNet-21K further enhances the accuracy to 86.0%. Extensive experiments demonstrate iLLaMA's reliable properties: calibration, shape-texture bias, quantization compatibility, ADE20K segmentation and CIFAR transfer learning. We hope our study can kindle fresh views to visual model design in the wave of LLMs. Pre-trained models and codes are available here.
- Abstract(参考訳): 本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、カジュアルマスクを自己注意に直接適用することで、注意崩壊の問題が生じ、ネットワークトレーニングに失敗する。
本稿では,この課題を克服するために,画像トークンの背後にクラストークンを配置し,因果自己認識により画像全体の情報を効率的にキャプチャする手法を提案する。
さらに,学習開始時の自己注意にカジュアルマスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
イメージLLaMA (iLLaMA) はアーキテクチャにおいてLLaMAに似ており、直接教師付き学習を可能にする。
その因果自己注意は計算効率を高め、注意マップのランクを上げることによって複雑な表現を学ぶ。
iLLaMAはエンコーダのみのパフォーマンスと競合し、5.7Mパラメータで75.1%のImageNetトップ1の精度を達成した。
モデルを310Mにスケールアップし、ImageNet-21Kで事前トレーニングすることで、精度は86.0%に向上した。
大規模な実験では、校正、形状・テクスチャバイアス、量子化互換性、ADE20Kセグメンテーション、CIFAR転送学習といったiLLaMAの信頼性特性が示されている。
LLMの波における視覚モデル設計への新たな視点を、我々の研究が生み出すことを願っている。
事前訓練されたモデルとコードはここにある。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init
Attention [52.6718081345361]
LLaMA-Adapterは命令追従モデルにLLaMAを効率よく微調整する方法である。
フリーズされたLLaMA 7Bモデルで1.2Mの学習可能なパラメータを導入し、8A100 GPUの微調整には1時間未満の費用がかかる。
論文 参考訳(メタデータ) (2023-03-28T17:59:12Z) - DeepMIM: Deep Supervision for Masked Image Modeling [46.01916629713594]
深層学習の初期の画像分類において、深層管理が広く用いられた。
正規化技術と残差接続が出現すると、画像分類の深い監督は徐々に段階的に消えていった。
マスク・アンド・予測方式を用いてビジョン・トランスフォーマー(ViT)を事前訓練するマスクド・イメージ・モデリング(MIM)の深い監督について検討する。
論文 参考訳(メタデータ) (2023-03-15T17:59:55Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。