論文の概要: Supervised Fine-tuning in turn Improves Visual Foundation Models
- arxiv url: http://arxiv.org/abs/2401.10222v1
- Date: Thu, 18 Jan 2024 18:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:23:17.947891
- Title: Supervised Fine-tuning in turn Improves Visual Foundation Models
- Title(参考訳): 教師付き微調整がvisual foundationモデルを改善する
- Authors: Xiaohu Jiang, Yixiao Ge, Yuying Ge, Chun Yuan, Ying Shan
- Abstract要約: 2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。
4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
- 参考スコア(独自算出の注目度): 82.74877068927518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text training like CLIP has dominated the pretraining of vision
foundation models in recent years. Subsequent efforts have been made to
introduce region-level visual learning into CLIP's pretraining but face
scalability challenges due to the lack of large-scale region-level datasets.
Drawing inspiration from supervised fine-tuning (SFT) in natural language
processing such as instruction tuning, we explore the potential of fine-grained
SFT in enhancing the generation of vision foundation models after their
pretraining. Thus a two-stage method ViSFT (Vision SFT) is proposed to unleash
the fine-grained knowledge of vision foundation models. In ViSFT, the vision
foundation model is enhanced by performing visual joint learning on some
in-domain tasks and then tested on out-of-domain benchmarks. With updating
using ViSFT on 8 V100 GPUs in less than 2 days, a vision transformer with over
4.4B parameters shows improvements across various out-of-domain benchmarks
including vision and vision-linguistic scenarios.
- Abstract(参考訳): CLIPのような画像テキストトレーニングは、近年ビジョン基礎モデルの事前トレーニングを支配している。
その後の取り組みでは、CLIPの事前トレーニングにリージョンレベルのビジュアル学習を導入するが、大規模なリージョンレベルのデータセットが不足しているため、スケーラビリティ上の課題に直面している。
指導調律などの自然言語処理における教師付き微調整(SFT)からインスピレーションを得て,事前訓練後の視覚基盤モデル生成におけるきめ細かいSFTの可能性を探る。
したがって、視覚基盤モデルの微細な知識を解き放つために、2段階のViSFT(Vision SFT)を提案する。
ViSFTでは、いくつかのドメイン内タスクで視覚的な共同学習を実行し、ドメイン外のベンチマークでテストすることで、ビジョンファウンデーションモデルが強化される。
8V100 GPU上のViSFTを2日以内で更新することで、4.4B以上のパラメータを持つビジョントランスフォーマーは、ビジョンやビジョン言語的なシナリオを含む、さまざまな外部ベンチマークの改善を示す。
関連論文リスト
- ViT-Lens-2: Gateway to Omni-modal Intelligence [67.09687451702597]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - Surface Analysis with Vision Transformers [7.4330073456005685]
ビジョントランスフォーマー(ViT)の最近の最先端性能は、自己注意機能を実装した汎用アーキテクチャが、CNNの局所的な特徴学習操作を置き換えることを実証している。
コンピュータビジョンにおけるアテンション・モデリングの成功により、表面学習のタスクをシーケンス・ツー・シーケンス問題として再構成し、VTを表面へ拡張し、表面メッシュのパッチ機構を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:41:01Z) - A Closer Look at Self-Supervised Lightweight Vision Transformers [44.44888945683147]
大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法のベンチマークを行った。
バニラ・ライトウェイトなViTでさえ、デリケートなアーキテクチャ設計を持つ以前のSOTAネットワークに匹敵する性能を示している。
論文 参考訳(メタデータ) (2022-05-28T14:14:57Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。