論文の概要: Supervised Fine-tuning in turn Improves Visual Foundation Models
- arxiv url: http://arxiv.org/abs/2401.10222v2
- Date: Thu, 11 Apr 2024 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 18:45:46.792669
- Title: Supervised Fine-tuning in turn Improves Visual Foundation Models
- Title(参考訳): 監督された微調整によってビジュアルファウンデーションモデルが改善される
- Authors: Xiaohu Jiang, Yixiao Ge, Yuying Ge, Dachuan Shi, Chun Yuan, Ying Shan,
- Abstract要約: 2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。
4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
- 参考スコア(独自算出の注目度): 74.1760864718129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text training like CLIP has dominated the pretraining of vision foundation models in recent years. Subsequent efforts have been made to introduce region-level visual learning into CLIP's pretraining but face scalability challenges due to the lack of large-scale region-level datasets. Drawing inspiration from supervised fine-tuning (SFT) in natural language processing such as instruction tuning, we explore the potential of fine-grained SFT in enhancing the generation of vision foundation models after their pretraining. Thus a two-stage method ViSFT (Vision SFT) is proposed to unleash the fine-grained knowledge of vision foundation models. In ViSFT, the vision foundation model is enhanced by performing visual joint learning on some in-domain tasks and then tested on out-of-domain benchmarks. With updating using ViSFT on 8 V100 GPUs in less than 2 days, a vision transformer with over 4.4B parameters shows improvements across various out-of-domain benchmarks including vision and vision-linguistic scenarios.
- Abstract(参考訳): CLIPのような画像テキストトレーニングは、近年、ビジョン基礎モデルの事前トレーニングを支配している。
その後の取り組みでは、CLIPの事前トレーニングにリージョンレベルのビジュアル学習を導入するが、大規模なリージョンレベルのデータセットが欠如しているため、スケーラビリティ上の課題に直面している。
指導調律などの自然言語処理における教師付き微調整(SFT)からインスピレーションを得て,事前訓練後の視覚基盤モデル生成におけるきめ細かいSFTの可能性を探る。
したがって、視覚基盤モデルの微細な知識を解き放つために、2段階のViSFT(Vision SFT)を提案する。
ViSFTでは、いくつかのドメイン内タスクで視覚的な共同学習を実行し、ドメイン外のベンチマークでテストすることで、ビジョンファウンデーションモデルが強化される。
8V100 GPU上のViSFTを2日以内で更新することで、4.4B以上のパラメータを持つビジョントランスフォーマーは、ビジョンやビジョン言語的なシナリオを含む、さまざまな外部ベンチマークの改善を示す。
関連論文リスト
- Building 6G Radio Foundation Models with Transformer Architectures [6.70088826174291]
基礎深層学習(DL)モデルは、対象とするモダリティの一般的な、堅牢で適応可能な表現を学習するために設計されている。
これらのモデルは、自己教師付き学習(SSL)を使用して、大規模でラベルのないデータセットで事前訓練される
スペクトログラム学習のための無線基礎モデルとして視覚変換器(ViT)を提案する。
論文 参考訳(メタデータ) (2024-11-15T07:01:44Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Can Visual Foundation Models Achieve Long-term Point Tracking? [37.95592121632532]
点追跡の文脈における視覚基盤モデルの幾何学的認識を評価する。
以上の結果より, 安定拡散とDINOv2の特徴は, ゼロショット設定において優れた幾何対応能力を示すことが示唆された。
論文 参考訳(メタデータ) (2024-08-24T12:58:08Z) - Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。
我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。
OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文 参考訳(メタデータ) (2024-04-18T12:41:33Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。