Fugu-MT 論文翻訳(概要): Supervised Fine-tuning in turn Improves Visual Foundation Models

論文の概要: Supervised Fine-tuning in turn Improves Visual Foundation Models

arxiv url: http://arxiv.org/abs/2401.10222v1
Date: Thu, 18 Jan 2024 18:58:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 15:23:17.947891
Title: Supervised Fine-tuning in turn Improves Visual Foundation Models
Title（参考訳）: 教師付き微調整がvisual foundationモデルを改善する
Authors: Xiaohu Jiang, Yixiao Ge, Yuying Ge, Chun Yuan, Ying Shan
Abstract要約: 2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。 4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
参考スコア（独自算出の注目度）: 82.74877068927518
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-text training like CLIP has dominated the pretraining of vision foundation models in recent years. Subsequent efforts have been made to introduce region-level visual learning into CLIP's pretraining but face scalability challenges due to the lack of large-scale region-level datasets. Drawing inspiration from supervised fine-tuning (SFT) in natural language processing such as instruction tuning, we explore the potential of fine-grained SFT in enhancing the generation of vision foundation models after their pretraining. Thus a two-stage method ViSFT (Vision SFT) is proposed to unleash the fine-grained knowledge of vision foundation models. In ViSFT, the vision foundation model is enhanced by performing visual joint learning on some in-domain tasks and then tested on out-of-domain benchmarks. With updating using ViSFT on 8 V100 GPUs in less than 2 days, a vision transformer with over 4.4B parameters shows improvements across various out-of-domain benchmarks including vision and vision-linguistic scenarios.
Abstract（参考訳）: CLIPのような画像テキストトレーニングは、近年ビジョン基礎モデルの事前トレーニングを支配している。その後の取り組みでは、CLIPの事前トレーニングにリージョンレベルのビジュアル学習を導入するが、大規模なリージョンレベルのデータセットが不足しているため、スケーラビリティ上の課題に直面している。指導調律などの自然言語処理における教師付き微調整(SFT)からインスピレーションを得て,事前訓練後の視覚基盤モデル生成におけるきめ細かいSFTの可能性を探る。したがって、視覚基盤モデルの微細な知識を解き放つために、2段階のViSFT(Vision SFT)を提案する。 ViSFTでは、いくつかのドメイン内タスクで視覚的な共同学習を実行し、ドメイン外のベンチマークでテストすることで、ビジョンファウンデーションモデルが強化される。 8V100 GPU上のViSFTを2日以内で更新することで、4.4B以上のパラメータを持つビジョントランスフォーマーは、ビジョンやビジョン言語的なシナリオを含む、さまざまな外部ベンチマークの改善を示す。

関連論文リスト

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models [42.79282247484499]
視覚言語モデル(VLM)は、視覚的推論、文書理解、マルチモーダル対話など、幅広い視覚的質問応答ベンチマークで大きく進歩している。最近の研究では、これらのモデルが、きめ細かい視覚的知識をテストする従来の画像分類ベンチマークに後れを取っていることが示されている。我々は、細粒度分類ベンチマークにおいて、多数の最近のVLMをテストし、細粒度知識と他のビジョンベンチマークとの切り離しにおける潜在的な要因を特定した。
論文参考訳（メタデータ） (2026-02-19T22:07:29Z)
VESSA: Video-based objEct-centric Self-Supervised Adaptation for Visual Foundation Models [0.18665975431697424]
ファンデーションモデルは、大規模な事前訓練と教師付き微調整によって、多様なタスクにわたる強力なパフォーマンスを実現することにより、高度なコンピュータビジョンを持つ。本稿では,視覚基盤モデルに対して,アノテーションを必要とせずに新たなドメインにモデルを適応させる,自己教師型微調整の新たな定式化を提案する。 VESSA(VojEct-centric Self-Supervised Adaptation for visual foundation model)と呼ぶ。
論文参考訳（メタデータ） (2025-10-23T20:44:28Z)
Visual Instruction Pretraining for Domain-Specific Foundation Models [57.71527725761518]
本稿では、推論を直接活用して知覚を高める新しいアプローチViTP(Visual InsTruction Pretraining)を紹介する。 ViTPはVision-Language Model内にViT(Vision Transformer)バックボーンを組み込み、リッチなビジュアル命令データコーパスを使用してエンドツーエンドにトレーニングする。 16の挑戦的なリモートセンシングと医用イメージングベンチマークの実験は、ViTPが新しい最先端のパフォーマンスを確立することを実証している。
論文参考訳（メタデータ） (2025-09-22T10:57:42Z)
UniViTAR: Unified Vision Transformer with Native Resolution [37.63387029787732]
UniViTARは、視覚の統一性とネイティブ解像度のシナリオに適した、均質な視覚基盤モデルのファミリーである。 2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入された。並行して、ハイブリッドトレーニングフレームワークは、凍結教師モデルからの特徴蒸留に伴うシグモイドに基づくコントラスト損失をさらにシナジする。
論文参考訳（メタデータ） (2025-04-02T14:59:39Z)
Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning [12.728451197053321]
小型視覚言語モデル(VLM)に特化して設計された新しいポストトレーニングパラダイムであるCurr-ReFT(Curr-ReFT)を提案する。 Curr-ReFTは、カリキュラム強化学習(Curriculum Reinforcement Learning)とRejected Smplingベースの自己改善(Rejected Smpling-based Self-improvement)の2段階からなる。実験により,Curr-ReFTパラダイムで訓練したモデルが,様々な視覚的タスクにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-10T08:48:50Z)
Building 6G Radio Foundation Models with Transformer Architectures [6.70088826174291]
基礎深層学習(DL)モデルは、対象とするモダリティの一般的な、堅牢で適応可能な表現を学習するために設計されている。これらのモデルは、自己教師付き学習(SSL)を使用して、大規模でラベルのないデータセットで事前訓練されるスペクトログラム学習のための無線基礎モデルとして視覚変換器(ViT)を提案する。
論文参考訳（メタデータ） (2024-11-15T07:01:44Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
Can Visual Foundation Models Achieve Long-term Point Tracking? [37.95592121632532]
点追跡の文脈における視覚基盤モデルの幾何学的認識を評価する。以上の結果より, 安定拡散とDINOv2の特徴は, ゼロショット設定において優れた幾何対応能力を示すことが示唆された。
論文参考訳（メタデータ） (2024-08-24T12:58:08Z)
Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。 OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文参考訳（メタデータ） (2024-04-18T12:41:33Z)
ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。 ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。 ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文参考訳（メタデータ） (2023-11-27T18:52:09Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
PointVST: Self-Supervised Pre-training for 3D Point Clouds via View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。 3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文参考訳（メタデータ） (2022-12-29T07:03:29Z)
Efficient Self-supervised Vision Transformers for Representation Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文参考訳（メタデータ） (2021-06-17T19:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。