論文の概要: Visual Instruction Pretraining for Domain-Specific Foundation Models
- arxiv url: http://arxiv.org/abs/2509.17562v2
- Date: Tue, 23 Sep 2025 04:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 11:50:03.964552
- Title: Visual Instruction Pretraining for Domain-Specific Foundation Models
- Title(参考訳): ドメイン特化ファンデーションモデルのためのビジュアルインストラクション事前学習
- Authors: Yuxuan Li, Yicheng Zhang, Wenhao Tang, Yimian Dai, Ming-Ming Cheng, Xiang Li, Jian Yang,
- Abstract要約: 本稿では、推論を直接活用して知覚を高める新しいアプローチViTP(Visual InsTruction Pretraining)を紹介する。
ViTPはVision-Language Model内にViT(Vision Transformer)バックボーンを組み込み、リッチなビジュアル命令データコーパスを使用してエンドツーエンドにトレーニングする。
16の挑戦的なリモートセンシングと医用イメージングベンチマークの実験は、ViTPが新しい最先端のパフォーマンスを確立することを実証している。
- 参考スコア(独自算出の注目度): 57.71527725761518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern computer vision is converging on a closed loop in which perception, reasoning and generation mutually reinforce each other. However, this loop remains incomplete: the top-down influence of high-level reasoning on the foundational learning of low-level perceptual features is not yet underexplored. This paper addresses this gap by proposing a new paradigm for pretraining foundation models in downstream domains. We introduce Visual insTruction Pretraining (ViTP), a novel approach that directly leverages reasoning to enhance perception. ViTP embeds a Vision Transformer (ViT) backbone within a Vision-Language Model and pretrains it end-to-end using a rich corpus of visual instruction data curated from target downstream domains. ViTP is powered by our proposed Visual Robustness Learning (VRL), which compels the ViT to learn robust and domain-relevant features from a sparse set of visual tokens. Extensive experiments on 16 challenging remote sensing and medical imaging benchmarks demonstrate that ViTP establishes new state-of-the-art performance across a diverse range of downstream tasks. The code is available at https://github.com/zcablii/ViTP.
- Abstract(参考訳): 現代のコンピュータビジョンは、知覚、推論、生成が相互に強化される閉ループに収束している。
しかし、このループはいまだ不完全であり、低レベルの知覚的特徴の基本的な学習に対する高レベルの推論の上位ダウンの影響はまだ解明されていない。
本稿では、下流領域における基礎モデルの事前学習のための新しいパラダイムを提案することにより、このギャップを解消する。
本稿では、推論を直接活用して知覚を高める新しいアプローチViTP(Visual InsTruction Pretraining)を紹介する。
ViTPはVision-Language Model内にViT(Vision Transformer)バックボーンを組み込み、ターゲット下流ドメインからキュレートされた視覚的命令データの豊富なコーパスを使用してエンドツーエンドにトレーニングする。
ViTPは提案したVisual Robustness Learning (VRL) を利用しており、これはViTを補完し、疎いビジュアルトークンセットから堅牢でドメイン関連の機能を学ぶ。
16の挑戦的なリモートセンシングおよび医療イメージングベンチマークに関する大規模な実験は、ViTPがさまざまな下流タスクにまたがって新しい最先端のパフォーマンスを確立することを実証している。
コードはhttps://github.com/zcablii/ViTPで入手できる。
関連論文リスト
- Supervised Fine-tuning in turn Improves Visual Foundation Models [74.1760864718129]
2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。
4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
論文 参考訳(メタデータ) (2024-01-18T18:58:54Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Efficient Vision-Language Pretraining with Visual Concepts and
Hierarchical Alignment [40.677139679304936]
a)新しい階層的相互アライメント損失、(b)マスク画像モデリングに基づく新たな自己教師型スキーム、(c)画像レベルのアノテーションを活用することにより、入力データを効率的に活用して学習を促進する新しいフレームワーク、ViCHAを提案する。
事前トレーニングは4倍少ないが、私たちのViCHA戦略は、Image-Text Retrieval、VQA、Visual Reasoning、Visual Entailment、Visual Groundingなど、いくつかの下流タスクにおいて、他のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-08-29T14:24:08Z) - LocVTP: Video-Text Pre-training for Temporal Localization [71.74284893790092]
Video-Text Pre-trainingは、大規模なWebビデオからさまざまな下流タスクの転送可能な表現を学ぶことを目的としている。
本稿では,現在のVTP手法とローカライズタスクの非互換性を実験的に解析し,実証する。
ローカライズ指向のビデオテキスト事前学習フレームワークであるLocVTPを提案する。
論文 参考訳(メタデータ) (2022-07-21T08:43:51Z) - Recent Advances in Vision Transformer: A Survey and Outlook of Recent
Work [1.6317061277457001]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、様々な視覚タスクにおいて、より人気があり支配的な技術になりつつある。
コンピュータビジョンにおける要求技術として、ViTは長距離関係に着目しながら様々な視覚問題を解くことに成功した。
一般的なベンチマークデータセット上で,様々なViTアルゴリズムと代表的CNN手法の性能を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-03T06:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。