論文の概要: FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.08708v1
- Date: Mon, 09 Mar 2026 17:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.707658
- Title: FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models
- Title(参考訳): FVG-PT:視覚言語モデルのための適応型前景誘導型プロンプトチューニング
- Authors: Haoyang Li, Liang Wang, Siyu Zhou, Jiacheng Sun, Jing Jiang, Chao Wang, Guodong Long, Yan Peng,
- Abstract要約: CLIPベースのプロンプトチューニングにより、事前訓練されたビジョンランゲージモデル(VLM)が下流タスクに効率的に適応できる。
本稿では,視覚的エンコーダの前景の注目度の変化に対して,プロンプトチューニング予測の失敗モードを特徴付ける。
適応型プラグアンドプレイアテンション誘導モジュールであるフォアグラウンドビューガイドプロンプトチューニング(FVG-PT)を提案する。
- 参考スコア(独自算出の注目度): 46.84889852529529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP-based prompt tuning enables pretrained Vision-Language Models (VLMs) to efficiently adapt to downstream tasks. Although existing studies have made significant progress, they pay limited attention to changes in the internal attention representations of VLMs during the tuning process. In this paper, we attribute the failure modes of prompt tuning predictions to shifts in foreground attention of the visual encoder, and propose Foreground View-Guided Prompt Tuning (FVG-PT), an adaptive plug-and-play foreground attention guidance module, to alleviate the shifts. Concretely, FVG-PT introduces a learnable Foreground Reliability Gate to automatically enhance the foreground view quality, applies a Foreground Distillation Compensation module to guide visual attention toward the foreground, and further introduces a Prior Calibration module to mitigate generalization degradation caused by excessive focus on the foreground. Experiments on multiple backbone models and datasets show the effectiveness and compatibility of FVG-PT. Codes are available at: https://github.com/JREion/FVG-PT
- Abstract(参考訳): CLIPベースのプロンプトチューニングにより、事前訓練されたビジョンランゲージモデル(VLM)が下流タスクに効率的に適応できる。
既存の研究は大きな進歩を遂げているが、チューニング過程におけるVLMの内部の注意表現の変化に限定的な注意を払っている。
本稿では,視覚的エンコーダのフォアグラウンドアテンション変化に対するアプティブチューニング予測の障害モードを考慮し,適応的なプラグアンドプレイフォアグラウンドアテンションガイダンスモジュールであるフォアグラウンドビューガイドプロンプトチューニング(FVG-PT)を提案する。
具体的には、FVG-PTは、学習可能なフォアグラウンド信頼性ゲートを導入して、フォアグラウンドの視線品質を自動的に向上させ、フォアグラウンドへの視覚的注意を誘導するフォアグラウンド蒸留補償モジュールを適用し、さらに、フォアグラウンドへの過度なフォーカスによる一般化劣化を緩和するプリミティブキャリブレーションモジュールを導入する。
複数のバックボーンモデルとデータセットの実験は、FVG-PTの有効性と互換性を示している。
コードは、https://github.com/JREion/FVG-PTで入手できる。
関連論文リスト
- VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models [26.542479606920423]
VLA(Vision-Language-Action)モデルは、幅広いロボット操作タスクにおいて強力なパフォーマンスを示している。
成功にもかかわらず、大きな事前訓練されたVLAモデルをアクション空間に拡張することで、視覚-アクションのミスアライメントを誘発することができる。
VLAモデルにおける視覚的条件付けを明確に強化するトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T20:59:29Z) - Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。