論文の概要: Enhancing Visual Prompting through Expanded Transformation Space and Overfitting Mitigation
- arxiv url: http://arxiv.org/abs/2510.07823v1
- Date: Thu, 09 Oct 2025 06:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.899624
- Title: Enhancing Visual Prompting through Expanded Transformation Space and Overfitting Mitigation
- Title(参考訳): 拡張されたトランスフォーメーション空間による視覚的プロンプトの強化と過度な緩和
- Authors: Shohei Enomoto,
- Abstract要約: ビジュアルプロンプト(VP)は、トレーニング済みの視覚モデルを下流タスクに適応させるための、パラメータ効率の良い微調整手法として期待されている。
本稿では,ACAVP(Affine, Color, Additive Visual Prompting)を提案する。
ACAVPはVP法間で最先端の精度を達成し、平均精度で線形探索を超越し、分布シフトに優れたロバスト性を示す。
- 参考スコア(独自算出の注目度): 0.9137554315375919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual prompting (VP) has emerged as a promising parameter-efficient fine-tuning approach for adapting pre-trained vision models to downstream tasks without modifying model parameters. Despite offering advantages like negligible computational overhead and compatibility with black-box models, conventional VP methods typically achieve lower accuracy than other adaptation approaches. Our analysis reveals two critical limitations: the restricted expressivity of simple additive transformation and a tendency toward overfitting when the parameter count increases. To address these challenges, we propose ACAVP (Affine, Color, and Additive Visual Prompting), which enhances VP's expressive power by introducing complementary transformation operations: affine transformation for creating task-specific prompt regions while preserving original image information, and color transformation for emphasizing task-relevant visual features. Additionally, we identify that overfitting is a critical issue in VP training and introduce TrivialAugment as an effective data augmentation, which not only benefits our approach but also significantly improves existing VP methods, with performance gains of up to 12 percentage points on certain datasets. This demonstrates that appropriate data augmentation is universally beneficial for VP training. Extensive experiments across twelve diverse image classification datasets with two different model architectures demonstrate that ACAVP achieves state-of-the-art accuracy among VP methods, surpasses linear probing in average accuracy, and exhibits superior robustness to distribution shifts, all while maintaining minimal computational overhead during inference.
- Abstract(参考訳): ビジュアルプロンプト(VP)は、トレーニング済みの視覚モデルをモデルパラメータを変更することなく下流のタスクに適応するための、有望なパラメータ効率の微調整アプローチとして登場した。
無視可能な計算オーバーヘッドやブラックボックスモデルとの互換性といった利点があるが、従来のVP法は一般に他の適応手法よりも精度が低い。
本分析では, 単純加法変換の制限された表現率と, パラメータ数の増加に伴う過度適合傾向の2つの限界を明らかにした。
これらの課題に対処するため,ACAVP (Affine, Color, and Additive Visual Prompting) を提案する。Affine transformation for create task-specific prompt region whileserving original image information, and color transformation for em emphasissizing task-relevant visual features。
さらに、オーバーフィッティングはVPトレーニングにおいて重要な問題であり、TrivialAugmentを効果的なデータ拡張として導入する。
これは、適切なデータ拡張がVPトレーニングに普遍的に有益であることを示している。
2つの異なるモデルアーキテクチャを持つ12の多様な画像分類データセットに対する大規模な実験により、ACAVPはVP法の間で最先端の精度を達成し、平均精度で線形探索を超越し、推論中の最小の計算オーバーヘッドを維持しながら、分布シフトに対して優れたロバスト性を示す。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - CVPT: Cross Visual Prompt Tuning [15.642102189777072]
Cross Visual Prompt Tuning (CVPT) は、プロンプトと画像トークン間のインタラクションをモデル化するクロスアテンションモジュールである。
CVPTは平均精度を4%以上向上し、性能と効率の両面で主要なアダプタベースの手法に匹敵する。
我々の研究は、視覚的な微調整において、プロンプトベースの手法が例外的な結果が得られることを確認している。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation [16.22199565010318]
本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。
その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-05T06:57:37Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。