論文の概要: Visual Prompt-Agnostic Evolution
- arxiv url: http://arxiv.org/abs/2601.20232v1
- Date: Wed, 28 Jan 2026 04:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.76409
- Title: Visual Prompt-Agnostic Evolution
- Title(参考訳): Visual Prompt-Agnostic Evolution
- Authors: Junze Wang, Lei Fan, Dezheng Zhang, Weipeng Jing, Donglin Di, Yang Song, Sidong Liu, Cong Cong,
- Abstract要約: Visual Prompt Tuning (VPT)は、少数の学習可能なプロンプトトークンを挿入することで、凍結したビジョントランスフォーマー(ViT)を下流タスクに適応させる。
既存のVPT変種は、勾配振動を特徴とする不安定なトレーニングダイナミクスに悩まされることが多い。
本稿では,プロンプト・アグノスティック・エボリューション(mathtPAE$)を提案する。
- 参考スコア(独自算出の注目度): 14.918966632639235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Prompt Tuning (VPT) adapts a frozen Vision Transformer (ViT) to downstream tasks by inserting a small number of learnable prompt tokens into the token sequence at each layer. However, we observe that existing VPT variants often suffer from unstable training dynamics, characterized by gradient oscillations. A layer-wise analysis reveals that shallow-layer prompts tend to stagnate early, while deeper-layer prompts exhibit high-variance oscillations, leading to cross-layer mismatch. These issues slow convergence and degrade final performance. To address these challenges, we propose Prompt-Agnostic Evolution ($\mathtt{PAE}$), which strengthens vision prompt tuning by explicitly modeling prompt dynamics. From a frequency-domain perspective, we initialize prompts in a task-aware direction by uncovering and propagating frequency shortcut patterns that the backbone inherently exploits for recognition. To ensure coherent evolution across layers, we employ a shared Koopman operator that imposes a global linear transformation instead of uncoordinated, layer-specific updates. Finally, inspired by Lyapunov stability theory, we introduce a regularizer that constrains error amplification during evolution. Extensive experiments show that $\mathtt{PAE}$ accelerates convergence with an average $1.41\times$ speedup and improves accuracy by 1--3% on 25 datasets across multiple downstream tasks. Beyond performance, $\mathtt{PAE}$ is prompt-agnostic and lightweight, and it integrates seamlessly with diverse VPT variants without backbone modification or inference-time changes.
- Abstract(参考訳): Visual Prompt Tuning (VPT)は、各レイヤのトークンシーケンスに少数の学習可能なプロンプトトークンを挿入することにより、凍結したビジョントランスフォーマー(ViT)を下流タスクに適応させる。
しかし、既存のVPT変種は、勾配振動を特徴とする不安定なトレーニングダイナミクスに悩まされることが多い。
層ワイズ解析により、浅い層状プロンプトは早期に停滞する傾向を示し、深い層状プロンプトは高分散振動を示し、層間ミスマッチを引き起こすことが示された。
これらの問題は収束を遅くし、最終性能を低下させる。
これらの課題に対処するため,プロンプト・アグノスティック・エボリューション(Prompt-Agnostic Evolution) (\mathtt{PAE}$)を提案する。
周波数領域の観点から、バックボーンが本質的に認識のために利用する周波数ショートカットパターンを発見し、伝播することにより、タスク認識方向のプロンプトを初期化する。
階層間のコヒーレントな進化を保証するために,非コーディネートなレイヤ固有の更新ではなく,グローバルな線形変換を強制する共有クープマン演算子を用いる。
最後に、リアプノフ安定性理論に着想を得て、進化中の誤差増幅を制限する正則化器を導入する。
大規模な実験によると、$\mathtt{PAE}$は平均$1.41\times$スピードアップで収束を加速し、複数の下流タスクにわたる25のデータセットで精度を1-3%向上する。
パフォーマンス以外にも、$\mathtt{PAE}$はプロンプト非依存で軽量であり、バックボーンの変更や推論時間の変更なしに、多様なVPT亜種とシームレスに統合される。
関連論文リスト
- STF: Shallow-Level Temporal Feedback to Enhance Spiking Transformers [29.501367277718046]
スパイキングニューラルネットワーク(SNN)は浮動小数点mboxArtificial Neural Networks(ANN)と比較して大きなパフォーマンスギャップを被る
近年,このギャップを狭めるために,高レベルの意味情報を伝達するためのフィードバックループを導入している。
符号化層のための軽量なプラグアンドプレイモジュールであるShallow-level Temporal Feedback (STF)を提案する。
論文 参考訳(メタデータ) (2025-08-01T07:30:59Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Training-Free Acceleration of ViTs with Delayed Spatial Merging [4.523939613157408]
トークンマージは視覚変換器(ViT)の推論をリトレーニングや微調整なしに高速化する新しいパラダイムとして登場した。
1) アクティベーション・アウトレイアと2) 階層表現の視点を付加することでトークンのマージを改善する。
DSM: Delayed Spatial Mergingと呼ばれる統合推論フレームワークを構築します。
論文 参考訳(メタデータ) (2023-03-04T05:34:25Z) - Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer [63.99222215387881]
本稿では,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。
本手法は,画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2021-08-03T09:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。