論文の概要: Spotlighter: Revisiting Prompt Tuning from a Representative Mining View
- arxiv url: http://arxiv.org/abs/2509.00905v2
- Date: Wed, 03 Sep 2025 01:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.454196
- Title: Spotlighter: Revisiting Prompt Tuning from a Representative Mining View
- Title(参考訳): Spotlighter: 代表的鉱業観からプロンプトチューニングを再考
- Authors: Yutong Gao, Maoyuan Shao, Xinyang Huang, Chuang Zhu, Lijuan Sun, Yu Weng, Xuan Liu, Guoshun Nan,
- Abstract要約: 本稿では,迅速なチューニングの精度と効率を向上させる軽量なトークン選択フレームワークを提案する。
Spotlighterは、サンプルとセマンティックの両方の観点から各視覚トークンのアクティベーションを評価し、下流予測のためのトップスコアトークンのみを保持する。
数発のベンチマークで、SpotlighterはCLIPを最大11.19%の高調波平均精度で上回り、最大0.8KのFPSを達成し、21のパラメータしか追加しない。
- 参考スコア(独自算出の注目度): 18.185884060110055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP's success has demonstrated that prompt tuning can achieve robust cross-modal semantic alignment for tasks ranging from open-domain recognition to fine-grained classification. However, redundant or weakly relevant feature components introduce noise and incur unnecessary computational costs. In this work, we propose Spotlighter, a lightweight token-selection framework that simultaneously enhances accuracy and efficiency in prompt tuning. Spotlighter evaluates each visual token's activation from both sample-wise and semantic-wise perspectives and retains only the top-scoring tokens for downstream prediction. A class-specific semantic memory bank of learned prototypes refines this selection, ensuring semantic representativeness and compensating for discarded features. To further prioritize informative signals, we introduce a two-level ranking mechanism that dynamically weights token--prototype interactions. Across 11 few-shot benchmarks, Spotlighter outperforms CLIP by up to 11.19\% in harmonic mean accuracy and achieves up to 0.8K additional FPS, with only 21 extra parameters. These results establish Spotlighter as an effective and scalable baseline for prompt tuning. Code for our method will be available at https://github.com/greatest-gourmet/Spotlighter.
- Abstract(参考訳): CLIPの成功は、オープンドメイン認識からきめ細かい分類に至るまでのタスクに対して、迅速なチューニングが堅牢なクロスモーダルなセマンティックアライメントを実現することを実証している。
しかし、冗長または弱関連な特徴成分はノイズを導入し、不要な計算コストを発生させる。
本研究では,迅速なチューニングの精度と効率を同時に向上する軽量なトークン選択フレームワークであるSpotlighterを提案する。
Spotlighterは、サンプルとセマンティックの両方の観点から各視覚トークンのアクティベーションを評価し、下流予測のためのトップスコアトークンのみを保持する。
学習したプロトタイプのクラス固有のセマンティックメモリバンクは、この選択を洗練し、セマンティックな代表性を確保し、破棄された特徴を補償する。
情報伝達信号をさらに優先順位付けするために,トークン-プロトタイプ相互作用を動的に重み付けする2段階のランク付け機構を導入する。
11つの数ショットのベンチマークで、SpotlighterはCLIPを最大11.19\%の高調波平均精度で上回り、最大0.8KのFPSを達成し、21のパラメータしか持たない。
これらの結果はSpotlighterを即時チューニングのための効果的でスケーラブルなベースラインとして確立する。
私たちのメソッドのコードはhttps://github.com/ Greatest-gourmet/Spotlighter.comで公開されます。
関連論文リスト
- ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training [8.486942657544825]
初期トークンの注意の調整は、その後のトークンよりも注意分布を鋭くしたり、平らにすることを示す。
我々は、この特別なトークンに頭部特異的な注意調整を適用することにより、LCMの性能を向上させる訓練不要のアプローチであるZeroTuningを提案する。
論文 参考訳(メタデータ) (2025-05-16T22:52:24Z) - AutoJudge: Judge Decoding Without Manual Annotation [10.411318392966358]
AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化するフレームワークである。
ターゲットモデルとドラフトモデルのミスマッチのどれを修正すべきかを,半グレディ探索アルゴリズムを用いて検証する。
次に、既存のLLM埋め込みに基づいて軽量な分類器をトレーニングし、推論時にトークンのミスマッチを安全に受け入れることができるように予測する。
論文 参考訳(メタデータ) (2025-04-28T17:59:28Z) - CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Fine-Grained Visual Prompting [35.032567257651515]
Fine-Grained Visual Prompting (FGVP) は参照表現のゼロショット理解において優れた性能を示す。
RefCOCO+ testAサブセットで最大12.5%改善され、平均マージンが3.0%から4.6%向上した。
論文 参考訳(メタデータ) (2023-06-07T11:39:56Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。