論文の概要: AnchorOPT: Towards Optimizing Dynamic Anchors for Adaptive Prompt Learning
- arxiv url: http://arxiv.org/abs/2511.21188v1
- Date: Wed, 26 Nov 2025 09:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.030353
- Title: AnchorOPT: Towards Optimizing Dynamic Anchors for Adaptive Prompt Learning
- Title(参考訳): AnchorOPT:適応型プロンプト学習のための動的アンカー最適化に向けて
- Authors: Zheng Li, Yibing Song, Xin Zhang, Lei Luo, Xiang Li, Jian Yang,
- Abstract要約: 本稿では,動的アンカーベースのプロンプト学習フレームワークであるAnchorOPTを提案する。
具体的には、AnchorOPTは2つの重要な次元でダイナミズムを導入する。
単純な学習可能なアンカーと位置行列のみを用いることで,いくつかの手法に匹敵する性能が得られることを示す。
- 参考スコア(独自算出の注目度): 42.95109985634867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing prompt learning methods, which are built upon CLIP models, leverage textual tokens as anchors to guide the learnable soft tokens. This guidance improves CLIP generalizations. However, these anchors-static in both value and position-lack cross-task and stage-adaptive flexibility. To address this limitation, we propose AnchorOPT, a dynamic anchor-based prompt learning framework. Specifically, AnchorOPT introduces dynamism in two key dimensions: (i) anchor values eschew handcrafted explicit textual tokens (e.g., "shape", "color"), instead learning dynamically from task-specific data; and (ii) the positional relationship between anchor and soft tokens is no longer fixed but adaptively optimized via a learnable position matrix conditioned on the training stage and task context. Training occurs in two stages: we first learn the anchor tokens, then freeze and transfer them to the second stage for optimization of soft tokens and the position matrix. Extensive experiments demonstrate that using only a simple learnable anchor and position matrix achieves performance comparable to or exceeding some methods incorporating additional learnable modules or regularization techniques. As a plug-and-play module, AnchorOPT integrates seamlessly into existing frameworks, yielding consistent performance gains across diverse datasets. Code is publicly available at https://github.com/zhengli97/ATPrompt.
- Abstract(参考訳): CLIPモデル上に構築された既存の即時学習手法では、テキストトークンをアンカーとして活用して、学習可能なソフトトークンをガイドする。
このガイダンスはCLIPの一般化を改善する。
しかし、これらのアンカーは値と位置遅延のクロスタスクとステージ適応性の両方で静的である。
この制限に対処するため、動的アンカーベースのプロンプト学習フレームワークであるAnchorOPTを提案する。
具体的には、AnchorOPTは2つの重要な次元にダイナミズムを導入する。
i) アンカー値 eschew 手作業による明示的なテキストトークン(例: "shape", "color")。代わりに、タスク固有のデータから動的に学習する。
(II) アンカーとソフトトークンの位置関係はもはや固定されていないが、学習段階とタスクコンテキストに条件付けされた学習可能な位置行列によって適応的に最適化される。
まず、アンカートークンを学習し、その後、ソフトトークンと位置行列の最適化のために第2ステージに凍結し、転送する。
大規模な実験では、単純な学習可能なアンカーと位置行列のみを用いることで、学習可能な追加のモジュールや正規化技術を組み込んだいくつかのメソッドに匹敵する、あるいは超えるパフォーマンスを実現する。
プラグイン・アンド・プレイモジュールとして、AnchorOPTは既存のフレームワークにシームレスに統合され、多様なデータセット間で一貫したパフォーマンス向上をもたらす。
コードはhttps://github.com/zhengli97/ATPrompt.comで公開されている。
関連論文リスト
- Token-Weighted Multi-Target Learning for Generative Recommenders with Curriculum Learning [8.152671524863083]
セマンティックIDを用いた生成レコメンデーションに適した2つの補完情報ゲインに基づくトークン重み付け手法を提案する。
本稿では,2つのトークン重み付け目標と標準可能性とを協調的に最適化する,カリキュラム学習を備えた多目的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T11:01:14Z) - GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models [34.002791706686345]
視覚的およびテキスト的ソフトプロンプトチューニングは、下流タスクにおける視覚言語モデル(VLM)の適応性を向上させることができる。
既存の手法では、手作りプロンプトとソフトプロンプトのギャップを規則化することで、この効果を緩和しようとする。
本稿では,ビデオタスクにおけるV-Lモデルの性能を最適化するプラグイン・アンド・プレイ・カップリング・プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-27T05:36:47Z) - ContextFusion and Bootstrap: An Effective Approach to Improve Slot Attention-Based Object-Centric Learning [53.19029595226767]
スロットアテンションに基づくフレームワークは、オブジェクト指向学習における主要なアプローチとして登場した。
現在の手法では、スロットからの再構築を可能にするため、トレーニングを通して安定した特徴空間が必要である。
本稿では,既存のスロットアテンションモデルにシームレスに統合可能な新しいContextFusionステージとBootstrapブランチを提案する。
論文 参考訳(メタデータ) (2025-09-02T07:19:25Z) - Learning Decomposed Contextual Token Representations from Pretrained and Collaborative Signals for Generative Recommendation [17.061613097917217]
本稿では,トークン埋め込みの適応性を高めつつ,事前学習した意味を保存する統一的なフレームワークを提案する。
3つの実世界のデータセットの実験では、DECORが推奨パフォーマンスにおいて、最先端のベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-08-22T18:50:38Z) - Advancing Textual Prompt Learning with Anchored Attributes [77.49530329108391]
本稿では,ATPrompt という名前の視覚言語モデルに対する属性型テキスト・プロンプト学習手法を提案する。
テキストプロンプトをカテゴリ中心の形式から属性-カテゴリハイブリッド形式に変換する。
簡単に使えるプラグイン技術として、ATPromptは既存の基本的なプロンプトフォーマットをシームレスに置き換えることができる。
論文 参考訳(メタデータ) (2024-12-12T16:57:20Z) - LW2G: Learning Whether to Grow for Prompt-based Continual Learning [55.552510632228326]
最近のPromptベースの連続学習は、事前訓練されたモデルで顕著な性能を達成した。
これらのアプローチは、学習中に新しいプロンプトセットを追加してプロンプトプールを拡張し、推論中に正しいセットを選択する。
従来,PCLの性能向上に課題を呈する課題として,タスク指向のプロンプトセットの個別化と選択精度の低さが指摘されてきた。
論文 参考訳(メタデータ) (2024-09-27T15:55:13Z) - Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。