論文の概要: Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning
- arxiv url: http://arxiv.org/abs/2407.15894v3
- Date: Fri, 20 Dec 2024 03:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:34.401398
- Title: Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning
- Title(参考訳): Craft: プロンプトチューニングのロバスト性を改善するクロスモーダルアライメント機能
- Authors: Jingchen Sun, Rohan Sharma, Vishnu Suresh Lokhande, Changyou Chen,
- Abstract要約: 本稿では,モーダル・アラインド・フィーチャー・チューニング(Craft)手法を提案し,即時チューニングにおけるオーバーフィッティングの問題に対処する。
提案手法は,プロンプトモデルのロバスト性をさらに向上するため,アンカー整列した特徴空間上での最大平均離散性(MMD)を最小化することを提案する。
- 参考スコア(独自算出の注目度): 26.876547151781438
- License:
- Abstract: Prompt Tuning has emerged as a prominent research paradigm for adapting vision-language models to various downstream tasks. However, recent research indicates that prompt tuning methods often lead to overfitting due to limited training samples. In this paper, we propose a Cross-modal Aligned Feature Tuning (Craft) method to address this issue. Cross-modal alignment is conducted by first selecting anchors from the alternative domain and deriving relative representations of the embeddings for the selected anchors. Optimizing for a feature alignment loss over anchor-aligned text and image modalities creates a more unified text-image common space. Overfitting in prompt tuning also deteriorates model performance on out-of-distribution samples. To further improve the prompt model's robustness, we propose minimizing Maximum Mean Discrepancy (MMD) over the anchor-aligned feature spaces to mitigate domain shift. The experiment on four different prompt tuning structures consistently shows the improvement of our method, with increases of up to $6.1\%$ in the Base-to-Novel generalization task, $5.8\%$ in the group robustness task, and $2.7\%$ in the out-of-distribution tasks. The code will be available at https://github.com/Jingchensun/Craft
- Abstract(参考訳): Prompt Tuningは、様々な下流タスクに視覚言語モデルを適用するための顕著な研究パラダイムとして登場した。
しかし、最近の研究では、訓練サンプルが限られているため、迅速なチューニングが過度に適合することが多いことが示唆されている。
本稿では,この問題に対処するクロスモーダルアラインド・フィーチャーチューニング(Craft)手法を提案する。
クロスモーダルアライメントは、まず代替ドメインからアンカーを選択し、選択されたアンカーに対する埋め込みの相対表現を導出することによって行われる。
アンカーアライメントされたテキストと画像のモダリティに対する特徴アライメント損失の最適化は、より統一されたテキストイメージの共通スペースを生成する。
即時チューニングにおけるオーバーフィッティングは、アウト・オブ・ディストリビューション・サンプルのモデル性能を低下させる。
そこで本研究では, ドメインシフトを軽減するために, アンカー整列した特徴空間上での最大平均離散性(MMD)を最小化することを提案する。
4つの異なるプロンプトチューニング構造に対する実験は、Base-to-Novelの一般化タスクで最大6.1\%、グループロバストネスタスクで5.8\%、アウト・オブ・ディストリビューションタスクで2.7\%、という方法の改善を一貫して示している。
コードはhttps://github.com/Jingchensun/Craftで入手できる。
関連論文リスト
- Scalable Fine-tuning from Multiple Data Sources: A First-Order Approximation Approach [17.79010397902909]
目的タスクに対する言語モデル(LM)の微調整の問題について,$n$補助タスクの情報を用いて最適に検討する。
この問題には、NLPにおけるターゲット命令チューニングや、チェーン・オブ・ファインタニングにおけるデータ選択など、幅広い応用がある。
繰り返し学習せずにモデル微調整性能を推定する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-28T21:26:50Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - OneActor: Consistent Character Generation via Cluster-Conditioned Guidance [29.426558840522734]
我々はOneActorと呼ばれる新しいワンショットチューニングパラダイムを提案する。
プロンプトのみによって駆動される一貫した主題生成を効率よく行う。
提案手法は多目的生成が可能であり, 一般的な拡散拡張と互換性がある。
論文 参考訳(メタデータ) (2024-04-16T03:45:45Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Active Finetuning: Exploiting Annotation Budget in the
Pretraining-Finetuning Paradigm [132.9949120482274]
本稿では,事前学習ファインタニングパラダイムにおけるアノテーションのためのサンプルの選択に焦点を当てる。
本研究では,アクティブな微調整タスクのためのActiveFTと呼ばれる新しい手法を提案する。
画像分類とセマンティックセグメンテーションの両方に基づくベースラインよりも優れたActiveFTの先行性能と高効率性を示す。
論文 参考訳(メタデータ) (2023-03-25T07:17:03Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。