論文の概要: ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2311.16494v1
- Date: Mon, 27 Nov 2023 10:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:58:19.865066
- Title: ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models
- Title(参考訳): ArGue: ビジョンランゲージモデルのための属性ガイド型プロンプトチューニング
- Authors: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Jing Zhang
- Abstract要約: 本稿では,ビジョンランゲージ(V&L)モデルのための anAttribute-Guided Prompt Tuning (ArGue) を開発した。
大規模言語モデル(LLM)によって生成された原始的な視覚属性とモデルを一致させる。
提案手法は,新しいクラス予測とアウト・オブ・ディストリビューション一般化タスクの両方において,最先端のプロンプトチューニング手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 9.261590575715669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although soft prompt tuning is effective in efficiently adapting
Vision-Language (V&L) models for downstream tasks, it shows limitations in
dealing with distribution shifts. We address this issue with Attribute-Guided
Prompt Tuning (ArGue), making three key contributions. 1) In contrast to the
conventional approach of directly appending soft prompts preceding class names,
we align the model with primitive visual attributes generated by Large Language
Models (LLMs). We posit that a model's ability to express high confidence in
these attributes signifies its capacity to discern the correct class
rationales. 2) We introduce attribute sampling to eliminate disadvantageous
attributes, thus only semantically meaningful attributes are preserved. 3) We
propose negative prompting, explicitly enumerating class-agnostic attributes to
activate spurious correlations and encourage the model to generate highly
orthogonal probability distributions in relation to these negative features. In
experiments, our method significantly outperforms current state-of-the-art
prompt tuning methods on both novel class prediction and out-of-distribution
generalization tasks.
- Abstract(参考訳): ソフトプロンプトチューニングは、下流タスクに対するビジョン・ランゲージ(V&L)モデルを効率的に適応するのに有効であるが、分散シフトを扱う際の限界を示す。
私たちはAttribute-Guided Prompt Tuning(ArGue)でこの問題に対処し、3つの重要なコントリビューションを行います。
1) クラス名に先立つソフトプロンプトを直接付加する従来のアプローチとは対照的に, 大言語モデル(llm)によって生成された原始視覚属性をモデルに適合させる。
モデルがこれらの属性に高い信頼を表現できる能力は、正しいクラス論理を識別する能力を示していると仮定する。
2)不利な属性を排除するために属性サンプリングを導入し,意味的に意味のある属性のみが保存される。
3) 負のプロンプト, クラスに依存しない属性を明示的に列挙して刺激的相関を活性化し, モデルがこれらの負の特徴に関して高い直交確率分布を生成することを奨励する。
実験において,本手法は,新しいクラス予測と分散一般化タスクの両方において,最先端のプロンプトチューニング手法を著しく上回っている。
関連論文リスト
- Vision-language Assisted Attribute Learning [53.60196963381315]
大規模な属性ラベリングは通常不完全で部分的である。
既存の属性学習手法は、欠落したラベルを否定的な扱いをすることが多い。
利用可能な視覚言語知識を活用して、モデル学習の強化に欠落しているラベルを明確に明らかにする。
論文 参考訳(メタデータ) (2023-12-12T06:45:19Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - Patch-Token Aligned Bayesian Prompt Learning for Vision-Language Models [48.37786467926044]
ラベル固有のプロンプトを階層的に生成する。
我々は視覚知識と画像とそれに対応するプロンプトを最適輸送下でパッチやトークンセットとして意味的に正規化する。
提案手法は,インスタンス条件付きプロンプトを生成して一般化性を向上させる条件付きケースに容易に拡張できる。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Text2Model: Text-based Model Induction for Zero-shot Image
Classification [41.0122522912593]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
我々は、クラス記述を受け取り、マルチクラスモデルを出力するハイパーネットワークを訓練する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて評価される。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - A Framework to Learn with Interpretation [2.3741312212138896]
本稿では,予測モデルとその関連解釈モデルを共同で学習する新しい枠組みを提案する。
我々は,選択した隠れ層の出力を入力として取り込む,高レベル属性関数の小型辞書を求める。
学習した機能を視覚化する詳細なパイプラインも開発されている。
論文 参考訳(メタデータ) (2020-10-19T09:26:28Z) - Guiding Attention for Self-Supervised Learning with Transformers [24.785500242464646]
双方向変換器を用いた効率的な自己教師型学習を実現する手法を提案する。
我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。
論文 参考訳(メタデータ) (2020-10-06T00:04:08Z) - Joint Item Recommendation and Attribute Inference: An Adaptive Graph
Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。
ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。
本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文 参考訳(メタデータ) (2020-05-25T10:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。