論文の概要: Supporting Vision-Language Model Inference with Causality-pruning
Knowledge Prompt
- arxiv url: http://arxiv.org/abs/2205.11100v1
- Date: Mon, 23 May 2022 07:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:10:59.351135
- Title: Supporting Vision-Language Model Inference with Causality-pruning
Knowledge Prompt
- Title(参考訳): 因果解析による視覚言語モデル推論支援
- Authors: Jiangmeng Li, Wenyi Mo, Wenwen Qiang, Bing Su, Changwen Zheng
- Abstract要約: 本稿では,事前学習された視覚言語モデルを下流画像認識に適応させるために,Causality-pruning Knowledge Prompt (CapKP)を提案する。
CapKPは、テキストラベルをクエリとして扱い、タスク関連セマンティック情報を探索することで、存在論的知識グラフを検索する。
- 参考スコア(独自算出の注目度): 15.591922602789758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models are pre-trained by aligning image-text pairs in a
common space so that the models can deal with open-set visual concepts by
learning semantic information from textual labels. To boost the transferability
of these models on downstream tasks in a zero-shot manner, recent works explore
generating fixed or learnable prompts, i.e., classification weights are
synthesized from natural language describing task-relevant categories, to
reduce the gap between tasks in the training and test phases. However, how and
what prompts can improve inference performance remains unclear. In this paper,
we explicitly provide exploration and clarify the importance of including
semantic information in prompts, while existing prompt methods generate prompts
without exploring the semantic information of textual labels. A challenging
issue is that manually constructing prompts, with rich semantic information,
requires domain expertise and is extremely time-consuming. To this end, we
propose Causality-pruning Knowledge Prompt (CapKP) for adapting pre-trained
vision-language models to downstream image recognition. CapKP retrieves an
ontological knowledge graph by treating the textual label as a query to explore
task-relevant semantic information. To further refine the derived semantic
information, CapKP introduces causality-pruning by following the first
principle of Granger causality. Empirically, we conduct extensive evaluations
to demonstrate the effectiveness of CapKP, e.g., with 8 shots, CapKP
outperforms the manual-prompt method by 12.51% and the learnable-prompt method
by 1.39% on average, respectively. Experimental analyses prove the superiority
of CapKP in domain generalization compared to benchmark approaches.
- Abstract(参考訳): ビジョン言語モデルは、画像とテキストのペアを共通の空間に整列させて、テキストラベルから意味情報を学習することで、オープンセットの視覚概念を扱えるように事前訓練される。
下流タスクにおけるこれらのモデルの転送可能性を高めるため、近年の研究では、タスク関連カテゴリを記述した自然言語から分類重みを合成し、トレーニングとテストフェーズにおけるタスク間のギャップを減らし、固定または学習可能なプロンプトを生成する方法が検討されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは不明だ。
本稿では,既存のプロンプト手法がテキストラベルのセマンティック情報を探さずにプロンプトを生成するのに対して,意味情報をプロンプトに含めることの重要性を明らかにする。
難しいのは、複雑なセマンティック情報を持つプロンプトを手作業で構築する場合、ドメインの専門知識が必要で、非常に時間がかかります。
そこで我々は,事前学習された視覚言語モデルを下流画像認識に適用するためのCausality-pruning Knowledge Prompt (CapKP)を提案する。
CapKPは、テキストラベルをクエリとして扱い、タスク関連セマンティック情報を探索することで、存在論的知識グラフを検索する。
派生した意味情報をさらに洗練するために、CapKPはGranger因果性の第一原理に従うことによって因果決定を導入する。
実験では,手動プロンプト法を12.51%,学習可能なプロンプト法を1.39%,手動プロンプト法を12.51%,手動プロンプト法を1.39%,それぞれ向上させた。
実験解析により、ベンチマーク手法と比較して、領域一般化におけるCapKPの優位性が証明された。
関連論文リスト
- Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [26.017809323969285]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - PLAR: Prompt Learning for Action Recognition [56.57236976757388]
我々は,行動認識のためのプロンプト学習(PLAR)という新しい一般学習手法を提案する。
提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることで,アクションラベルを予測できるように設計されている。
我々は,空中マルチエージェントデータセットOkutamamの3.110-7.2%の精度向上と地上カメラ単一エージェントデータセットSomesome V2の1.0-3.6%の改善を観察した。
論文 参考訳(メタデータ) (2023-05-21T11:51:09Z) - Patch-Token Aligned Bayesian Prompt Learning for Vision-Language Models [48.37786467926044]
ラベル固有のプロンプトを階層的に生成する。
我々は視覚知識と画像とそれに対応するプロンプトを最適輸送下でパッチやトークンセットとして意味的に正規化する。
提案手法は,インスタンス条件付きプロンプトを生成して一般化性を向上させる条件付きケースに容易に拡張できる。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。