論文の概要: Probabilistic Prompt Learning for Dense Prediction
- arxiv url: http://arxiv.org/abs/2304.00779v1
- Date: Mon, 3 Apr 2023 08:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:17:03.709006
- Title: Probabilistic Prompt Learning for Dense Prediction
- Title(参考訳): デンス予測のための確率的確率的プロンプト学習
- Authors: Hyeongjun Kwon, Taeyong Song, Somi Jeong, Jin Kim, Jinhyun Jang,
Kwanghoon Sohn
- Abstract要約: 本稿では,高密度予測タスクにおける視覚言語知識を完全に活用するための,確率論的素早い学習法を提案する。
学習可能なクラスに依存しない属性プロンプトを導入し、オブジェクトクラス全体にわたって普遍的な属性を記述する。
属性は、クラス固有のテキスト分布を定義するために、クラス情報と視覚的コンテキスト知識と組み合わせられる。
- 参考スコア(独自算出の注目度): 45.577125507777474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in deterministic prompt learning has become a promising
alternative to various downstream vision tasks, enabling models to learn
powerful visual representations with the help of pre-trained vision-language
models. However, this approach results in limited performance for dense
prediction tasks that require handling more complex and diverse objects, since
a single and deterministic description cannot sufficiently represent the entire
image. In this paper, we present a novel probabilistic prompt learning to fully
exploit the vision-language knowledge in dense prediction tasks. First, we
introduce learnable class-agnostic attribute prompts to describe universal
attributes across the object class. The attributes are combined with class
information and visual-context knowledge to define the class-specific textual
distribution. Text representations are sampled and used to guide the dense
prediction task using the probabilistic pixel-text matching loss, enhancing the
stability and generalization capability of the proposed method. Extensive
experiments on different dense prediction tasks and ablation studies
demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): 決定論的素早い学習の最近の進歩は、様々な下流視覚タスクの代替となり、事前学習された視覚言語モデルの助けを借りて、モデルが強力な視覚表現を学習できるようになる。
しかしながら、このアプローチは、単一の決定論的記述が画像全体を十分に表現できないため、より複雑で多様なオブジェクトを扱う必要のある密集した予測タスクのパフォーマンスを制限している。
本稿では,高次予測タスクにおいて視覚言語知識を十分に活用するための新しい確率的プロンプト学習を提案する。
まず,オブジェクトクラス全体の共通属性を記述するために,学習可能なクラス非依存属性プロンプトを導入する。
属性は、クラス固有のテキスト分布を定義するために、クラス情報と視覚コンテキスト知識とを組み合わせる。
テキスト表現をサンプル化し、確率的画素テキストマッチング損失を用いて高密度予測タスクを導出し、提案手法の安定性と一般化能力を高める。
様々な密集予測タスクとアブレーション研究の広範な実験により,提案手法の有効性が示された。
関連論文リスト
- XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization [4.634780391920529]
本稿では,画像,学習可能なプロンプト,臨床概念に基づくプロンプトのセマンティクスを整合させることにより,医療知識を活用する新しい説明可能なプロンプト学習フレームワークを提案する。
我々のフレームワークは、大きな言語モデルから知識を引き出すことによって、価値ある概念アノテーションの欠如に対処する。
提案手法は,XAIにおける基礎モデルの有効性に光を当て,優れた診断性能,柔軟性,解釈可能性を実現する。
論文 参考訳(メタデータ) (2024-03-14T14:02:01Z) - TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models [14.019349267520541]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。
提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-09-01T20:59:46Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Self-training with Few-shot Rationalization: Teacher Explanations Aid
Student in Few-shot NLU [88.8401599172922]
タスク固有のラベルと合理的性に制限された自己学習言語モデルに基づくフレームワークを開発する。
ニューラルネットワークの性能は,その合理的な予測を意識することで,大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-09-17T00:36:46Z) - Multivariate Business Process Representation Learning utilizing Gramian
Angular Fields and Convolutional Neural Networks [0.0]
データの意味のある表現を学習することは、機械学習の重要な側面である。
予測的プロセス分析では、プロセスインスタンスのすべての説明的特性を利用できるようにすることが不可欠である。
本稿では,ビジネスプロセスインスタンスの表現学習のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-15T10:21:14Z) - A Framework to Learn with Interpretation [2.3741312212138896]
本稿では,予測モデルとその関連解釈モデルを共同で学習する新しい枠組みを提案する。
我々は,選択した隠れ層の出力を入力として取り込む,高レベル属性関数の小型辞書を求める。
学習した機能を視覚化する詳細なパイプラインも開発されている。
論文 参考訳(メタデータ) (2020-10-19T09:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。