論文の概要: LPN: Language-guided Prototypical Network for few-shot classification
- arxiv url: http://arxiv.org/abs/2307.01515v3
- Date: Sat, 21 Oct 2023 10:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:20:32.717470
- Title: LPN: Language-guided Prototypical Network for few-shot classification
- Title(参考訳): LPN:数ショット分類のための言語誘導型プロトタイプネットワーク
- Authors: Kaihui Cheng, Chule Yang, Xiao Liu, Naiyang Guan, Zhiyuan Wang
- Abstract要約: ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
- 参考スコア(独自算出の注目度): 16.37959398470535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot classification aims to adapt to new tasks with limited labeled
examples. To fully use the accessible data, recent methods explore suitable
measures for the similarity between the query and support images and better
high-dimensional features with meta-training and pre-training strategies.
However, the potential of multi-modality information has barely been explored,
which may bring promising improvement for few-shot classification. In this
paper, we propose a Language-guided Prototypical Network (LPN) for few-shot
classification, which leverages the complementarity of vision and language
modalities via two parallel branches to improve the classifier. Concretely, to
introduce language modality with limited samples in the visual task, we
leverage a pre-trained text encoder to extract class-level text features
directly from class names while processing images with a conventional image
encoder. Then, we introduce a language-guided decoder to obtain text features
corresponding to each image by aligning class-level features with visual
features. Additionally, we utilize class-level features and prototypes to build
a refined prototypical head, which generates robust prototypes in the text
branch for follow-up measurement. Furthermore, we leverage the class-level
features to align the visual features, capturing more class-relevant visual
features. Finally, we aggregate the visual and text logits to calibrate the
deviation of a single modality, enhancing the overall performance. Extensive
experiments demonstrate the competitiveness of LPN against state-of-the-art
methods on benchmark datasets.
- Abstract(参考訳): 少数ショット分類は、制限されたラベル付き例で新しいタスクに適応することを目的としている。
アクセス可能なデータを完全に利用するために、最近の手法では、クエリとサポートイメージの類似性、およびメタトレーニングと事前トレーニング戦略による高次元特徴の適切な測定方法が検討されている。
しかし、マルチモダリティ情報の可能性はほとんど検討されていないため、少数ショット分類に有望な改善をもたらす可能性がある。
本稿では,2つの並列分岐による視覚と言語モダリティの相補性を活用し,分類器の改良を目的とした言語誘導型プロトタイプネットワーク(LPN)を提案する。
具体的には,視覚タスクに限られたサンプルで言語モダリティを導入するために,事前学習されたテキストエンコーダを活用して,従来の画像エンコーダで画像を処理すると同時に,クラス名から直接クラスレベルのテキスト特徴を抽出する。
次に,クラスレベルの特徴を視覚的特徴と整合させることで,各画像に対応するテキスト特徴を得るための言語誘導デコーダを提案する。
さらに,クラスレベルの機能とプロトタイプを用いて,テキストブランチ内でロバストなプロトタイプを生成して追跡測定を行う,洗練されたプロトタイプ型ヘッドを構築する。
さらに、クラスレベルの機能を活用して、視覚的機能を調整し、より多くのクラス関連視覚的機能をキャプチャします。
最後に、視覚とテキストのログを集約し、単一のモダリティの偏差を校正し、全体的なパフォーマンスを向上させる。
大規模な実験は、ベンチマークデータセットの最先端手法に対するLPNの競争力を示す。
関連論文リスト
- Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。