論文の概要: Like Humans to Few-Shot Learning through Knowledge Permeation of Vision and Text
- arxiv url: http://arxiv.org/abs/2405.12543v1
- Date: Tue, 21 May 2024 07:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 14:08:52.821140
- Title: Like Humans to Few-Shot Learning through Knowledge Permeation of Vision and Text
- Title(参考訳): 人間のように、視覚とテキストの知識を浸透させて学ぶ
- Authors: Yuyu Jia, Qing Zhou, Wei Huang, Junyu Gao, Qi Wang,
- Abstract要約: 本稿では,BiKop と呼ばれる双方向知識透過方式を提案する。
クラス名記述は一般的な表現を提供するが、画像は個人の特異性をキャプチャする。
BiKopは、主に双方向の知識浸透を通じて階層的な汎用表現を確立する。
- 参考スコア(独自算出の注目度): 27.714623966745005
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Few-shot learning aims to generalize the recognizer from seen categories to an entirely novel scenario. With only a few support samples, several advanced methods initially introduce class names as prior knowledge for identifying novel classes. However, obstacles still impede achieving a comprehensive understanding of how to harness the mutual advantages of visual and textual knowledge. In this paper, we propose a coherent Bidirectional Knowledge Permeation strategy called BiKop, which is grounded in a human intuition: A class name description offers a general representation, whereas an image captures the specificity of individuals. BiKop primarily establishes a hierarchical joint general-specific representation through bidirectional knowledge permeation. On the other hand, considering the bias of joint representation towards the base set, we disentangle base-class-relevant semantics during training, thereby alleviating the suppression of potential novel-class-relevant information. Experiments on four challenging benchmarks demonstrate the remarkable superiority of BiKop. Our code will be publicly available.
- Abstract(参考訳): ほとんどショットラーニングは、認識者が目に見えないカテゴリーから全く新しいシナリオへと一般化することを目的としていない。
サポートサンプルはほとんどないが、いくつかの高度なメソッドは最初、新しいクラスを特定するための事前知識としてクラス名を導入した。
しかし、障害は視覚的知識とテキスト的知識の相互の利点をどのように活用するかを包括的に理解することを妨げる。
本稿では,人間の直感に根ざした,一貫性のある双方向知識浸透戦略であるBiKopを提案する。クラス名記述は一般的な表現を提供するが,画像は個人の特異性を捉えている。
BiKopは、主に双方向の知識浸透を通じて階層的な汎用表現を確立する。
一方、ベースセットに対する関節表現のバイアスを考慮すると、トレーニング中に基本クラス関連セマンティクスを歪め、潜在的新規クラス関連情報の抑制を緩和する。
4つの挑戦的なベンチマークの実験は、BiKopの顕著な優位性を示している。
私たちのコードは公開されます。
関連論文リスト
- Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label
Classification [5.985859108787149]
マルチラベルゼロショット学習はコンピュータビジョンにおける非自明なタスクである。
本稿では,この課題に対する新しい問合せに基づく知識共有パラダイムを提案する。
NUS-WIDE および Open Images では、ゼロショットタスクの最先端手法を5.9%、mAP の4.5%で大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-02T12:18:40Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Mutual Information-guided Knowledge Transfer for Novel Class Discovery [23.772336970389834]
本稿では,目に見えるクラスと目に見えないクラス間で意味的知識を伝達する原理と一般的な手法を提案する。
提案手法は,いくつかのベンチマークにおいて,従来のSOTAよりも有意差があることが示唆された。
論文 参考訳(メタデータ) (2022-06-24T03:52:25Z) - SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning [85.2093650907943]
機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-08T08:03:44Z) - The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels [90.88501867321573]
我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-05T17:58:37Z) - Open-Set Representation Learning through Combinatorial Embedding [62.05670732352456]
ラベル付きクラスとラベルなしクラスの両方の例に基づく表現学習を通じて、データセットにおける新しい概念を識別することに興味がある。
異種ラベル空間上の複数の教師付きメタクラス分類器によって与えられる構成知識を用いて、自然に未知のクラス内のサンプルをクラスタリングする学習手法を提案する。
提案アルゴリズムは,未確認クラスの識別性の向上と,新しいクラスに一般化可能な既知のクラス表現の学習を併用して,新しい概念を探索する。
論文 参考訳(メタデータ) (2021-06-29T11:51:57Z) - Task-Independent Knowledge Makes for Transferable Representations for
Generalized Zero-Shot Learning [77.0715029826957]
一般化されたゼロショット学習(GZSL)は、転送可能な画像表現を学習することによって新しいカテゴリを認識する。
タスク固有とタスク非依存の知識を同時に学習する新しいデュアルコントラスト埋め込みネットワーク(DCEN)を提案する。
論文 参考訳(メタデータ) (2021-04-05T10:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。