論文の概要: Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label
Classification
- arxiv url: http://arxiv.org/abs/2401.01181v1
- Date: Tue, 2 Jan 2024 12:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-03 14:00:34.625278
- Title: Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label
Classification
- Title(参考訳): オープン語彙多ラベル分類のための問合せに基づく知識共有
- Authors: Xuelin Zhu, Jian Liu, Dongqi Tang, Jiawei Ge, Weijia Liu, Bo Liu,
Jiuxin Cao
- Abstract要約: マルチラベルゼロショット学習はコンピュータビジョンにおける非自明なタスクである。
本稿では,この課題に対する新しい問合せに基づく知識共有パラダイムを提案する。
NUS-WIDE および Open Images では、ゼロショットタスクの最先端手法を5.9%、mAP の4.5%で大幅に上回っている。
- 参考スコア(独自算出の注目度): 5.985859108787149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying labels that did not appear during training, known as multi-label
zero-shot learning, is a non-trivial task in computer vision. To this end,
recent studies have attempted to explore the multi-modal knowledge of
vision-language pre-training (VLP) models by knowledge distillation, allowing
to recognize unseen labels in an open-vocabulary manner. However, experimental
evidence shows that knowledge distillation is suboptimal and provides limited
performance gain in unseen label prediction. In this paper, a novel query-based
knowledge sharing paradigm is proposed to explore the multi-modal knowledge
from the pretrained VLP model for open-vocabulary multi-label classification.
Specifically, a set of learnable label-agnostic query tokens is trained to
extract critical vision knowledge from the input image, and further shared
across all labels, allowing them to select tokens of interest as visual clues
for recognition. Besides, we propose an effective prompt pool for robust label
embedding, and reformulate the standard ranking learning into a form of
classification to allow the magnitude of feature vectors for matching, which
both significantly benefit label recognition. Experimental results show that
our framework significantly outperforms state-of-the-art methods on zero-shot
task by 5.9% and 4.5% in mAP on the NUS-WIDE and Open Images, respectively.
- Abstract(参考訳): マルチラベルゼロショット学習(multi-label zero-shot learning)として知られるトレーニング中に現れなかったラベルを特定することは、コンピュータビジョンにおける非自明なタスクである。
この目的のために、近年の研究では、知識蒸留による視覚言語事前学習(VLP)モデルのマルチモーダル知識を探求し、未確認ラベルをオープン語彙的に認識する試みが行われている。
しかしながら、実験的な証拠は知識蒸留が最適ではないことを示し、見当たらないラベル予測における性能向上が制限されている。
本稿では,オープン語彙多ラベル分類のための事前学習VLPモデルからマルチモーダル知識を探索するために,クエリに基づく新しい知識共有パラダイムを提案する。
具体的には、学習可能なラベルに依存しないクエリトークンのセットをトレーニングして、入力画像から重要な視覚知識を抽出し、さらにすべてのラベルで共有することで、認識のための視覚的な手がかりとして興味のあるトークンを選択することができる。
さらに,ロバストなラベル埋め込みのための効果的なプロンプトプールを提案し,標準ランキング学習を分類形式に再構成し,マッチングのための特徴ベクトルの大きさを許容する。
実験の結果,NUS-WIDE と Open Images では,ゼロショットタスクの最先端手法を5.9%,mAP の4.5%で有意に上回った。
関連論文リスト
- Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Multi-Label Knowledge Distillation [86.03990467785312]
本稿では,新しい多ラベル知識蒸留法を提案する。
一方、マルチラベル学習問題をバイナリ分類問題に分割することにより、ロジットからの情報的意味知識を利用する。
一方,ラベルワイド埋め込みの構造情報を活用することにより,学習した特徴表現の識別性を向上する。
論文 参考訳(メタデータ) (2023-08-12T03:19:08Z) - Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z) - Open-Set Representation Learning through Combinatorial Embedding [62.05670732352456]
ラベル付きクラスとラベルなしクラスの両方の例に基づく表現学習を通じて、データセットにおける新しい概念を識別することに興味がある。
異種ラベル空間上の複数の教師付きメタクラス分類器によって与えられる構成知識を用いて、自然に未知のクラス内のサンプルをクラスタリングする学習手法を提案する。
提案アルゴリズムは,未確認クラスの識別性の向上と,新しいクラスに一般化可能な既知のクラス表現の学習を併用して,新しい概念を探索する。
論文 参考訳(メタデータ) (2021-06-29T11:51:57Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z) - Learning Image Labels On-the-fly for Training Robust Classification
Models [13.669654965671604]
ノイズの多いアノテーション(例えば、異なるアルゴリズムベースのラベル付け子から)を一緒に利用し、相互に分類タスクの学習に役立てることができるかを示す。
メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに出席するように設計されている。
論文 参考訳(メタデータ) (2020-09-22T05:38:44Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。