論文の概要: Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer
- arxiv url: http://arxiv.org/abs/2207.01887v1
- Date: Tue, 5 Jul 2022 08:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:56:46.225380
- Title: Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer
- Title(参考訳): マルチモーダル知識伝達によるオープンボキャブラリーマルチラベル分類
- Authors: Sunan He, Taian Guo, Tao Dai, Ruizhi Qiao, Bo Ren, Shu-Tao Xia
- Abstract要約: マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.885555581039895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world recognition system often encounters a plenty of unseen labels in
practice. To identify such unseen labels, multi-label zero-shot learning
(ML-ZSL) focuses on transferring knowledge by a pre-trained textual label
embedding (e.g., GloVe). However, such methods only exploit singlemodal
knowledge from a language model, while ignoring the rich semantic information
inherent in image-text pairs. Instead, recently developed open-vocabulary (OV)
based methods succeed in exploiting such information of image-text pairs in
object detection, and achieve impressive performance. Inspired by the success
of OV-based methods, we propose a novel open-vocabulary framework, named
multimodal knowledge transfer (MKT), for multi-label classification.
Specifically, our method exploits multi-modal knowledge of image-text pairs
based on a vision and language pretraining (VLP) model. To facilitate
transferring the imagetext matching ability of VLP model, knowledge
distillation is used to guarantee the consistency of image and label
embeddings, along with prompt tuning to further update the label embeddings. To
further recognize multiple objects, a simple but effective two-stream module is
developed to capture both local and global features. Extensive experimental
results show that our method significantly outperforms state-of-theart methods
on public benchmark datasets. Code will be available at
https://github.com/seanhe97/MKT.
- Abstract(参考訳): 現実世界の認識システムは、実際には多くの目に見えないラベルに遭遇することが多い。
このような目に見えないラベルを識別するために、ML-ZSL(Multi-label zero-shot Learning)は、事前訓練されたテキストラベル埋め込み(GloVeなど)による知識の伝達に焦点を当てている。
しかし、そのような手法は言語モデルからの単一モーダル知識しか利用せず、画像とテキストのペアに固有の豊富な意味情報を無視する。
代わりに、最近開発されたopen-vocabulary (ov)ベースの手法は、オブジェクト検出において画像とテキストのペアの情報を活用し、印象的なパフォーマンスを達成している。
OVベースの手法の成功に触発されて,マルチラベル分類のための新しいオープン語彙フレームワークMKTを提案する。
具体的には、視覚と言語事前学習(VLP)モデルに基づく画像テキストペアのマルチモーダル知識を利用する。
VLPモデルの画像テキストマッチング能力の伝達を容易にするため、画像とラベルの埋め込みの整合性を保証するために知識蒸留と、ラベルの埋め込みをさらに更新するための迅速なチューニングが使用される。
複数のオブジェクトを認識するために、ローカルとグローバルの両方の機能をキャプチャするために、シンプルだが効果的な2ストリームモジュールを開発した。
大規模な実験結果から,本手法は,公開ベンチマークデータセットの最先端手法よりも優れていた。
コードはhttps://github.com/seanhe97/MKT.comから入手できる。
関連論文リスト
- Text-Region Matching for Multi-Label Image Recognition with Missing Labels [5.095488730708477]
TRM-MLは意味のあるクロスモーダルマッチングを強化する新しい手法である。
カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知のラベルを推定するカテゴリプロトタイプを提案する。
提案手法は最先端の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-26T05:29:24Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label
Classification [5.985859108787149]
マルチラベルゼロショット学習はコンピュータビジョンにおける非自明なタスクである。
本稿では,この課題に対する新しい問合せに基づく知識共有パラダイムを提案する。
NUS-WIDE および Open Images では、ゼロショットタスクの最先端手法を5.9%、mAP の4.5%で大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-02T12:18:40Z) - Multi-Label Knowledge Distillation [86.03990467785312]
本稿では,新しい多ラベル知識蒸留法を提案する。
一方、マルチラベル学習問題をバイナリ分類問題に分割することにより、ロジットからの情報的意味知識を利用する。
一方,ラベルワイド埋め込みの構造情報を活用することにより,学習した特徴表現の識別性を向上する。
論文 参考訳(メタデータ) (2023-08-12T03:19:08Z) - Multi-Label Self-Supervised Learning with Scene Images [21.549234013998255]
本稿では,シーン/マルチラベル画像SSLを多ラベル分類問題として扱うことで,画質の表現を学習可能であることを示す。
提案手法はMulti-Label Self-supervised Learning (MLS) と呼ばれる。
論文 参考訳(メタデータ) (2023-08-07T04:04:22Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。