論文の概要: Multimodal Multilabel Classification by CLIP
- arxiv url: http://arxiv.org/abs/2406.16141v1
- Date: Sun, 23 Jun 2024 15:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 18:54:26.425470
- Title: Multimodal Multilabel Classification by CLIP
- Title(参考訳): CLIPによるマルチモーダルマルチラベル分類
- Authors: Yanming Guo,
- Abstract要約: マルチモーダルマルチラベル分類(MMC)は、2つのデータソースを扱う学習アルゴリズムの設計を目的とした課題である。
本稿では,特徴抽出器としてContrastive Language-Image Pre-Training(CLIP)を利用する新しい手法を利用する。
- 参考スコア(独自算出の注目度): 3.1002416427168304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal multilabel classification (MMC) is a challenging task that aims to design a learning algorithm to handle two data sources, the image and text, and learn a comprehensive semantic feature presentation across the modalities. In this task, we review the extensive number of state-of-the-art approaches in MMC and leverage a novel technique that utilises the Contrastive Language-Image Pre-training (CLIP) as the feature extractor and fine-tune the model by exploring different classification heads, fusion methods and loss functions. Finally, our best result achieved more than 90% F_1 score in the public Kaggle competition leaderboard. This paper provides detailed descriptions of novel training methods and quantitative analysis through the experimental results.
- Abstract(参考訳): マルチモーダルマルチラベル分類(MMC)は、画像とテキストの2つのデータソースを扱う学習アルゴリズムを設計し、モダリティ全体にわたって包括的なセマンティックな特徴提示を学ぶことを目的とした課題である。
本稿では,MCCにおける最先端手法の多種多様さを概観し,特徴抽出器としてContrastive Language- Image Pre-Turning(CLIP)を応用し,異なる分類ヘッド,融合方法,損失関数を探索してモデルを微調整する新しい手法を活用する。
最後に、私たちの最高の成果は、パブリックなKaggleコンペティションのリーダーボードで90%以上のF_1スコアを獲得しました。
本稿では,新しいトレーニング手法の詳細な説明と,実験結果による定量的解析について述べる。
関連論文リスト
- Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Federated Multi-Task Learning on Non-IID Data Silos: An Experimental Study [17.555311732095483]
FMTLアプローチは、フェデレートラーニング(FL)とマルチタスクラーニング(MTL)の利点を統合する
本稿では,FMTLパラダイムの体系的評価のための新しいフレームワークFMTL-Benchを紹介する。
論文 参考訳(メタデータ) (2024-02-20T10:13:44Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - The Labeled Multiple Canonical Correlation Analysis for Information
Fusion [25.23035811685684]
Labeled Multiple Canonical Correlation Analysis (LMCCA) に基づくマルチモーダル情報融合と表現の新しい方法を紹介します。
LMCCAのプロトタイプを実装し,手書き文字認識,顔認識,物体認識において有効性を示す。
論文 参考訳(メタデータ) (2021-02-28T00:13:36Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。