論文の概要: MuMIC -- Multimodal Embedding for Multi-label Image Classification with
Tempered Sigmoid
- arxiv url: http://arxiv.org/abs/2211.05232v1
- Date: Wed, 2 Nov 2022 17:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 23:20:45.718387
- Title: MuMIC -- Multimodal Embedding for Multi-label Image Classification with
Tempered Sigmoid
- Title(参考訳): MuMIC -- テンポ型シグモノイドを用いたマルチラベル画像分類のためのマルチモーダル埋め込み
- Authors: Fengjun Wang, Sarai Mizrachi, Moran Beladev, Guy Nadav, Gil Amsalem,
Karen Lastmann Assaraf, Hadas Harush Boker
- Abstract要約: マルチモーダル・ラーニング・アプローチは画像表現とシングルラベル画像分類において,近年顕著な成果を上げている。
硬度認識型シグモノイドをベースとしたバイナリクロスエントロピー損失関数を用いたマルチモーダルマルチラベル画像分類(MuMIC)フレームワークを提案する。
MuMICは高い分類性能を提供し、現実世界のノイズデータを処理し、ゼロショット予測をサポートし、ドメイン固有の画像埋め込みを生成する。
- 参考スコア(独自算出の注目度): 1.1452732046200158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-label image classification is a foundational topic in various domains.
Multimodal learning approaches have recently achieved outstanding results in
image representation and single-label image classification. For instance,
Contrastive Language-Image Pretraining (CLIP) demonstrates impressive
image-text representation learning abilities and is robust to natural
distribution shifts. This success inspires us to leverage multimodal learning
for multi-label classification tasks, and benefit from contrastively learnt
pretrained models. We propose the Multimodal Multi-label Image Classification
(MuMIC) framework, which utilizes a hardness-aware tempered sigmoid based
Binary Cross Entropy loss function, thus enables the optimization on
multi-label objectives and transfer learning on CLIP. MuMIC is capable of
providing high classification performance, handling real-world noisy data,
supporting zero-shot predictions, and producing domain-specific image
embeddings. In this study, a total of 120 image classes are defined, and more
than 140K positive annotations are collected on approximately 60K Booking.com
images. The final MuMIC model is deployed on Booking.com Content Intelligence
Platform, and it outperforms other state-of-the-art models with 85.6% GAP@10
and 83.8% GAP on all 120 classes, as well as a 90.1% macro mAP score across 32
majority classes. We summarize the modeling choices which are extensively
tested through ablation studies. To the best of our knowledge, we are the first
to adapt contrastively learnt multimodal pretraining for real-world multi-label
image classification problems, and the innovation can be transferred to other
domains.
- Abstract(参考訳): マルチラベル画像分類は、様々な領域において基礎的なトピックである。
マルチモーダル学習のアプローチは,近年,画像表現と単一ラベル画像分類において優れた成果を上げている。
例えば、Contrastive Language-Image Pretraining (CLIP)は印象的な画像テキスト表現学習能力を示し、自然分布シフトに対して堅牢である。
この成功は、マルチラベル分類タスクにマルチモーダル学習を活用し、コントラスト的に学習された事前学習モデルから恩恵を受けることを促します。
マルチモーダル・マルチラベル画像分類(MuMIC)フレームワークを提案する。このフレームワークは硬度対応型シグモノイドをベースとしたバイナリクロスエントロピー損失関数を用いて,複数ラベルの目的に対する最適化とCLIPでの転送学習を実現する。
MuMICは高い分類性能を提供し、現実世界のノイズデータを処理し、ゼロショット予測をサポートし、ドメイン固有の画像埋め込みを生成する。
本研究では,120以上の画像クラスを定義し,約60K Booking.com画像に140K以上の陽性アノテーションを収集する。
最終的な MuMIC モデルは Booking.com Content Intelligence Platform にデプロイされ、120 クラスすべてで 85.6% GAP@10 と 83.8% GAP の他、32 クラスのマクロ mAP スコアも 90.1% である。
アブレーション研究を通じて広範囲に検証されたモデリング選択を要約する。
我々の知る限りでは、我々は、実世界のマルチラベル画像分類問題に対して、対照的に学習したマルチモーダル事前学習に適応し、その革新を他の領域に移すことができる。
関連論文リスト
- Diverse and Tailored Image Generation for Zero-shot Multi-label Classification [3.354528906571718]
ゼロショットのマルチラベル分類は、人間のアノテーションを使わずに、目に見えないラベルで予測を実行する能力について、かなりの注目を集めている。
一般的なアプローチでは、目に見えないものに対する不完全なプロキシとしてクラスをよく使用します。
本稿では,未確認ラベル上でのプロキシレストレーニングに適したトレーニングセットを構築するために,合成データを生成する,革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2024-04-04T01:34:36Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文 参考訳(メタデータ) (2023-02-07T07:13:53Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Personalizing Pre-trained Models [23.145974171912414]
上流の事前訓練されたモデルが、下流のいくつかのショット、複数ラベル、連続的な学習タスクにどのように活用できるかを検討する。
私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。
論文 参考訳(メタデータ) (2021-06-02T22:58:47Z) - Semantic Diversity Learning for Zero-Shot Multi-label Classification [14.480713752871523]
本研究では,マルチラベルゼロショット学習のためのエンドツーエンドモデルトレーニングを提案する。
本研究では,主埋め込みベクトルを持つ埋め込み行列を用いて,調整された損失関数を用いて訓練する。
さらに, 学習中, 組込み行列の多様性を促進するために, 高い意味的多様性を示す損失関数画像サンプルの重み付けを提案する。
論文 参考訳(メタデータ) (2021-05-12T19:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。