論文の概要: LMM-Regularized CLIP Embeddings for Image Classification
- arxiv url: http://arxiv.org/abs/2412.11663v1
- Date: Mon, 16 Dec 2024 11:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:55:14.191825
- Title: LMM-Regularized CLIP Embeddings for Image Classification
- Title(参考訳): 画像分類のためのLMM正規化CLIP埋め込み
- Authors: Maria Tzelepi, Vasileios Mezaris,
- Abstract要約: 我々は,強力なCLIPビジョン言語モデルを用いた画像分類タスクに対処する。
本稿では,LMMに基づく正規化手法を提案する。
このようにして、識別能力を増強した埋め込みを生成する。
- 参考スコア(独自算出の注目度): 11.801596051153725
- License:
- Abstract: In this paper we deal with image classification tasks using the powerful CLIP vision-language model. Our goal is to advance the classification performance using the CLIP's image encoder, by proposing a novel Large Multimodal Model (LMM) based regularization method. The proposed method uses an LMM to extract semantic descriptions for the images of the dataset. Then, it uses the CLIP's text encoder, frozen, in order to obtain the corresponding text embeddings and compute the mean semantic class descriptions. Subsequently, we adapt the CLIP's image encoder by adding a classification head, and we train it along with the image encoder output, apart from the main classification objective, with an additional auxiliary objective. The additional objective forces the embeddings at the image encoder's output to become similar to their corresponding LMM-generated mean semantic class descriptions. In this way, it produces embeddings with enhanced discrimination ability, leading to improved classification performance. The effectiveness of the proposed regularization method is validated through extensive experiments on three image classification datasets.
- Abstract(参考訳): 本稿では,強力なCLIPビジョン言語モデルを用いた画像分類タスクについて述べる。
我々のゴールは、CLIPのイメージエンコーダを用いて、新しいLMMベースの正規化手法を提案することで、分類性能を向上させることである。
提案手法はLMMを用いてデータセットの画像のセマンティック記述を抽出する。
次に、CLIPのテキストエンコーダを使用し、対応するテキスト埋め込みを取得し、平均的なセマンティッククラス記述を計算する。
その後、分類ヘッドを追加してCLIPのイメージエンコーダを適応させ、画像エンコーダ出力とともに学習する。
追加の目的は、イメージエンコーダの出力への埋め込みを、対応するLMM生成した平均的なセマンティッククラス記述に類似するように強制する。
このようにして、識別能力が向上した埋め込みを生成し、分類性能が向上する。
提案手法の有効性は,3つの画像分類データセットに対する広範囲な実験により検証した。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation [12.994898879803642]
CLIP-Decoderは最先端のML-Decoderアテンションベースのヘッドに基づく新しい手法である。
CLIP-Decoderにマルチモーダル表現学習を導入し、テキストエンコーダを用いてテキスト特徴と画像特徴抽出のための画像エンコーダを抽出する。
本手法は,ゼロショット学習マルチラベル分類タスクにおける既存の手法と比較して,絶対的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-06-21T02:19:26Z) - Disturbing Image Detection Using LMM-Elicited Emotion Embeddings [11.801596051153725]
大規模マルチモーダルモデル(LMM)に符号化された知識を生かしたDID(Disturbing Image Detection)の課題に対処する。
まず、ジェネリックセマンティックな記述を抽出し、次に、誘惑された感情を抽出してLMMの知識を活用することを提案する。
提案手法はベースライン分類精度を著しく向上させ, 改良されたディスチャビング画像検出データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-18T14:41:04Z) - Exploiting LMM-based knowledge for image classification tasks [11.801596051153725]
画像のセマンティック記述の抽出にはMiniGPT-4モデルを用いる。
本稿では,MiniGPT-4の生成する意味記述に対応するテキスト埋め込みを得るために,テキストエンコーダを付加的に使用することを提案する。
3つのデータセットに対する実験的な評価は,LMMに基づく知識を活用した分類性能の向上を実証する。
論文 参考訳(メタデータ) (2024-06-05T08:56:24Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - ChatGPT-Powered Hierarchical Comparisons for Image Classification [12.126353699873281]
大規模言語モデル(LLM)に基づく画像分類のための新しいフレームワークを提案する。
クラスを階層に分類し、階層レベルで画像テキストの埋め込みを比較して分類し、直感的で効果的で説明可能なアプローチをもたらす。
論文 参考訳(メタデータ) (2023-11-01T00:26:40Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。