論文の概要: What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2405.15668v1
- Date: Fri, 24 May 2024 16:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:20:55.775503
- Title: What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models
- Title(参考訳): 何が見えるか?マルチモーダル大言語モデルによるゼロショット画像分類の強化
- Authors: Abdelrahman Abdelhamed, Mahmoud Afifi, Alec Go,
- Abstract要約: マルチモーダル大言語モデル(LLM)を用いたゼロショット画像分類のための簡易かつ効果的な手法を提案する。
当社の手法では,データセット毎にプロンプトエンジニアリングを必要とせず,その代わりに,すべてのデータセットに対して単一の,直接的なプロンプトセットを使用する。
平均10以上のベンチマークで精度は4.1ポイント向上し,ImageNetデータセットでは6.8ポイント向上した。
- 参考スコア(独自算出の注目度): 11.683093317651517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) has been effectively used for many computer vision tasks, including image classification. In this paper, we present a simple yet effective approach for zero-shot image classification using multimodal LLMs. By employing multimodal LLMs, we generate comprehensive textual representations from input images. These textual representations are then utilized to generate fixed-dimensional features in a cross-modal embedding space. Subsequently, these features are fused together to perform zero-shot classification using a linear classifier. Our method does not require prompt engineering for each dataset; instead, we use a single, straightforward, set of prompts across all datasets. We evaluated our method on several datasets, and our results demonstrate its remarkable effectiveness, surpassing benchmark accuracy on multiple datasets. On average over ten benchmarks, our method achieved an accuracy gain of 4.1 percentage points, with an increase of 6.8 percentage points on the ImageNet dataset, compared to prior methods. Our findings highlight the potential of multimodal LLMs to enhance computer vision tasks such as zero-shot image classification, offering a significant improvement over traditional methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、画像分類を含む多くのコンピュータビジョンタスクに効果的に使用されている。
本稿では,マルチモーダルLLMを用いたゼロショット画像分類法を提案する。
マルチモーダル LLM を用いて,入力画像から包括的テキスト表現を生成する。
これらのテキスト表現を使用して、クロスモーダル埋め込み空間における固定次元特徴を生成する。
その後、これらの特徴を融合させて、線形分類器を用いてゼロショット分類を行う。
当社の手法では,データセット毎にプロンプトエンジニアリングを必要とせず,その代わりに,すべてのデータセットに対して単一の,直接的なプロンプトセットを使用する。
提案手法を複数のデータセットで評価し,その性能が複数のデータセットでベンチマーク精度を上回った。
平均10以上のベンチマークでは,従来の手法に比べて精度が4.1ポイント向上し,ImageNetデータセットでは6.8ポイント向上した。
本研究は、ゼロショット画像分類などのコンピュータビジョンタスクを強化するマルチモーダルLCMの可能性を強調し、従来の手法よりも大幅に改善されている。
関連論文リスト
- CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation [12.994898879803642]
CLIP-Decoderは最先端のML-Decoderアテンションベースのヘッドに基づく新しい手法である。
CLIP-Decoderにマルチモーダル表現学習を導入し、テキストエンコーダを用いてテキスト特徴と画像特徴抽出のための画像エンコーダを抽出する。
本手法は,ゼロショット学習マルチラベル分類タスクにおける既存の手法と比較して,絶対的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-06-21T02:19:26Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Dynamic MLP for Fine-Grained Image Classification by Leveraging
Geographical and Temporal Information [19.99135128298929]
きめ細かい画像分類は、様々な種が類似した視覚的外観を共有する、難しいコンピュータビジョンタスクである。
これは、データ撮影の場所や日付などの追加情報を活用するのに役立つ。
本稿では,より高次元のマルチモーダル特徴と相互作用する画像表現の上に動的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-07T10:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。