論文の概要: I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification
- arxiv url: http://arxiv.org/abs/2212.02291v1
- Date: Mon, 5 Dec 2022 14:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:42:08.269750
- Title: I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification
- Title(参考訳): i2mvformer: ゼロショット画像分類のための大規模言語モデル生成マルチビュー文書管理
- Authors: Muhammad Ferjad Naeem, Muhammad Gul Zain Ali Khan, Yongqin Xian,
Muhammad Zeshan Afzal, Didier Stricker, Luc Van Gool, Federico Tombari
- Abstract要約: Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
- 参考スコア(独自算出の注目度): 108.83932812826521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that unstructured text (documents) from online
sources can serve as useful auxiliary information for zero-shot image
classification. However, these methods require access to a high-quality source
like Wikipedia and are limited to a single source of information. Large
Language Models (LLM) trained on web-scale text show impressive abilities to
repurpose their learned knowledge for a multitude of tasks. In this work, we
provide a novel perspective on using an LLM to provide text supervision for a
zero-shot image classification model. The LLM is provided with a few text
descriptions from different annotators as examples. The LLM is conditioned on
these examples to generate multiple text descriptions for each class(referred
to as views). Our proposed model, I2MVFormer, learns multi-view semantic
embeddings for zero-shot image classification with these class views. We show
that each text view of a class provides complementary information allowing a
model to learn a highly discriminative class embedding. Moreover, we show that
I2MVFormer is better at consuming the multi-view text supervision from LLM
compared to baseline models. I2MVFormer establishes a new state-of-the-art on
three public benchmark datasets for zero-shot image classification with
unsupervised semantic embeddings.
- Abstract(参考訳): 近年の研究では、オンラインソースからの非構造化テキスト(文書)がゼロショット画像分類の補助情報として役立つことが示されている。
しかし、これらの手法はウィキペディアのような高品質な情報源にアクセスする必要があり、単一の情報源に限られる。
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
本研究では,ゼロショット画像分類モデルのためのテキスト管理を行うためにLLMを用いた新しい視点を提供する。
LLMは、様々なアノテーションからのテキスト記述を例に挙げている。
LLMはこれらの例で条件付きで、クラスごとに複数のテキスト記述を生成する(ビューとして参照)。
提案するモデルであるI2MVFormerは,クラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
クラスの各テキストビューは、モデルが高度に識別可能なクラス埋め込みを学習できるようにする補完情報を提供する。
さらに, I2MVFormerは, ベースラインモデルと比較して, LLMのマルチビューテキスト管理に優れていることを示す。
i2mvformerは、教師なしのセマンティクス埋め込みによるゼロショット画像分類のための3つの公開ベンチマークデータセットで、新しい最先端のデータセットを確立している。
関連論文リスト
- Large Language Models are Good Prompt Learners for Low-Shot Image Classification [12.053713356249695]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-07T06:43:34Z) - Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。