論文の概要: Prompting Scientific Names for Zero-Shot Species Recognition
- arxiv url: http://arxiv.org/abs/2310.09929v1
- Date: Sun, 15 Oct 2023 19:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:19:48.373870
- Title: Prompting Scientific Names for Zero-Shot Species Recognition
- Title(参考訳): ゼロショット種認識のための科学名の提案
- Authors: Shubham Parashar, Zhiqiu Lin, Yanan Li, Shu Kong
- Abstract要約: CLIPのような視覚言語モデル(VLM)は、ゼロショット方式で共通のオブジェクトの画像を認識することができる。
学名はラテン語やギリシア語で書かれる鳥、植物、動物の種など、概念のゼロショット認識にCLIPを使う方法が解明されていない。
私たちは、CLIPのトレーニングセットに共通の名前が入りやすいことを発見し、より詳細な種認識のベンチマークデータセットにおいて、2$sim$5の精度を達成するように促している。
- 参考スコア(独自算出の注目度): 13.390054863264824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trained on web-scale image-text pairs, Vision-Language Models (VLMs) such as
CLIP can recognize images of common objects in a zero-shot fashion. However, it
is underexplored how to use CLIP for zero-shot recognition of highly
specialized concepts, e.g., species of birds, plants, and animals, for which
their scientific names are written in Latin or Greek. Indeed, CLIP performs
poorly for zero-shot species recognition with prompts that use scientific
names, e.g., "a photo of Lepus Timidus" (which is a scientific name in Latin).
Because these names are usually not included in CLIP's training set. To improve
performance, prior works propose to use large-language models (LLMs) to
generate descriptions (e.g., of species color and shape) and additionally use
them in prompts. We find that they bring only marginal gains. Differently, we
are motivated to translate scientific names (e.g., Lepus Timidus) to common
English names (e.g., mountain hare) and use such in the prompts. We find that
common names are more likely to be included in CLIP's training set, and
prompting them achieves 2$\sim$5 times higher accuracy on benchmarking datasets
of fine-grained species recognition.
- Abstract(参考訳): ウェブスケールの画像テキストペアに基づいてトレーニングされたCLIPのようなビジョン言語モデル(VLM)は、ゼロショット方式で共通のオブジェクトの画像を認識することができる。
しかし、その科学的名称がラテン語やギリシア語で書かれる鳥、植物、動物の種など、高度に専門的な概念をゼロショットで認識するためにクリップをどのように使うかは未検討である。
事実、CLIPはゼロショット種認識において、科学的な名前を使うプロンプト、例えば「Lepus Timidusの写真」(ラテン語で科学的な名前)では不十分である。
これらの名前は通常、CLIPのトレーニングセットには含まれない。
性能を向上させるために、先行研究では、大型言語モデル(LLM)を使用して記述(例えば種の色と形)を生成し、さらにプロンプトに使用することを提案した。
彼らは限界利得しか持っていない。
異なることに、我々は科学的な名前(例:レプス・ティミドゥス)を一般的な英語名(例:マウンテンヘア)に翻訳し、プロンプトで使用する動機がある。
私たちは、一般的な名前がクリップのトレーニングセットに含まれる可能性が高いことを発見し、細粒度の種認識のベンチマークデータセットの精度を2$\sim$5倍向上させるように促した。
関連論文リスト
- Data Alignment for Zero-Shot Concept Generation in Dermatology AI [0.6906005491572401]
ゼロショット機能を提供するCLIPのようなファンデーションモデルは、この課題を軽減するのに役立つ。
CLIPは、ドメイン固有のイメージキャプチャペアを使用して微調整することで、分類性能を改善することができる。
私たちのゴールは、これらのモデルを使用して、臨床辞書とCLIPの事前学習データに使用される自然言語の両方に適合するキャプションテキストを生成することです。
論文 参考訳(メタデータ) (2024-04-19T17:57:29Z) - What do we learn from inverting CLIP models? [116.14073114908614]
CLIPモデルを反転すると、指定されたターゲットプロンプトとセマンティックアライメントを示すイメージが生成される。
これらの逆画像を利用して、CLIPモデルの様々な側面について洞察を得る。
論文 参考訳(メタデータ) (2024-03-05T01:32:29Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - What does a platypus look like? Generating customized prompts for
zero-shot image classification [52.92839995002636]
この研究は、タスクドメインの明示的な知識に頼ることなく、より高精度なプロンプトを生成するシンプルな方法を導入する。
我々は,大言語モデル(LLM)に含まれる知識を活用し,画像カテゴリの重要な識別特性を含む多くの記述文を生成する。
このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文 参考訳(メタデータ) (2022-09-07T17:27:08Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。