論文の概要: Follow-Up Differential Descriptions: Language Models Resolve Ambiguities
for Image Classification
- arxiv url: http://arxiv.org/abs/2311.07593v1
- Date: Fri, 10 Nov 2023 05:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 17:08:16.100469
- Title: Follow-Up Differential Descriptions: Language Models Resolve Ambiguities
for Image Classification
- Title(参考訳): Follow-Up Differential Descriptions: 言語モデルが画像分類の曖昧性を解消する
- Authors: Reza Esfandiarpoor, Stephen H. Bach
- Abstract要約: Follow-up Differential Descriptions (FuDD)は、クラス記述を各データセットに合わせて調整するゼロショットアプローチである。
FuDDはまず各画像のあいまいなクラスを特定し、次にLarge Language Model(LLM)を使用して、それらの区別する新しいクラス記述を生成する。
FuDD は,12 個のデータセットに対して,汎用的な記述アンサンブルやナイーブな LLM 生成記述を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 9.737372288175935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A promising approach for improving the performance of vision-language models
like CLIP for image classification is to extend the class descriptions (i.e.,
prompts) with related attributes, e.g., using brown sparrow instead of sparrow.
However, current zero-shot methods select a subset of attributes regardless of
commonalities between the target classes, potentially providing no useful
information that would have helped to distinguish between them. For instance,
they may use color instead of bill shape to distinguish between sparrows and
wrens, which are both brown. We propose Follow-up Differential Descriptions
(FuDD), a zero-shot approach that tailors the class descriptions to each
dataset and leads to additional attributes that better differentiate the target
classes. FuDD first identifies the ambiguous classes for each image, and then
uses a Large Language Model (LLM) to generate new class descriptions that
differentiate between them. The new class descriptions resolve the initial
ambiguity and help predict the correct label. In our experiments, FuDD
consistently outperforms generic description ensembles and naive LLM-generated
descriptions on 12 datasets. We show that differential descriptions are an
effective tool to resolve class ambiguities, which otherwise significantly
degrade the performance. We also show that high quality natural language class
descriptions produced by FuDD result in comparable performance to few-shot
adaptation methods.
- Abstract(参考訳): 画像分類のためのCLIPのような視覚言語モデルの性能を改善するための有望なアプローチは、クラス記述(即ちプロンプト)を関連属性で拡張することである。
しかし、現在のゼロショットメソッドは、ターゲットクラス間の共通性に関係なく属性のサブセットを選択し、それらの区別に役立つ有用な情報を提供しない可能性がある。
例えば、スズメとレンを区別するために色の代わりに色を使うこともあるが、どちらも茶色である。
Follow-up Differential Descriptions (FuDD) は、クラス記述を各データセットに合わせるゼロショットアプローチであり、ターゲットクラスをよりよく区別する追加属性をもたらす。
FuDDはまず各画像のあいまいなクラスを特定し、次にLarge Language Model(LLM)を使用して、それらの区別する新しいクラス記述を生成する。
新しいクラス記述は、最初の曖昧さを解決し、正しいラベルを予測するのに役立つ。
実験では、fuddは12のデータセットにおいて、ジェネリック記述アンサンブルとナイーブなllm生成記述を一貫して上回っている。
差分記述はクラス曖昧性の解消に有効なツールであり,それ以外は性能を著しく低下させることを示す。
また,fuddが生成する高品質自然言語クラス記述は,少数の適応法に匹敵する性能を示す。
関連論文リスト
- Enhancing Visual Classification using Comparative Descriptors [13.094102298155736]
比較記述子という新しい概念を導入する。
これらの記述子は、最も類似したクラスに対してターゲットクラスのユニークな特徴を強調し、差別化を強化する。
追加のフィルタリングプロセスにより、これらのディスクリプタがCLIP空間のイメージ埋め込みに近いことが保証される。
論文 参考訳(メタデータ) (2024-11-08T06:28:02Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Few-shot Learner Parameterization by Diffusion Time-steps [133.98320335394004]
大規模なマルチモーダル・ファンデーション・モデルを使用する場合、ほとんどショット・ラーニングは難しい。
我々は、失った属性を補うために、時間ステップFew-shot(TiF)学習者を提案する。
TiF学習者は、OpenCLIPとそのアダプタを様々な細粒度でカスタマイズされた数発の学習タスクで大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-05T04:38:13Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:03:46Z) - What does a platypus look like? Generating customized prompts for
zero-shot image classification [52.92839995002636]
この研究は、タスクドメインの明示的な知識に頼ることなく、より高精度なプロンプトを生成するシンプルな方法を導入する。
我々は,大言語モデル(LLM)に含まれる知識を活用し,画像カテゴリの重要な識別特性を含む多くの記述文を生成する。
このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文 参考訳(メタデータ) (2022-09-07T17:27:08Z) - Attribute Group Editing for Reliable Few-shot Image Generation [85.52840521454411]
本稿では,画像生成のための新しい編集手法,すなわちAttribute Group Editing (AGE)を提案する。
AGEは、GANで学んだ内部表現を調べ、意味的に意味のある方向を識別する。
論文 参考訳(メタデータ) (2022-03-16T06:54:09Z) - Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。
APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-24T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。