論文の概要: Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class
- arxiv url: http://arxiv.org/abs/2404.16717v1
- Date: Thu, 25 Apr 2024 16:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:10:51.016459
- Title: Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class
- Title(参考訳): 多様性を受け入れる:クラス毎に1つのベクトルを超えた解釈可能なゼロショット分類
- Authors: Mazda Moayeri, Michael Rabbat, Mark Ibrahim, Diane Bouchacourt,
- Abstract要約: クラス内の多様性を表現するために、ゼロショット分類は単一のベクトルを超えるべきであると論じる。
そこで本研究では,ゼロショット設定において,推論属性を用いたクラス内の多様性のエンコードと説明を行う手法を提案する。
提案手法は,大規模なデータセット群に対して,標準ゼロショット分類よりも一貫して優れることがわかった。
- 参考スコア(独自算出の注目度): 16.101460010750458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models enable open-world classification of objects without the need for any retraining. While this zero-shot paradigm marks a significant advance, even today's best models exhibit skewed performance when objects are dissimilar from their typical depiction. Real world objects such as pears appear in a variety of forms -- from diced to whole, on a table or in a bowl -- yet standard VLM classifiers map all instances of a class to a \it{single vector based on the class label}. We argue that to represent this rich diversity within a class, zero-shot classification should move beyond a single vector. We propose a method to encode and account for diversity within a class using inferred attributes, still in the zero-shot setting without retraining. We find our method consistently outperforms standard zero-shot classification over a large suite of datasets encompassing hierarchies, diverse object states, and real-world geographic diversity, as well finer-grained datasets where intra-class diversity may be less prevalent. Importantly, our method is inherently interpretable, offering faithful explanations for each inference to facilitate model debugging and enhance transparency. We also find our method scales efficiently to a large number of attributes to account for diversity -- leading to more accurate predictions for atypical instances. Finally, we characterize a principled trade-off between overall and worst class accuracy, which can be tuned via a hyperparameter of our method. We hope this work spurs further research into the promise of zero-shot classification beyond a single class vector for capturing diversity in the world, and building transparent AI systems without compromising performance.
- Abstract(参考訳): ビジョン言語モデルは、再トレーニングを必要とせずに、オープンワールドのオブジェクト分類を可能にする。
このゼロショットのパラダイムは大きな進歩であるが、現在の最高のモデルでさえ、オブジェクトが典型的な描写と異なるときに歪んだパフォーマンスを示す。
pearsのような現実世界のオブジェクトは、テーブル上やボウル上など、さまざまな形式で表示されますが、標準的なVLM分類器は、クラスのすべてのインスタンスをクラスラベルに基づいて \it{single ベクトルにマップします。
クラス内でこの豊富な多様性を表現するために、ゼロショット分類は1つのベクトルを超えるべきであると論じる。
そこで本研究では,ゼロショット設定において,推論属性を用いたクラス内の多様性のエンコードと説明を行う手法を提案する。
提案手法は,階層,多様なオブジェクト状態,現実世界の地理的多様性を含む大規模なデータセット群と,クラス内多様性があまり普及しないような細粒度データセットに対して,標準ゼロショット分類を一貫して上回っている。
重要なことは、本手法は本質的に解釈可能であり、モデルデバッグを容易にし透明性を高めるために、各推論に忠実な説明を提供する。
また、多様性を考慮に入れた多数の属性に効率的にスケールすることで、非定型インスタンスのより正確な予測を可能にします。
最後に、本手法のハイパーパラメータによって調整可能な、全体と最悪のクラスの精度のトレードオフを特徴付ける。
この研究は、世界中の多様性を捉え、パフォーマンスを損なうことなく透明なAIシステムを構築するために、単一のクラスベクトルを超えたゼロショット分類の約束について、さらなる研究を促すことを願っている。
関連論文リスト
- Improve Meta-learning for Few-Shot Text Classification with All You Can Acquire from the Tasks [10.556477506959888]
既存の手法は、しばしばサポートセットのサンプルから正確なクラスプロトタイプを描くのに困難に遭遇する。
近年のアプローチでは、外部知識や事前訓練された言語モデルを組み込んでデータを拡張しようとするが、追加のリソースが必要になる。
本稿では,タスク自体の情報を適切に活用した新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-14T12:47:11Z) - LLM meets Vision-Language Models for Zero-Shot One-Class Classification [4.094697851983375]
ゼロショットワンクラス視覚分類の問題を考える。
本稿では、視覚的に混乱するオブジェクトに対して、まず大きな言語モデルをクエリする2段階のソリューションを提案する。
我々は,そのラベルのみを用いて,あるカテゴリと他のセマンティック関連カテゴリを識別する能力を初めて示す。
論文 参考訳(メタデータ) (2024-03-31T12:48:07Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Multi-Class Classification from Single-Class Data with Confidences [90.48669386745361]
本稿では,損失/モデル/最適化非依存のリスク最小化フレームワークを提案する。
提案手法は, 与えられた信頼度が高ノイズであっても, 簡易な修正でベイズ整合性を示す。
論文 参考訳(メタデータ) (2021-06-16T15:38:13Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Meta Learning for Few-Shot One-class Classification [0.0]
メタ学習問題として,一級分類における意味のある特徴の学習を定式化する。
これらの表現を学習するには、類似したタスクからのマルチクラスデータのみが必要である。
数ショットの分類データセットを、数ショットの1クラスの分類シナリオに適応させることで、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2020-09-11T11:35:28Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z) - Weakly-supervised Object Localization for Few-shot Learning and
Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。
本稿では,自己認識型補完モジュール(SACモジュール)を提案する。
また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文 参考訳(メタデータ) (2020-03-02T14:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。