Fugu-MT 論文翻訳(概要): Text2Model: Text-based Model Induction for Zero-shot Image Classification

論文の概要: Text2Model: Text-based Model Induction for Zero-shot Image Classification

arxiv url: http://arxiv.org/abs/2210.15182v3
Date: Mon, 30 Sep 2024 08:16:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 23:19:01.631691
Title: Text2Model: Text-based Model Induction for Zero-shot Image Classification
Title（参考訳）: Text2Model:ゼロショット画像分類のためのテキストベースモデル誘導
Authors: Ohad Amosy, Tomer Volk, Eilam Shapira, Eyal Ben-David, Roi Reichart, Gal Chechik,
Abstract要約: テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
参考スコア（独自算出の注目度）: 38.704831945753284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the challenge of building task-agnostic classifiers using only text descriptions, demonstrating a unified approach to image classification, 3D point cloud classification, and action recognition from scenes. Unlike approaches that learn a fixed representation of the output classes, we generate at inference time a model tailored to a query classification task. To generate task-based zero-shot classifiers, we train a hypernetwork that receives class descriptions and outputs a multi-class model. The hypernetwork is designed to be equivariant with respect to the set of descriptions and the classification layer, thus obeying the symmetries of the problem and improving generalization. Our approach generates non-linear classifiers, handles rich textual descriptions, and may be adapted to produce lightweight models efficient enough for on-device applications. We evaluate this approach in a series of zero-shot classification tasks, for image, point-cloud, and action recognition, using a range of text descriptions: From single words to rich descriptions. Our results demonstrate strong improvements over previous approaches, showing that zero-shot learning can be applied with little training data. Furthermore, we conduct an analysis with foundational vision and language models, demonstrating that they struggle to generalize when describing what attributes the class lacks.
Abstract（参考訳）: テキスト記述のみを用いてタスク非依存の分類器を構築することの課題に対処し、画像分類、3Dポイントクラウド分類、シーンからのアクション認識に対する統一的なアプローチを示す。出力クラスの固定表現を学習するアプローチとは異なり、クエリ分類タスクに適合したモデルを推論時に生成する。タスクベースのゼロショット分類器を生成するために,クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを訓練する。ハイパーネットワークは記述の集合や分類層に対して同変的に設計されており、この問題の対称性に従い、一般化を改善する。提案手法は,非線形分類器を生成し,リッチなテキスト記述を処理し,オンデバイスアプリケーションに十分な効率で軽量なモデルを生成することができる。我々は,この手法を画像,ポイントクラウド,行動認識などのゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。以上の結果から,ゼロショット学習を学習データに応用できることが示唆された。さらに、基礎的なビジョンと言語モデルを用いて分析を行い、クラスに欠けている属性を記述する際に、一般化に苦慮していることを示す。

関連論文リスト

Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
Accurate Explanation Model for Image Classifiers using Class Association Embedding [5.378105759529487]
本稿では,グローバルな知識とローカルな知識の利点を組み合わせた生成的説明モデルを提案する。クラスアソシエーション埋め込み(CAE)は、各サンプルを1組のクラス関連コードと個別コードにエンコードする。クラス関連特徴を個々の特徴から効率的に分離するビルディングブロック・コヒーレンシー特徴抽出アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-12T07:41:00Z)
IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers [31.455819448471157]
生成的トレーニングは視覚言語モデルを構築する上で強力であることが示されている。ゼロショット判別ベンチマークでは、生成的および差別的目的で訓練されたモデルの間にはまだパフォーマンスのギャップがある。本稿では,分類作業における生成学習の有効性を向上させることにより,このギャップを狭めることを目的とする。
論文参考訳（メタデータ） (2023-11-27T19:00:06Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
GIST: Generating Image-Specific Text for Fine-grained Object Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文参考訳（メタデータ） (2023-07-21T02:47:18Z)
Text Descriptions are Compressive and Invariant Representations for Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文参考訳（メタデータ） (2023-07-10T03:06:45Z)
LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文参考訳（メタデータ） (2023-07-04T06:54:01Z)
Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。標準の2段階オブジェクト検出器アーキテクチャを採用する。言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文参考訳（メタデータ） (2023-06-08T18:31:56Z)
No Token Left Behind: Explainability-Aided Image Classification and Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文参考訳（メタデータ） (2022-04-11T07:16:39Z)
Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2021-08-13T10:43:20Z)
Learning and Evaluating Representations for Deep One-class Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文参考訳（メタデータ） (2020-11-04T23:33:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。