論文の概要: Text2Model: Model Induction for Zero-shot Generalization Using Task
Descriptions
- arxiv url: http://arxiv.org/abs/2210.15182v1
- Date: Thu, 27 Oct 2022 05:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:19:49.458972
- Title: Text2Model: Model Induction for Zero-shot Generalization Using Task
Descriptions
- Title(参考訳): Text2Model:タスク記述を用いたゼロショット一般化のためのモデル誘導
- Authors: Ohad Amosy, Tomer Volk, Eyal Ben-David, Roi Reichart and Gal Chechik
- Abstract要約: 視覚サンプルを使わずにテキスト記述から学習不要なタスク依存型視覚分類器を生成する問題について検討する。
T2Mモデルはタスクに合わせたモデルを推論し、タスク内のすべてのクラスを考慮に入れます。
画像およびポイントクラウド分類におけるテキスト記述からのゼロショット学習と比較して,本手法の利点を実証する。
- 参考スコア(独自算出の注目度): 34.4109756990766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of generating a training-free task-dependent visual
classifier from text descriptions without visual samples. This
\textit{Text-to-Model} (T2M) problem is closely related to zero-shot learning,
but unlike previous work, a T2M model infers a model tailored to a task, taking
into account all classes in the task. We analyze the symmetries of T2M, and
characterize the equivariance and invariance properties of corresponding
models. In light of these properties, we design an architecture based on
hypernetworks that given a set of new class descriptions predicts the weights
for an object recognition model which classifies images from those zero-shot
classes. We demonstrate the benefits of our approach compared to zero-shot
learning from text descriptions in image and point-cloud classification using
various types of text descriptions: From single words to rich text
descriptions.
- Abstract(参考訳): 視覚サンプルのないテキスト記述から学習不要なタスク依存型視覚分類器を生成する問題について検討する。
この textit{Text-to-Model} (T2M) 問題はゼロショット学習と密接に関連しているが、以前の研究とは異なり、T2M モデルはタスクのすべてのクラスを考慮してタスクに適したモデルを推論する。
我々は, t2m の対称性を分析し, 対応するモデルの等分散性と不変性を特徴付ける。
これらの特性に照らして,ゼロショットクラスから画像を分類するオブジェクト認識モデルの重みを予測する,新しいクラス記述のセットが与えられたハイパーネットワークに基づくアーキテクチャを設計する。
我々は,画像中のテキスト記述からのゼロショット学習と,さまざまなタイプのテキスト記述を用いたポイントクラウド分類を比べて,このアプローチの利点を実証する。
関連論文リスト
- Accurate Explanation Model for Image Classifiers using Class Association Embedding [5.378105759529487]
本稿では,グローバルな知識とローカルな知識の利点を組み合わせた生成的説明モデルを提案する。
クラスアソシエーション埋め込み(CAE)は、各サンプルを1組のクラス関連コードと個別コードにエンコードする。
クラス関連特徴を個々の特徴から効率的に分離するビルディングブロック・コヒーレンシー特徴抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-12T07:41:00Z) - IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers [31.455819448471157]
生成的トレーニングは視覚言語モデルを構築する上で強力であることが示されている。
ゼロショット判別ベンチマークでは、生成的および差別的目的で訓練されたモデルの間にはまだパフォーマンスのギャップがある。
本稿では,分類作業における生成学習の有効性を向上させることにより,このギャップを狭めることを目的とする。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。