論文の概要: Rethinking Generative Zero-Shot Learning: An Ensemble Learning
Perspective for Recognising Visual Patches
- arxiv url: http://arxiv.org/abs/2007.13314v3
- Date: Fri, 7 Aug 2020 01:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 09:04:21.634578
- Title: Rethinking Generative Zero-Shot Learning: An Ensemble Learning
Perspective for Recognising Visual Patches
- Title(参考訳): 生成的ゼロショット学習の再検討 : 視覚パッチ認識のためのアンサンブル学習視点
- Authors: Zhi Chen, Sen Wang, Jingjing Li, Zi Huang
- Abstract要約: 我々はMPGAN(Multi-patch Generative Adversarial Nets)と呼ばれる新しいフレームワークを提案する。
MPGANは、新しい重み付き投票戦略で、ローカルパッチ機能とラベルが見えないクラスを合成する。
MPGANは最先端の手法よりもはるかに精度が高い。
- 参考スコア(独自算出の注目度): 52.67723703088284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) is commonly used to address the very pervasive
problem of predicting unseen classes in fine-grained image classification and
other tasks. One family of solutions is to learn synthesised unseen visual
samples produced by generative models from auxiliary semantic information, such
as natural language descriptions. However, for most of these models,
performance suffers from noise in the form of irrelevant image backgrounds.
Further, most methods do not allocate a calculated weight to each semantic
patch. Yet, in the real world, the discriminative power of features can be
quantified and directly leveraged to improve accuracy and reduce computational
complexity. To address these issues, we propose a novel framework called
multi-patch generative adversarial nets (MPGAN) that synthesises local patch
features and labels unseen classes with a novel weighted voting strategy. The
process begins by generating discriminative visual features from noisy text
descriptions for a set of predefined local patches using multiple specialist
generative models. The features synthesised from each patch for unseen classes
are then used to construct an ensemble of diverse supervised classifiers, each
corresponding to one local patch. A voting strategy averages the probability
distributions output from the classifiers and, given that some patches are more
discriminative than others, a discrimination-based attention mechanism helps to
weight each patch accordingly. Extensive experiments show that MPGAN has
significantly greater accuracy than state-of-the-art methods.
- Abstract(参考訳): ゼロショット学習(ZSL)は、きめ細かい画像分類やその他のタスクにおいて、目に見えないクラスを予測するという非常に広範囲な問題に対処するために一般的に用いられる。
ソリューションの1つのファミリーは、自然言語記述のような補助的な意味情報から生成モデルによって生成された合成未認識の視覚的サンプルを学ぶことである。
しかしながら、ほとんどのモデルでは、パフォーマンスは無関係な画像背景の形でノイズに悩まされる。
さらに、ほとんどのメソッドは各セマンティックパッチに計算された重みを割り当てない。
しかし、現実世界では、特徴の識別力が定量化され、直接的に活用され、精度を改善し、計算複雑性を減らすことができる。
これらの問題に対処するため,我々は,局所的なパッチ特徴とラベルを新たな重み付き投票戦略で合成するMPGAN(Multi-patch Generative Adversarial Nets)という新しいフレームワークを提案する。
このプロセスは、複数のスペシャリスト生成モデルを使用して、事前定義されたローカルパッチのセットに対して、ノイズの多いテキスト記述から識別可能な視覚的特徴を生成することから始まります。
その後、各パッチから合成された特徴は、各ローカルパッチに対応する様々な教師付き分類器のアンサンブルを構築するために使用される。
投票戦略は、分類器から出力される確率分布を平均化し、あるパッチが他のパッチよりも差別的であることを考慮すれば、識別に基づく注意機構は各パッチの重み付けに役立つ。
大規模な実験により、MPGANは最先端の手法よりもはるかに精度が高いことが示された。
関連論文リスト
- Accurate Explanation Model for Image Classifiers using Class Association Embedding [5.378105759529487]
本稿では,グローバルな知識とローカルな知識の利点を組み合わせた生成的説明モデルを提案する。
クラスアソシエーション埋め込み(CAE)は、各サンプルを1組のクラス関連コードと個別コードにエンコードする。
クラス関連特徴を個々の特徴から効率的に分離するビルディングブロック・コヒーレンシー特徴抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-12T07:41:00Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Simplified Concrete Dropout -- Improving the Generation of Attribution
Masks for Fine-grained Classification [8.330791157878137]
細粒度分類モデルは、しばしば自動化された動物監視システムにおいて動物種または個体を特定するために展開される。
注意に基づく手法や勾配に基づく手法は、分類決定に最も寄与する画像内の領域を特定するために一般的に用いられる。
本稿では,CDサンプリングを簡略化し,大規模なミニバッチサイズへの依存を減らすことにより,これらの計算不安定を回避できるソリューションを提案する。
論文 参考訳(メタデータ) (2023-07-27T13:01:49Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - PatchMix Augmentation to Identify Causal Features in Few-shot Learning [55.64873998196191]
少ないショット学習は、十分なカテゴリをラベル付けしたデータに基づいて学習した知識を、少ない既知の情報を持つ新しいカテゴリに転送することを目的としている。
我々はPatchMixと呼ばれる新しいデータ拡張戦略を提案し、この急激な依存関係を壊すことができる。
このような拡張メカニズムが,既存のメカニズムと異なり,因果的特徴を識別可能であることを示す。
論文 参考訳(メタデータ) (2022-11-29T08:41:29Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Weakly Supervised Semantic Segmentation via Progressive Patch Learning [39.87150496277798]
分類の局所的詳細抽出を改善するために「プログレッシブ・パッチ・ラーニング」アプローチを提案する。
は、機能マップをパッチに分解し、最終的なアグリゲーションの前に各ローカルパッチを独立して処理する。
プログレッシブ・パッチ・ラーニング(Progressive Patch Learning)は、特徴の破壊とパッチ・ラーニングをさらにプログレッシブな方法で多段階の粒度に拡張する。
論文 参考訳(メタデータ) (2022-09-16T09:54:17Z) - Towards Unbiased Multi-label Zero-Shot Learning with Pyramid and
Semantic Attention [14.855116554722489]
マルチラベルゼロショット学習は、各入力サンプルに対して、複数の未確認クラスのラベルを認識することを目的としている。
本稿では,多様なクラス固有の領域を考慮し,非バイアス付きマルチラベルゼロショット学習の枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-07T15:52:46Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。