論文の概要: End-to-end Learning of a Fisher Vector Encoding for Part Features in
Fine-grained Recognition
- arxiv url: http://arxiv.org/abs/2007.02080v1
- Date: Sat, 4 Jul 2020 12:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:37:49.337360
- Title: End-to-end Learning of a Fisher Vector Encoding for Part Features in
Fine-grained Recognition
- Title(参考訳): 細粒度認識のためのフィッシャーベクトル符号化のエンドツーエンド学習
- Authors: Dimitri Korsch, Paul Bodesheim, Joachim Denzler
- Abstract要約: 部分的手法は局所的な特徴の欠如に悩まされていると仮定する。
本稿では、部分特徴のフィッシャーベクトル符号化を畳み込みニューラルネットワークに統合することを提案する。
CUB-200-2011の鳥種分類の最先端の精度は90.40%から90.95%、NA-Birdsは89.20%から90.30%、Birdsnapは84.30%から86.97%に向上した。
- 参考スコア(独自算出の注目度): 10.423464288613275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Part-based approaches for fine-grained recognition do not show the expected
performance gain over global methods, although being able to explicitly focus
on small details that are relevant for distinguishing highly similar classes.
We assume that part-based methods suffer from a missing representation of local
features, which is invariant to the order of parts and can handle a varying
number of visible parts appropriately. The order of parts is artificial and
often only given by ground-truth annotations, whereas viewpoint variations and
occlusions result in parts that are not observable. Therefore, we propose
integrating a Fisher vector encoding of part features into convolutional neural
networks. The parameters for this encoding are estimated jointly with those of
the neural network in an end-to-end manner. Our approach improves
state-of-the-art accuracies for bird species classification on CUB-200-2011
from 90.40\% to 90.95\%, on NA-Birds from 89.20\% to 90.30\%, and on Birdsnap
from 84.30\% to 86.97\%.
- Abstract(参考訳): きめ細かい認識のための部分ベースのアプローチは、グローバルメソッドよりも期待されるパフォーマンス向上を示すものではないが、非常に類似したクラスを識別するための小さな詳細に明示的に焦点を合わせることができる。
部分的手法は局所的な特徴の欠如に悩まされ、部品の順序に不変であり、様々な可視部品を適切に扱うことができると仮定する。
部品の順序は人工的なものであり、しばしば地上のアノテーションのみによって与えられるが、視点の変化や閉塞は観察できない部分をもたらす。
そこで本研究では,部分特徴のフィッシャーベクトル符号化を畳み込みニューラルネットワークに統合する。
この符号化のパラメータは、エンドツーエンドでニューラルネットワークのパラメータと共同で推定される。
本研究は,CUB-200-2011における鳥種分類の最先端精度を90.40-%から90.95-%,NA-Birds 89.20-%から90.30-%,Birdsnap 84.30-%から86.97-%に改善する。
関連論文リスト
- Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Point Cloud Registration using Representative Overlapping Points [10.843159482657303]
本稿では,登録のための識別機能を備えた代表オーバーラップポイントを用いた新しいディープラーニングモデル ROPNetを提案する。
具体的には,エンコーダを用いてポイントオーバーラップスコアの予測にグローバルな特徴を抽出するコンテキスト誘導モジュールを提案する。
ノイズと部分重なり合う点雲を用いたModelNet40上での実験により,提案手法が従来の学習手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-07-06T12:52:22Z) - Zero-Shot Learning from Adversarial Feature Residual to Compact Visual
Feature [26.89763840782029]
ゼロショット学習(ZSL)のためのコンパクトなセマンティックな視覚特徴を合成する新しい対向ネットワークを提案する。
残差発生器は、プロトタイプ予測器を介して予測される視覚的プロトタイプと統合された視覚的特徴残差を生成する。
判別器は、既存の分類CNNから抽出された実物と合成視覚特徴を区別する。
論文 参考訳(メタデータ) (2020-08-29T11:16:11Z) - Interpretable and Accurate Fine-grained Recognition via Region Grouping [14.28113520947247]
微粒な視覚認識のための解釈可能な深層モデルを提案する。
私たちの手法の中核は、ディープニューラルネットワーク内での領域ベースの部分発見と帰属の統合です。
本研究は,分類タスクの最先端手法と比較した。
論文 参考訳(メタデータ) (2020-05-21T01:18:26Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。