論文の概要: Multi-View Active Fine-Grained Recognition
- arxiv url: http://arxiv.org/abs/2206.01153v1
- Date: Thu, 2 Jun 2022 17:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 16:07:31.779552
- Title: Multi-View Active Fine-Grained Recognition
- Title(参考訳): 多視点アクティブファイングラインド認識
- Authors: Ruoyi Du, Wenqing Yu, Heqing Wang, Dongliang Chang, Ting-En Lin,
Yongbin Li, Zhanyu Ma
- Abstract要約: 細粒度視覚分類(FGVC)は数十年間開発されている。
識別情報は、目に見えない地域だけでなく、他の目に見えない視点にも隠されている。
アクティブなビュー選択による効率的な認識を実現するための政策段階に基づくフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.980409725777292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As fine-grained visual classification (FGVC) being developed for decades,
great works related have exposed a key direction -- finding discriminative
local regions and revealing subtle differences. However, unlike identifying
visual contents within static images, for recognizing objects in the real
physical world, discriminative information is not only present within seen
local regions but also hides in other unseen perspectives. In other words, in
addition to focusing on the distinguishable part from the whole, for efficient
and accurate recognition, it is required to infer the key perspective with a
few glances, e.g., people may recognize a "Benz AMG GT" with a glance of its
front and then know that taking a look at its exhaust pipe can help to tell
which year's model it is. In this paper, back to reality, we put forward the
problem of active fine-grained recognition (AFGR) and complete this study in
three steps: (i) a hierarchical, multi-view, fine-grained vehicle dataset is
collected as the testbed, (ii) a simple experiment is designed to verify that
different perspectives contribute differently for FGVC and different categories
own different discriminative perspective, (iii) a policy-gradient-based
framework is adopted to achieve efficient recognition with active view
selection. Comprehensive experiments demonstrate that the proposed method
delivers a better performance-efficient trade-off than previous FGVC methods
and advanced neural networks.
- Abstract(参考訳): 何十年もの間、きめ細かい視覚分類(FGVC)が開発されてきたため、関連する素晴らしい作品が重要な方向を明らかにした。
しかし、静的な画像内の視覚的内容を特定するのと異なり、実世界の物体を認識するために、識別情報は、見える地域だけでなく、他の見えない視点にも隠されている。
言い換えると、全体と区別可能な部分に焦点を当てることに加えて、効率的で正確な認識には、キーパースペクティブを少しの目で推測する必要がある。例えば、正面を見れば「ベンツ amg gt」を認識でき、排気管を見れば、どの年のモデルであるかがわかる。
本稿では, 現実に遡って, 能動微粒化認識(AFGR)の課題を提起し, 3つのステップで研究を完了した。
i) テストベッドとして階層的で多視点、きめ細かい車両データセットを収集する。
(II) 異なる視点がFGVCと異なるカテゴリーの異なる識別的視点に異なる視点で寄与することを検証するための簡易な実験が設計されている。
(iii)アクティブビュー選択による効率的な認識を実現するために、ポリシーグレードに基づくフレームワークが採用されている。
総合実験により、提案手法は従来のFGVC法や高度なニューラルネットワークよりも優れた性能効率のトレードオフをもたらすことが示された。
関連論文リスト
- Salient Mask-Guided Vision Transformer for Fine-Grained Classification [48.1425692047256]
きめ細かい視覚分類(FGVC)は、コンピュータビジョンの問題である。
その主な難しさの1つは、最も差別的な階級間のばらつきを捉えることである。
シンプルで効果的なマスク誘導型視覚変換器(SM-ViT)を導入する。
論文 参考訳(メタデータ) (2023-05-11T19:24:33Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - Deep Collaborative Multi-Modal Learning for Unsupervised Kinship
Estimation [53.62256887837659]
キンシップ検証は、コンピュータビジョンにおける長年の研究課題である。
本稿では,顔特性に表される基礎情報を統合するために,新しい協調型多モーダル学習(DCML)を提案する。
我々のDCML法は、常に最先端のキンシップ検証法よりも優れている。
論文 参考訳(メタデータ) (2021-09-07T01:34:51Z) - Silhouette based View embeddings for Gait Recognition under Multiple
Views [46.087837374748005]
本稿では,既存の歩行認識アーキテクチャにビュー情報を組み込む,互換性のあるフレームワークを提案する。
2つの大規模な公開データセットの実験結果から,提案フレームワークは非常に有効であることがわかった。
論文 参考訳(メタデータ) (2021-08-12T04:19:04Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - View-Invariant Gait Recognition with Attentive Recurrent Learning of
Partial Representations [27.33579145744285]
本稿では,まず,フレームレベルの畳み込み特徴から歩行畳み込みエネルギーマップ(GCEM)を抽出するネットワークを提案する。
次に、GCEMの分割されたビンから学ぶために双方向ニューラルネットワークを採用し、学習された部分的リカレント表現の関係を利用する。
提案手法は2つの大規模CASIA-BとOU-Mの歩行データセットで広範囲に検証されている。
論文 参考訳(メタデータ) (2020-10-18T20:20:43Z) - Fine-Grained Visual Classification via Progressive Multi-Granularity
Training of Jigsaw Patches [67.51747235117]
きめ細かい視覚分類(FGVC)は従来の分類よりもはるかに難しい。
最近の研究は主に、最も差別的な部分の発見に焦点をあてることによってこの問題に対処している。
本稿では,これらの問題に対処するための視覚的細粒度分類のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-08T19:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。