論文の概要: Knowledge Transfer Based Fine-grained Visual Classification
- arxiv url: http://arxiv.org/abs/2012.11389v1
- Date: Mon, 21 Dec 2020 14:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 13:09:04.020587
- Title: Knowledge Transfer Based Fine-grained Visual Classification
- Title(参考訳): 知識伝達に基づくきめ細かい視覚分類
- Authors: Siqing Zhang, Ruoyi Du, Dongliang Chang, Zhanyu Ma, Jun Guo
- Abstract要約: 細かい粒度の視覚分類(FGVC)は、同じカテゴリのサブクラスを区別することを目的とする。
その重要な解決策は、微妙で差別的な領域を採掘することです。
クロスエントロピー損失(CE損失)を損失関数として用いたCNNでは,性能が低かった。
- 参考スコア(独自算出の注目度): 19.233180617535492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained visual classification (FGVC) aims to distinguish the sub-classes
of the same category and its essential solution is to mine the subtle and
discriminative regions. Convolution neural networks (CNNs), which employ the
cross entropy loss (CE-loss) as the loss function, show poor performance since
the model can only learn the most discriminative part and ignore other
meaningful regions. Some existing works try to solve this problem by mining
more discriminative regions by some detection techniques or attention
mechanisms. However, most of them will meet the background noise problem when
trying to find more discriminative regions. In this paper, we address it in a
knowledge transfer learning manner. Multiple models are trained one by one, and
all previously trained models are regarded as teacher models to supervise the
training of the current one. Specifically, a orthogonal loss (OR-loss) is
proposed to encourage the network to find diverse and meaningful regions. In
addition, the first model is trained with only CE-Loss. Finally, all models'
outputs with complementary knowledge are combined together for the final
prediction result. We demonstrate the superiority of the proposed method and
obtain state-of-the-art (SOTA) performances on three popular FGVC datasets.
- Abstract(参考訳): きめ細かい視覚分類(FGVC)は、同じカテゴリーのサブクラスを識別することを目的としており、その重要な解決策は、微妙で差別的な領域をマイニングすることである。
クロスエントロピー損失(CE-loss)を損失関数として用いた畳み込みニューラルネットワーク(CNN)は,最も識別性の高い部分のみを学習し,他の意味のある領域を無視できるため,性能が低下する。
いくつかの既存の研究は、検出技術や注意機構によってより識別的な領域を採掘することでこの問題を解決しようとする。
しかし、それらのほとんどが、より識別可能な領域を見つけようとすると、背景ノイズの問題を満たします。
本稿では,知識伝達学習の手法を用いて対処する。
複数のモデルが1つずつ訓練され、以前のモデルは全て、現在のモデルのトレーニングを監督する教師モデルと見なされる。
特に、ネットワークが多様で有意義な地域を見つけることを促すために、直交損失(or-loss)が提案されている。
さらに、最初のモデルはCE-Lossでのみ訓練される。
最後に、最終的な予測結果のために、相補的な知識を持つすべてのモデルの出力を組み合わせる。
提案手法の優位性を実証し、3つのFGVCデータセット上での最先端(SOTA)性能を得る。
関連論文リスト
- Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Discriminative Feature Learning through Feature Distance Loss [0.0]
本研究は,多様なリッチベースモデルを組み合わせて,異なる重要な画像領域に着目して分類する手法を提案する。
ベンチマーク畳み込みニューラルネットワーク(VGG16, ResNet, AlexNet)、一般的なデータセット(Cifar10, Cifar100, miniImageNet, NEU, BSD, TEX)の実験は、我々の手法の有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2022-05-23T20:01:32Z) - R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction [21.11038841356125]
細粒度視覚分類(FGVC)は、クラス内の大きな多様性と微妙なクラス間差が主な課題である類似のサブカテゴリを識別することを目的としている。
本稿では,FGVCに対する新たなアプローチを提案する。FGVCは,環境条件における部分的かつ十分な識別情報を同時に利用でき,また,対象物に対するクラストークンにおける冗長情報を圧縮することができる。
論文 参考訳(メタデータ) (2022-04-21T13:35:38Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Interpretable Attention Guided Network for Fine-grained Visual
Classification [36.657203916383594]
細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。
細粒度視覚分類のための解釈型注意誘導ネットワーク(IAGN)を提案する。
論文 参考訳(メタデータ) (2021-03-08T12:27:51Z) - Learning Granularity-Aware Convolutional Neural Network for Fine-Grained
Visual Classification [0.0]
識別的特徴を段階的に探索するGranularity-Aware Congrainedal Neural Network (GA-CNN)を提案する。
GA-CNNはバウンディングボックス/パーツアノテーションを必要とせず、エンドツーエンドでトレーニングできます。
このアプローチは3つのベンチマークデータセットで最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2021-03-04T02:18:07Z) - Playing to distraction: towards a robust training of CNN classifiers
through visual explanation techniques [1.2321022105220707]
本研究では,視覚的説明手法を学習プロセスに組み込んだ,斬新かつ堅牢なトレーニング手法を提案する。
特に、EgoFoodPlacesデータセットに挑戦し、より低いレベルの複雑さで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-12-28T10:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。