論文の概要: Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems
- arxiv url: http://arxiv.org/abs/2303.01669v1
- Date: Fri, 3 Mar 2023 02:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 16:29:08.502454
- Title: Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems
- Title(参考訳): ファイングラインド視覚認識問題に対する自己改善型表現改善のための共通学習
- Authors: Yangyang Shu, Anton van den Hengel, Lingqiao Liu
- Abstract要約: 我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
- 参考スコア(独自算出の注目度): 61.11799513362704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) strategies have demonstrated remarkable
performance in various recognition tasks. However, both our preliminary
investigation and recent studies suggest that they may be less effective in
learning representations for fine-grained visual recognition (FGVR) since many
features helpful for optimizing SSL objectives are not suitable for
characterizing the subtle differences in FGVR. To overcome this issue, we
propose learning an additional screening mechanism to identify discriminative
clues commonly seen across instances and classes, dubbed as common rationales
in this paper. Intuitively, common rationales tend to correspond to the
discriminative patterns from the key parts of foreground objects. We show that
a common rationale detector can be learned by simply exploiting the GradCAM
induced from the SSL objective without using any pre-trained object parts or
saliency detectors, making it seamlessly to be integrated with the existing SSL
process. Specifically, we fit the GradCAM with a branch with limited fitting
capacity, which allows the branch to capture the common rationales and discard
the less common discriminative patterns. At the test stage, the branch
generates a set of spatial weights to selectively aggregate features
representing an instance. Extensive experimental results on four visual tasks
demonstrate that the proposed method can lead to a significant improvement in
different evaluation settings.
- Abstract(参考訳): 自己教師付き学習(SSL)戦略は、様々な認識タスクにおいて顕著な性能を示した。
しかし,本研究および最近の研究は,SSL目標の最適化に有効な多くの特徴がFGVRの微妙な違いを特徴づけるのに適さないため,細粒度視覚認識(FGVR)の学習効果が低いことを示唆している。
この問題を克服するために,本論文では,インスタンスやクラス間でよく見られる識別的手がかりを識別するための,新たなスクリーニング機構の学習を提案する。
直感的には、共通有理は前景オブジェクトのキー部分からの識別パターンに対応する傾向がある。
既存のSSLプロセスとシームレスに統合できるように、トレーニング済みのオブジェクト部品やサリエンシ検出器を使わずに、SSL目標から誘導されるGradCAMを単純に活用することで、共通の合理性検出器を学習できることが示される。
具体的には、GradCAMを限定的な適合能力のブランチに適合させることで、共通の論理をキャプチャし、あまり一般的でない識別パターンを捨てることができます。
テスト段階では、ブランチは一連の空間重みを生成し、インスタンスを表す特徴を選択的に集約する。
4つの視覚的タスクに対する大規模な実験結果から,提案手法は異なる評価設定において大幅な改善をもたらすことが示された。
関連論文リスト
- Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Attribute-Aware Representation Rectification for Generalized Zero-Shot
Learning [19.65026043141699]
一般化ゼロショット学習(GZSL)は、一連の非バイアスの視覚-セマンティックマッピングを設計することによって、顕著な性能を得た。
本稿では,GZSLに対して,$mathbf(AR)2$という簡易かつ効果的な属性認識表現フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T11:30:32Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - Dual Contrastive Learning for General Face Forgery Detection [64.41970626226221]
本稿では,正と負のペアデータを構成するDCL (Dual Contrastive Learning) という新しい顔偽造検出フレームワークを提案する。
本研究は, 事例内コントラスト学習(Intra-ICL)において, 偽造顔における局所的内容の不整合に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-27T05:44:40Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Spatial Contrastive Learning for Few-Shot Classification [9.66840768820136]
局所的識別性およびクラス非依存性の特徴を学習するための新しい注意に基づく空間コントラスト目標を提案する。
実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-26T23:39:41Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。