論文の概要: Residual Attention: A Simple but Effective Method for Multi-Label
Recognition
- arxiv url: http://arxiv.org/abs/2108.02456v1
- Date: Thu, 5 Aug 2021 08:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:38:34.006295
- Title: Residual Attention: A Simple but Effective Method for Multi-Label
Recognition
- Title(参考訳): 残留注意:マルチラベル認識のためのシンプルだが効果的な方法
- Authors: Ke Zhu, Jianxin Wu
- Abstract要約: クラス固有残差注意(CSRA)という,恥ずかしいほど単純なモジュールを提案する。
CSRAは、単純な空間的注意スコアを提案し、クラスに依存しない平均プール機能と組み合わせることで、各カテゴリのクラス固有の特徴を生成する。
4行のコードだけで、CSRAは追加のトレーニングなしで、さまざまな事前訓練されたモデルやデータセットに対して一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 29.18904701720024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label image recognition is a challenging computer vision task of
practical use. Progresses in this area, however, are often characterized by
complicated methods, heavy computations, and lack of intuitive explanations. To
effectively capture different spatial regions occupied by objects from
different categories, we propose an embarrassingly simple module, named
class-specific residual attention (CSRA). CSRA generates class-specific
features for every category by proposing a simple spatial attention score, and
then combines it with the class-agnostic average pooling feature. CSRA achieves
state-of-the-art results on multilabel recognition, and at the same time is
much simpler than them. Furthermore, with only 4 lines of code, CSRA also leads
to consistent improvement across many diverse pretrained models and datasets
without any extra training. CSRA is both easy to implement and light in
computations, which also enjoys intuitive explanations and visualizations.
- Abstract(参考訳): マルチラベル画像認識は実用的なコンピュータビジョンの課題である。
しかし、この分野の進歩はしばしば複雑な方法、重い計算、直感的な説明の欠如によって特徴づけられる。
異なるカテゴリのオブジェクトが占有する異なる空間領域を効果的に捉えるために,クラス固有残差注意 (CSRA) という,恥ずかしいほど単純なモジュールを提案する。
CSRAは、単純な空間的注意スコアを提案し、クラスに依存しない平均プール機能と組み合わせることで、各カテゴリのクラス固有の特徴を生成する。
csraはマルチラベル認識で最先端の成果を達成し、それよりもずっとシンプルである。
さらに、たった4行のコードだけで、CSRAは追加のトレーニングなしで、さまざまな事前訓練されたモデルやデータセットに対して一貫した改善をもたらす。
CSRAは簡単に実装でき、計算にも光があり、直感的な説明や視覚化も楽しめる。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Two-Step Active Learning for Instance Segmentation with Uncertainty and
Diversity Sampling [20.982992381790034]
本研究では,不確実性に基づくサンプリングと多様性に基づくサンプリングを統合したポストホック能動学習アルゴリズムを提案する。
提案アルゴリズムは単純で実装が容易なだけでなく,様々なデータセットに対して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-09-28T03:40:30Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Few-Shot Learning by Integrating Spatial and Frequency Representation [25.11147383752403]
本稿では,システムの識別能力を高めるために,周波数情報を学習モデルに統合することを提案する。
周波数表現を生成するために離散コサイン変換(dct)を用い,その特徴を空間領域と周波数領域の両方から統合して分類する。
論文 参考訳(メタデータ) (2021-05-11T21:44:31Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。