論文の概要: Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep
Network for Image Recognition
- arxiv url: http://arxiv.org/abs/2110.12183v1
- Date: Sat, 23 Oct 2021 09:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 13:40:05.338060
- Title: Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep
Network for Image Recognition
- Title(参考訳): Attend and Guide (AG-Net): キーポイント駆動型画像認識のためのDeep Network
- Authors: Asish Bera, Zachary Wharton, Yonghuai Liu, Nik Bessis and Ardhendu
Behera
- Abstract要約: 本稿では,新しいアテンション機構を用いて,きめ細かい変化をリンクする意味のある特徴を学習するエンド・ツー・エンドCNNモデルを提案する。
意味領域(SR)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵であることが証明された。
このフレームワークは6つの多様なベンチマークデータセットで評価される。
- 参考スコア(独自算出の注目度): 13.230646408771868
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a novel keypoints-based attention mechanism for visual
recognition in still images. Deep Convolutional Neural Networks (CNNs) for
recognizing images with distinctive classes have shown great success, but their
performance in discriminating fine-grained changes is not at the same level. We
address this by proposing an end-to-end CNN model, which learns meaningful
features linking fine-grained changes using our novel attention mechanism. It
captures the spatial structures in images by identifying semantic regions (SRs)
and their spatial distributions, and is proved to be the key to modelling
subtle changes in images. We automatically identify these SRs by grouping the
detected keypoints in a given image. The ``usefulness'' of these SRs for image
recognition is measured using our innovative attentional mechanism focusing on
parts of the image that are most relevant to a given task. This framework
applies to traditional and fine-grained image recognition tasks and does not
require manually annotated regions (e.g. bounding-box of body parts, objects,
etc.) for learning and prediction. Moreover, the proposed keypoints-driven
attention mechanism can be easily integrated into the existing CNN models. The
framework is evaluated on six diverse benchmark datasets. The model outperforms
the state-of-the-art approaches by a considerable margin using Distracted
Driver V1 (Acc: 3.39%), Distracted Driver V2 (Acc: 6.58%), Stanford-40 Actions
(mAP: 2.15%), People Playing Musical Instruments (mAP: 16.05%), Food-101 (Acc:
6.30%) and Caltech-256 (Acc: 2.59%) datasets.
- Abstract(参考訳): 本稿では,静止画像における視覚認識のための新しいキーポイントに基づく注意機構を提案する。
特徴クラスを持つ画像を認識するディープ畳み込みニューラルネットワーク(CNN)は大きな成功を収めているが、粒度の細かい変化を識別する性能は同じレベルではない。
そこで我々は,新しい注意機構を用いて微細な変化をリンクする意味のある特徴を学習する,エンドツーエンドCNNモデルを提案する。
意味領域(srs)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵となる。
検出されたキーポイントを所定の画像にグループ化することで、これらのSRを自動的に識別する。
画像認識におけるこれらのSRの `usefulness'' は、与えられたタスクに最も関係のある画像の一部に焦点を当てた革新的な注意機構を用いて測定される。
このフレームワークは、従来のきめ細かい画像認識タスクに適用され、学習と予測のために手動の注釈付き領域(例えば、体の部分やオブジェクトのバウンディングボックスなど)を必要としない。
さらに、提案するキーポイント駆動注意機構を既存のcnnモデルに容易に統合することができる。
このフレームワークは6つの多様なベンチマークデータセットで評価される。
このモデルは、Distracted Driver V1 (Acc: 3.39%)、Distracted Driver V2 (Acc: 6.58%)、Stanford-40 Actions (mAP: 2.15%)、People Playing Musical Instruments (mAP: 16.05%)、Food-101 (Acc: 6.30%)、Caltech-256 (Acc: 2.59%)のデータセットを使用して、最先端のアプローチよりも優れている。
関連論文リスト
- Vision Eagle Attention: A New Lens for Advancing Image Classification [0.8158530638728501]
コンボリューショナルな空間的注意力を用いた視覚的特徴抽出を促進する新しい注意機構であるビジョンイーグル注意(Vision Eagle Attention)を導入する。
このモデルは、局所的な空間的特徴を捉えるために畳み込みを適用し、画像の最も情報性の高い領域を選択的に強調するアテンションマップを生成する。
Vision Eagle Attentionを軽量なResNet-18アーキテクチャに統合しました。
論文 参考訳(メタデータ) (2024-11-15T20:21:59Z) - Utilizing Radiomic Feature Analysis For Automated MRI Keypoint
Detection: Enhancing Graph Applications [2.8084568003406316]
グラフニューラルネットワーク(GNN)は、特定の画像処理アプリケーションにおいて、CNNやトランスフォーマーに代わる有望な選択肢を提供する。
ひとつのアプローチは、重要なキーポイントを識別することで、イメージをノードに変換することだ。
本研究は, 画像分類, セグメンテーション, 登録に限らず, GNN アプリケーションを様々なアプリケーションに拡張する段階を定めている。
論文 参考訳(メタデータ) (2023-11-30T06:37:02Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained
Image Categorization [24.286426387100423]
本稿では,最も関連性の高い画像領域からコンテキスト認識機能を集約することで,微妙な変化を捉える手法を提案する。
我々のアプローチは、近年の自己注意とグラフニューラルネットワーク(GNN)の発展にインスパイアされている。
これは、認識精度のかなりの差で最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-05T19:43:15Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Learning to ignore: rethinking attention in CNNs [87.01305532842878]
我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
論文 参考訳(メタデータ) (2021-11-10T13:47:37Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - Keypoint-Aligned Embeddings for Image Retrieval and Re-identification [15.356786390476591]
本稿では,画像埋め込みをキーポイントの事前定義された順序に合わせることを提案する。
提案したキーポイント整列埋め込みモデル(KAE-Net)は,マルチタスク学習を通じて部分レベルの特徴を学習する。
CUB-200-2011、Cars196、VeRi-776のベンチマークデータセット上でのアートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2020-08-26T03:56:37Z) - Explicitly Modeled Attention Maps for Image Classification [35.72763148637619]
自己注意ネットワークは、画像分類などのコンピュータビジョンタスクにおいて顕著な進歩を見せている。
本稿では,計算オーバーヘッドの少ない1つの学習可能なパラメータのみを用いて,アテンションマップを明示的にモデル化した新しいセルフアテンションモジュールを提案する。
提案手法は,ImageNet ILSVRCのResNetベースラインに対して最大2.2%の精度向上を実現する。
論文 参考訳(メタデータ) (2020-06-14T11:47:09Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。