論文の概要: NL-FCOS: Improving FCOS through Non-Local Modules for Object Detection
- arxiv url: http://arxiv.org/abs/2203.15638v1
- Date: Tue, 29 Mar 2022 15:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 19:23:58.983659
- Title: NL-FCOS: Improving FCOS through Non-Local Modules for Object Detection
- Title(参考訳): NL-FCOS:オブジェクト検出のための非ローカルモジュールによるFCOSの改善
- Authors: Lukas Pavez, Jose M. Saavedra Rondo
- Abstract要約: FCOSヘッドと組み合わせた非局所モジュール(NL-FCOS)は実用的で効率的であることを示す。
衣服検出と手書き量認識問題における最先端性能を確立した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the last years, we have seen significant advances in the object
detection task, mainly due to the outperforming results of convolutional neural
networks. In this vein, anchor-based models have achieved the best results.
However, these models require prior information about the aspect and scales of
target objects, needing more hyperparameters to fit. In addition, using anchors
to fit bounding boxes seems far from how our visual system does the same visual
task. Instead, our visual system uses the interactions of different scene parts
to semantically identify objects, called perceptual grouping. An object
detection methodology closer to the natural model is anchor-free detection,
where models like FCOS or Centernet have shown competitive results, but these
have not yet exploited the concept of perceptual grouping. Therefore, to
increase the effectiveness of anchor-free models keeping the inference time
low, we propose to add non-local attention (NL modules) modules to boost the
feature map of the underlying backbone. NL modules implement the perceptual
grouping mechanism, allowing receptive fields to cooperate in visual
representation learning. We show that non-local modules combined with an FCOS
head (NL-FCOS) are practical and efficient. Thus, we establish state-of-the-art
performance in clothing detection and handwritten amount recognition problems.
- Abstract(参考訳): 近年,畳み込みニューラルネットワークの性能向上が主な原因として,物体検出タスクの大幅な進歩が見られた。
この分野では、アンカーベースのモデルが最も良い結果を得た。
しかしながら、これらのモデルは対象オブジェクトのアスペクトとスケールに関する事前情報を必要とし、適合するハイパーパラメータを必要とする。
さらに、バウンディングボックスにアンカーを使用することは、ビジュアルシステムが同じビジュアルタスクを実行する方法とは程遠いように思えます。
その代わり、視覚システムは異なるシーンの相互作用を使って、知覚的グループ化と呼ばれるオブジェクトを意味的に識別します。
自然モデルに近い物体検出手法として、FCOSやCenternetのようなモデルが競合する結果を示したアンカーフリー検出があるが、これらはまだ知覚的グループ化の概念を利用していない。
そこで, 推定時間を低く保ちながらアンカーフリーモデルの有効性を高めるため, 非局所アテンションモジュール(NLモジュール)を追加して, 基礎となるバックボーンの特徴マップを強化することを提案する。
nlモジュールは知覚的グループ化機構を実装し、受容的フィールドが視覚表現学習で協調できるようにする。
FCOSヘッドと組み合わせた非局所モジュール(NL-FCOS)は実用的で効率的であることを示す。
そこで我々は,衣服検出と手書き量認識問題における最先端性能を確立する。
関連論文リスト
- Unveiling Camouflage: A Learnable Fourier-based Augmentation for
Camouflaged Object Detection and Instance Segmentation [27.41886911999097]
本稿では,camouflaged object detection (COD) とcamouflaged instance segmentation (CIS) の学習可能な拡張法を提案する。
提案手法は,カモフラージュされた対象検出器とカモフラーグされたインスタンスセグメンタの性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2023-08-29T22:43:46Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - Perception-and-Regulation Network for Salient Object Detection [8.026227647732792]
本稿では,特徴間の相互依存性を明示的にモデル化し,特徴融合プロセスを適応的に制御する新しいグローバルアテンションユニットを提案する。
知覚部は、分類網内の完全に接続された層の構造を用いて、物体のサイズと形状を学習する。
さらに、ネットワークのグローバルな認識能力向上のために、模倣眼観察モジュール(IEO)が使用される。
論文 参考訳(メタデータ) (2021-07-27T02:38:40Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Joint Object Detection and Multi-Object Tracking with Graph Neural
Networks [32.1359455541169]
グラフニューラルネットワーク(GNN)に基づく共同MOT手法の新たな例を提案する。
我々は,GNNベースの共同MOT手法の有効性を示し,検出タスクとMOTタスクの両方に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-06-23T17:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。