論文の概要: NL-FCOS: Improving FCOS through Non-Local Modules for Object Detection
- arxiv url: http://arxiv.org/abs/2203.15638v1
- Date: Tue, 29 Mar 2022 15:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 19:23:58.983659
- Title: NL-FCOS: Improving FCOS through Non-Local Modules for Object Detection
- Title(参考訳): NL-FCOS:オブジェクト検出のための非ローカルモジュールによるFCOSの改善
- Authors: Lukas Pavez, Jose M. Saavedra Rondo
- Abstract要約: FCOSヘッドと組み合わせた非局所モジュール(NL-FCOS)は実用的で効率的であることを示す。
衣服検出と手書き量認識問題における最先端性能を確立した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the last years, we have seen significant advances in the object
detection task, mainly due to the outperforming results of convolutional neural
networks. In this vein, anchor-based models have achieved the best results.
However, these models require prior information about the aspect and scales of
target objects, needing more hyperparameters to fit. In addition, using anchors
to fit bounding boxes seems far from how our visual system does the same visual
task. Instead, our visual system uses the interactions of different scene parts
to semantically identify objects, called perceptual grouping. An object
detection methodology closer to the natural model is anchor-free detection,
where models like FCOS or Centernet have shown competitive results, but these
have not yet exploited the concept of perceptual grouping. Therefore, to
increase the effectiveness of anchor-free models keeping the inference time
low, we propose to add non-local attention (NL modules) modules to boost the
feature map of the underlying backbone. NL modules implement the perceptual
grouping mechanism, allowing receptive fields to cooperate in visual
representation learning. We show that non-local modules combined with an FCOS
head (NL-FCOS) are practical and efficient. Thus, we establish state-of-the-art
performance in clothing detection and handwritten amount recognition problems.
- Abstract(参考訳): 近年,畳み込みニューラルネットワークの性能向上が主な原因として,物体検出タスクの大幅な進歩が見られた。
この分野では、アンカーベースのモデルが最も良い結果を得た。
しかしながら、これらのモデルは対象オブジェクトのアスペクトとスケールに関する事前情報を必要とし、適合するハイパーパラメータを必要とする。
さらに、バウンディングボックスにアンカーを使用することは、ビジュアルシステムが同じビジュアルタスクを実行する方法とは程遠いように思えます。
その代わり、視覚システムは異なるシーンの相互作用を使って、知覚的グループ化と呼ばれるオブジェクトを意味的に識別します。
自然モデルに近い物体検出手法として、FCOSやCenternetのようなモデルが競合する結果を示したアンカーフリー検出があるが、これらはまだ知覚的グループ化の概念を利用していない。
そこで, 推定時間を低く保ちながらアンカーフリーモデルの有効性を高めるため, 非局所アテンションモジュール(NLモジュール)を追加して, 基礎となるバックボーンの特徴マップを強化することを提案する。
nlモジュールは知覚的グループ化機構を実装し、受容的フィールドが視覚表現学習で協調できるようにする。
FCOSヘッドと組み合わせた非局所モジュール(NL-FCOS)は実用的で効率的であることを示す。
そこで我々は,衣服検出と手書き量認識問題における最先端性能を確立する。
関連論文リスト
- Scale-Invariant Object Detection by Adaptive Convolution with Unified Global-Local Context [3.061662434597098]
本稿では,効率的なDetモデルに基づくSAC-Net(Switchable Atrous Convolutional Network)を用いたオブジェクト検出モデルを提案する。
提案したSAC-Netは,マルチスケールオブジェクト検出タスクの性能向上を実現するために,低レベル機能と高レベル機能の両方の利点をカプセル化している。
ベンチマークデータセットを用いた実験により,提案したSAC-Netは,精度の点で最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-17T10:08:37Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Unveiling Camouflage: A Learnable Fourier-based Augmentation for
Camouflaged Object Detection and Instance Segmentation [27.41886911999097]
本稿では,camouflaged object detection (COD) とcamouflaged instance segmentation (CIS) の学習可能な拡張法を提案する。
提案手法は,カモフラージュされた対象検出器とカモフラーグされたインスタンスセグメンタの性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2023-08-29T22:43:46Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Joint Object Detection and Multi-Object Tracking with Graph Neural
Networks [32.1359455541169]
グラフニューラルネットワーク(GNN)に基づく共同MOT手法の新たな例を提案する。
我々は,GNNベースの共同MOT手法の有効性を示し,検出タスクとMOTタスクの両方に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-06-23T17:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。