論文の概要: Fast Object Detection with Latticed Multi-Scale Feature Fusion
- arxiv url: http://arxiv.org/abs/2011.02780v1
- Date: Thu, 5 Nov 2020 12:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:20:48.504986
- Title: Fast Object Detection with Latticed Multi-Scale Feature Fusion
- Title(参考訳): Latticed Multi-Scale Feature Fusion による高速物体検出
- Authors: Yue Shi, Bo Jiang, Zhengping Che, Jian Tang
- Abstract要約: 本稿では,現在のマルチスケール核融合法の欠点を軽減するために,新しいモジュールであるフラフブロックを提案する。
Flukeは、拡張畳み込みを伴うマルチレベルおよびマルチブランチのスキームを利用して、高速で効果的でよりきめ細かな特徴融合を行う。
FlukeNetは、マルチスケールオブジェクト検出のための強力なリアルタイムシングルステージ検出器である。
- 参考スコア(独自算出の注目度): 25.23110615111578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scale variance is one of the crucial challenges in multi-scale object
detection. Early approaches address this problem by exploiting the image and
feature pyramid, which raises suboptimal results with computation burden and
constrains from inherent network structures. Pioneering works also propose
multi-scale (i.e., multi-level and multi-branch) feature fusions to remedy the
issue and have achieved encouraging progress. However, existing fusions still
have certain limitations such as feature scale inconsistency, ignorance of
level-wise semantic transformation, and coarse granularity. In this work, we
present a novel module, the Fluff block, to alleviate drawbacks of current
multi-scale fusion methods and facilitate multi-scale object detection.
Specifically, Fluff leverages both multi-level and multi-branch schemes with
dilated convolutions to have rapid, effective and finer-grained feature
fusions. Furthermore, we integrate Fluff to SSD as FluffNet, a powerful
real-time single-stage detector for multi-scale object detection. Empirical
results on MS COCO and PASCAL VOC have demonstrated that FluffNet obtains
remarkable efficiency with state-of-the-art accuracy. Additionally, we indicate
the great generality of the Fluff block by showing how to embed it to other
widely-used detectors as well.
- Abstract(参考訳): スケール分散は、マルチスケールオブジェクト検出における重要な課題の1つである。
初期のアプローチでは、画像と特徴ピラミッドを利用してこの問題に対処し、計算負荷と固有のネットワーク構造からの制約により、最適以下の結果をもたらす。
パイオニアリングの作業は、問題を改善するためにマルチスケール(マルチレベルとマルチブランチ)の機能融合も提案し、進歩を奨励した。
しかし、既存の融合には、機能スケールの不整合、レベルごとの意味変換の無知、粗い粒度など、いくつかの制限がある。
本稿では,現行のマルチスケール融合手法の欠点を軽減し,マルチスケール物体検出を容易にする新しいモジュールであるfluffブロックを提案する。
具体的には、拡張畳み込みを伴うマルチレベルおよびマルチブランチのスキームを利用して、高速で効果的でよりきめ細かな特徴融合を行う。
さらに,F Fluff を SSD に統合し,FluffNet をマルチスケールオブジェクト検出のための強力なリアルタイム単一ステージ検出器とする。
MS COCO と PASCAL VOC の実証実験の結果,F FluffNet は最先端の精度で顕著な効率が得られることが示された。
さらに、他の広く使用されている検出器への埋め込み方法を示すことで、fluffブロックの大きな汎用性を示す。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - Joint Attention-Guided Feature Fusion Network for Saliency Detection of
Surface Defects [69.39099029406248]
本稿では,エンコーダ・デコーダネットワークに基づく表面欠陥検出のための共同注意誘導型特徴融合ネットワーク(JAFFNet)を提案する。
JAFFNetは、主にJAFFモジュールをデコードステージに組み込んで、低レベルと高レベルの機能を適応的に融合させる。
SD- Saliency-900, Magnetic tile, and DAGM 2007 で行った実験から,本手法が他の最先端手法と比較して有望な性能を達成できたことが示唆された。
論文 参考訳(メタデータ) (2024-02-05T08:10:16Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。