論文の概要: Dual Semantic Fusion Network for Video Object Detection
- arxiv url: http://arxiv.org/abs/2009.07498v1
- Date: Wed, 16 Sep 2020 06:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 00:23:40.019964
- Title: Dual Semantic Fusion Network for Video Object Detection
- Title(参考訳): ビデオ物体検出のためのデュアルセマンティクス融合ネットワーク
- Authors: Lijian Lin, Haosheng Chen, Honglun Zhang, Jun Liang, Yu Li, Ying Shan,
Hanzi Wang
- Abstract要約: 外部ガイダンスのない統合融合フレームワークにおいて,フレームレベルとインスタンスレベルの両方のセマンティクスをフル活用するためのデュアルセマンティクス・フュージョン・ネットワーク(DSFNet)を提案する。
提案したDSFNetは、多粒度融合によりより堅牢な特徴を生成でき、外部ガイダンスの不安定性の影響を避けることができる。
- 参考スコア(独自算出の注目度): 35.175552056938635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object detection is a tough task due to the deteriorated quality of
video sequences captured under complex environments. Currently, this area is
dominated by a series of feature enhancement based methods, which distill
beneficial semantic information from multiple frames and generate enhanced
features through fusing the distilled information. However, the distillation
and fusion operations are usually performed at either frame level or instance
level with external guidance using additional information, such as optical flow
and feature memory. In this work, we propose a dual semantic fusion network
(abbreviated as DSFNet) to fully exploit both frame-level and instance-level
semantics in a unified fusion framework without external guidance. Moreover, we
introduce a geometric similarity measure into the fusion process to alleviate
the influence of information distortion caused by noise. As a result, the
proposed DSFNet can generate more robust features through the multi-granularity
fusion and avoid being affected by the instability of external guidance. To
evaluate the proposed DSFNet, we conduct extensive experiments on the ImageNet
VID dataset. Notably, the proposed dual semantic fusion network achieves, to
the best of our knowledge, the best performance of 84.1\% mAP among the current
state-of-the-art video object detectors with ResNet-101 and 85.4\% mAP with
ResNeXt-101 without using any post-processing steps.
- Abstract(参考訳): 複雑な環境下で撮影された映像の画質が劣化するため,映像物体検出は難しい課題である。
現在, この領域は, 複数のフレームから有意義な意味情報を抽出し, 蒸留した情報を融合することで, 機能強化手法によって支配されている。
しかし、蒸留と核融合の操作は通常、光学フローや特徴記憶などの追加情報を用いた外部ガイダンスを用いてフレームレベルまたはインスタンスレベルで実行される。
本研究では,外部ガイダンスを伴わない統合融合フレームワークにおいて,フレームレベルとインスタンスレベルのセマンティクスを完全に活用する2つのセマンティクス・フュージョン・ネットワーク(DSFNet)を提案する。
さらに,音による情報歪みの影響を軽減するため,融合過程に幾何学的類似性尺度を導入する。
その結果,提案するdsfnetはマルチグラニュラリティ融合によりより堅牢な特徴を生成でき,外部誘導の不安定性の影響を回避できる。
提案するDSFNetを評価するために,ImageNet VIDデータセットについて広範な実験を行った。
特に,提案したデュアルセマンティックフュージョンネットワークは,処理後のステップを使わずに,ResNet-101とResNeXt-101を用いた現在の最先端ビデオオブジェクト検出器の84.1\% mAPと85.4\% mAPの最高の性能を実現する。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain Adaptive for Infrared and Visible Image Fusion [21.64382683858586]
赤外線と可視画像の融合は、両モードの相補的な情報を組み合わせて、より包括的なシーン理解を提供することを目的としている。
最大領域適応型デュアルブランチ機能分解融合ネットワーク(DAF-Net)を提案する。
MK-MMDを導入することで、DAF-Netは可視画像と赤外線画像の潜在特徴空間を効果的に整列し、融合画像の品質を向上させる。
論文 参考訳(メタデータ) (2024-09-18T02:14:08Z) - Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。