論文の概要: RelationRS: Relationship Representation Network for Object Detection in
Aerial Images
- arxiv url: http://arxiv.org/abs/2110.06730v1
- Date: Wed, 13 Oct 2021 14:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:54:51.572072
- Title: RelationRS: Relationship Representation Network for Object Detection in
Aerial Images
- Title(参考訳): 相関器:空中画像における物体検出のための関係表現ネットワーク
- Authors: Zhiming Liu, Xuefei Zhang, Chongyang Liu, Hao Wang, Chao Sun, Bin Li,
Weifeng Sun, Pu Huang, Qingjun Li, Yu Liu, Haipeng Kuang, Jihong Xiu
- Abstract要約: 航空画像における物体検出のための関係表現ネットワーク(RelationRS)を提案する。
デュアルリレーションモジュールは、異なるスケールの特徴間の潜在的な関係を学習し、異なるパッチから異なるシーン間の関係を同じイテレーションで学習する。
複雑な背景を持つ画像の物体検出効果を改善するため、BVR(Bridging visual representations Module)が空中画像のフィールドに導入される。
- 参考スコア(独自算出の注目度): 15.269897893563417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection is a basic and important task in the field of aerial image
processing and has gained much attention in computer vision. However, previous
aerial image object detection approaches have insufficient use of scene
semantic information between different regions of large-scale aerial images. In
addition, complex background and scale changes make it difficult to improve
detection accuracy. To address these issues, we propose a relationship
representation network for object detection in aerial images (RelationRS): 1)
Firstly, multi-scale features are fused and enhanced by a dual relationship
module (DRM) with conditional convolution. The dual relationship module learns
the potential relationship between features of different scales and learns the
relationship between different scenes from different patches in a same
iteration. In addition, the dual relationship module dynamically generates
parameters to guide the fusion of multi-scale features. 2) Secondly, The
bridging visual representations module (BVR) is introduced into the field of
aerial images to improve the object detection effect in images with complex
backgrounds. Experiments with a publicly available object detection dataset for
aerial images demonstrate that the proposed RelationRS achieves a
state-of-the-art detection performance.
- Abstract(参考訳): 物体検出は航空画像処理の分野では基本かつ重要な課題であり、コンピュータビジョンにおいて多くの注目を集めている。
しかし,従来の空中物体検出手法では,大規模空中画像の異なる領域間でのシーン意味情報の活用は不十分であった。
さらに、複雑なバックグラウンドとスケールの変更により、検出精度の向上が困難になる。
そこで本研究では,空中画像における物体検出のための関係表現ネットワークを提案する。
1) マルチスケール機能は条件付き畳み込みを伴うデュアルリレーショナルモジュール(DRM)によって融合・拡張される。
デュアルリレーションモジュールは、異なるスケールの特徴間の潜在的な関係を学び、異なるパッチから異なるシーン間の関係を同じイテレーションで学習する。
さらに、デュアルリレーションモジュールは、マルチスケール特徴の融合を導くパラメータを動的に生成する。
2) 複雑な背景を持つ画像の物体検出効果を改善するため, BVR (Bridging visual representations Module) が空中画像のフィールドに導入された。
空中画像のための公開オブジェクト検出データセットを用いた実験により,提案したリレーショナルRSが最先端の検知性能を達成することを示す。
関連論文リスト
- Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing [11.626527403157922]
本稿では、リモートセンシング画像のための新しい自己教師型学習フレームワークであるPattern Integration and Enhancement Vision Transformer(PIEViT)を紹介する。
PIEViTは内部パッチ機能の表現を強化し、既存の自己管理ベースラインよりも大幅に改善されている。
オブジェクト検出、土地被覆分類、変更検出において優れた結果が得られ、リモートセンシング画像解釈タスクの堅牢性、一般化、転送性などが評価される。
論文 参考訳(メタデータ) (2024-11-09T07:06:31Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。