Fugu-MT 論文翻訳(概要): AMRNet: Chips Augmentation in Aerial Images Object Detection

論文の概要: AMRNet: Chips Augmentation in Aerial Images Object Detection

arxiv url: http://arxiv.org/abs/2009.07168v2
Date: Sun, 25 Oct 2020 08:38:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 06:24:24.595586
Title: AMRNet: Chips Augmentation in Aerial Images Object Detection
Title（参考訳）: AMRNet:空中画像オブジェクト検出におけるチップ拡張
Authors: Zhiwei Wei, Chenzhen Duan, Xinghao Song, Ye Tian, Hongpeng Wang
Abstract要約: 3つの拡張手法を導入して,スケールの変動,オブジェクトの分散性,クラスの不均衡といった問題を解消する。我々のモデルは、VisDroneとUAVDTの2つの一般的な空中画像データセットに対して、最先端のパーフォマンスを実現する。
参考スコア（独自算出の注目度）: 7.817259518365044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object detection in aerial images is a challenging task due to the following reasons: (1) objects are small and dense relative to images; (2) the object scale varies in a wide range; (3) the number of object in different classes is imbalanced. Many current methods adopt cropping idea: splitting high resolution images into serials subregions (chips) and detecting on them. However, some problems such as scale variation, object sparsity, and class imbalance exist in the process of training network with chips. In this work, three augmentation methods are introduced to relieve these problems. Specifically, we propose a scale adaptive module, which dynamically adjusts chip size to balance object scale, narrowing scale variation in training. In addtion, we introduce mosaic to augment datasets, relieving object sparity problem. To balance catgory, we present mask resampling to paste object in chips with panoramic segmentation. Our model achieves state-of-the-art perfomance on two popular aerial image datasets of VisDrone and UAVDT. Remarkably, three methods can be independently applied to detectiors, increasing performance steady without the sacrifice of inference efficiency.
Abstract（参考訳）: 空中画像における物体検出は,(1)物体が画像に対して小さく密度が高いこと,(2)物体スケールが広い範囲で変化すること,(3)異なるクラス内の物体数が不均衡であること,の2つの理由から難しい課題である。高解像度画像をシリアルサブリージョン(chips)に分割し、それらを検出する。しかしながら、ネットワークをチップでトレーニングする過程では、スケール変動、オブジェクトスパーシティ、クラス不均衡などの問題が存在する。本研究では,これらの問題を解決するために3つの拡張手法を導入する。具体的には,オブジェクトスケールのバランスをとるためにチップサイズを動的に調整し,トレーニングのスケール変動を狭めるスケール適応モジュールを提案する。加法として,モザイクを導入し,オブジェクトのスパーリティ問題を緩和する。キャタゴリーのバランスをとるために,パノラマセグメンテーションによるチップ内のペースト対象物のマスク再サンプリングを行う。本モデルはvisdroneとuavdtの2つの人気のある航空画像データセットにおいて最先端のパフォーマンスを実現する。驚くべきことに、3つの方法は独立して検出器に適用することができ、推論効率を犠牲にすることなく性能を着実に向上させる。

関連論文リスト

Iterative Object Count Optimization for Text-to-image Diffusion Models [59.03672816121209]
画像とテキストのペアから学ぶ現在のモデルは、本質的にカウントに苦慮している。本稿では,物体のポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
論文参考訳（メタデータ） (2024-08-21T15:51:46Z)
DASSF: Dynamic-Attention Scale-Sequence Fusion for Aerial Object Detection [6.635903943457569]
元のYOLOアルゴリズムは、異なるスケールのターゲットを認識する能力の弱いため、全体的な検出精度が低い。本稿では,空中画像のターゲット検出のための動的アテンションスケール系列融合アルゴリズム(DASSF)を提案する。 DASSF法をYOLOv8nと比較すると,平均平均精度(mAP)は9.2%,2.4%増加した。
論文参考訳（メタデータ） (2024-06-18T05:26:44Z)
YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images [33.80392696735718]
YOLC(You Only Look Clusters)は、アンカーフリーなオブジェクト検出器であるCenterNet上に構築された、効率的で効果的なフレームワークである。大規模画像や非一様オブジェクトの分布がもたらす課題を克服するため,正確な検出のためにクラスタ領域のズームインを適応的に検索するローカルスケールモジュール(LSM)を導入する。 Visdrone 2019 と UAVDT を含む2つの航空画像データセットに対する広範な実験を行い、提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-04-09T10:03:44Z)
Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery [51.73680703579997]
航空画像から都市規模のセマンティックスとビルレベルのインスタンスセグメンテーションのためのニューラルラジアンスフィールド法を提案する。都市空撮画像の物体は、建物、車、道路など、相当な大きさのバリエーションを示している。我々は,様々な大きさのオブジェクトのセグメンテーションを強化する,スケール適応型セマンティックラベル融合戦略を導入する。次に、2次元のインスタンスラベルにおける多視点不整合問題を緩和するために、新しいクロスビューインスタンスラベルグループ化戦略を導入する。
論文参考訳（メタデータ） (2024-03-18T14:15:39Z)
ARUBA: An Architecture-Agnostic Balanced Loss for Aerial Object Detection [24.085715205081385]
我々は、オブジェクトのサイズを画像中の画素数、サイズ不均衡として、データセット内の特定のサイズのオブジェクトの過剰表現として表現する。本稿では,任意のオブジェクト検出モデル上にプラグインとして適用可能な,新しいARchitectUre-Agnostic BAlanced Loss (ARUBA)を提案する。
論文参考訳（メタデータ） (2022-10-10T11:28:16Z)
Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。 DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文参考訳（メタデータ） (2022-05-23T23:05:07Z)
Scale Normalized Image Pyramids with AutoFocus for Object Detection [75.71320993452372]
スケール正規化画像ピラミッド(SNIP)が生成され、人間の視覚と同様に、異なるスケールで固定されたサイズ範囲内のオブジェクトにのみ参加する。本研究では,オブジェクトを含む可能性のある固定サイズのサブリージョンのみで動作する,効率的な空間サブサンプリング手法を提案する。結果のアルゴリズムはAutoFocusと呼ばれ、SNIPを使用する場合の推論では2.5～5倍のスピードアップとなる。
論文参考訳（メタデータ） (2021-02-10T18:57:53Z)
Bidirectional Multi-scale Attention Networks for Semantic Segmentation of Oblique UAV Imagery [30.524771772192757]
本稿では、より適応的で効果的な特徴抽出のために、複数スケールの特徴を双方向に融合する新しい双方向多スケールアテンションネットワークを提案する。当モデルでは,平均和合(mIoU)スコア70.80%でSOTA(State-of-the-art)を達成した。
論文参考訳（メタデータ） (2021-02-05T11:02:15Z)
Counting from Sky: A Large-scale Dataset for Remote Sensing Object Counting and A Benchmark Method [52.182698295053264]
リモートセンシング画像から高密度物体をカウントすることに興味がある。自然界における物体のカウントと比較すると、このタスクは、大規模変動、複雑な乱れ背景、配向仲裁といった要因において困難である。これらの課題に対処するために,我々はまず,4つの重要な地理的対象を含むリモートセンシング画像を用いた大規模オブジェクトカウントデータセットを構築した。次に、入力画像の密度マップを生成する新しいニューラルネットワークを設計することで、データセットをベンチマークする。
論文参考訳（メタデータ） (2020-08-28T03:47:49Z)
Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。 5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文参考訳（メタデータ） (2020-07-17T15:41:37Z)
Counting dense objects in remote sensing images [52.182698295053264]
特定の画像から関心のあるオブジェクトの数を推定するのは、難しいが重要な作業である。本稿では,リモートセンシング画像から高密度物体を数えることに興味がある。これらの課題に対処するために,我々はまず,リモートセンシング画像に基づく大規模オブジェクトカウントデータセットを構築した。次に、入力画像の密度マップを生成する新しいニューラルネットワークを設計することで、データセットをベンチマークする。
論文参考訳（メタデータ） (2020-02-14T09:13:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。