論文の概要、ライセンス

# (参考訳) uavからのオブジェクト検出にドメインラベルを活用する [全文訳有]

Leveraging domain labels for object detection from UAVs ( http://arxiv.org/abs/2101.12677v1 )

ライセンス: CC BY 4.0
Benjamin Kiefer, Martin Messmer, Andreas Zell(参考訳) 無人航空機(UAV)からの物体検出は、多くの航空ビジョンベースのアプリケーションで非常に重要です。 汎用物体検出法は非常に成功したが、UAVが捉えた画像に適用すると大きな性能低下が観測される。 これは、高度の変化、視野角の動的変化、撮影時間の違いなど、撮像条件のバリエーションが大きいためである。 ドメイン知識は貴重な情報源であり,自由にアクセス可能なセンサデータを用いて,ドメイン認識対象検出器を提案する。 モデルをクロスドメインとドメイン固有の部分に分割することで、複数のモデルとメトリクスにわたる複数のデータセットで大幅なパフォーマンス改善が達成される。 特に,実時間検出器用UAVDTの最先端性能について述べる。 さらに,高度と視野角のアノテーションを特徴とする2900画像に13個の713個の物体を注釈付けして,新たな空中画像データセットを作成する。

Object detection from Unmanned Aerial Vehicles (UAVs) is of great importance in many aerial vision-based applications. Despite the great success of generic object detection methods, a large performance drop is observed when applied to images captured by UAVs. This is due to large variations in imaging conditions, such as varying altitudes, dynamically changing viewing angles, and different capture times. We demonstrate that domain knowledge is a valuable source of information and thus propose domain-aware object detectors by using freely accessible sensor data. By splitting the model into cross-domain and domain-specific parts, substantial performance improvements are achieved on multiple datasets across multiple models and metrics. In particular, we achieve a new state-of-the-art performance on UAVDT for real-time detectors. Furthermore, we create a new airborne image dataset by annotating 13 713 objects in 2 900 images featuring precise altitude and viewing angle annotations.
公開日: Fri, 29 Jan 2021 16:42:52 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
© 2021 IEEE. © 2021 IEEE。 0.81
Personal use of this material is permitted. この素材の個人使用は許可されている。 0.65
Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republish ing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works. IEEEからの許可は、広告又は宣伝目的のためにこの資料を再印刷または再出版し、新しい集団作品を作成し、サーバまたはリストの再販売または再配布し、この作品の著作権のあるコンポーネントを他の作品で再利用することを含む、現在又は将来のメディアのあらゆる用途で取得されなければならない。 0.63
LEVERAGING DOMAIN LABELS FOR OBJECT DETECTION FROM UAVS uavからのオブジェクト検出にドメインラベルを活用する 0.35
Benjamin Kiefer†, Martin Messmer†, Andreas Zell ベンジャミン・キーフェル、マーティン・メッセメリ、アンドレアス・ツェル 0.39
Cognitive Systems Group, University of Tuebingen チュービンゲン大学認知システムグループ 0.52
1 2 0 2 n a J 1 2 0 2 n a J 0.85
9 2 ] V C . 9 2 ] V C。 0.81
s c [ 1 v 7 7 6 2 1 sc [ 1 v 7 7 6 2 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
ABSTRACT Object detection from Unmanned Aerial Vehicles (UAVs) is of great importance in many aerial vision-based applications. ABSTRACT 無人航空機(UAV)からの物体検出は、多くの航空ビジョンベースのアプリケーションで非常に重要です。 0.81
Despite the great success of generic object detection methods, a large performance drop is observed when applied to images captured by UAVs. 汎用物体検出法は非常に成功したが、UAVが捉えた画像に適用すると大きな性能低下が観測される。 0.70
This is due to large variations in imaging conditions, such as varying altitudes, dynamically changing viewing angles, and different capture times. これは、高度の変化、視野角の動的変化、撮影時間の違いなど、撮像条件のバリエーションが大きいためである。 0.75
We demonstrate that domain knowledge is a valuable source of information and thus propose domain-aware object detectors by using freely accessible sensor data. ドメイン知識は貴重な情報源であり,自由にアクセス可能なセンサデータを用いて,ドメイン認識対象検出器を提案する。 0.79
By splitting the model into cross-domain and domain-specific parts, substantial performance improvements are achieved on multiple datasets across multiple models and metrics. モデルをクロスドメインとドメイン固有の部分に分割することで、複数のモデルとメトリクスにわたる複数のデータセットで大幅なパフォーマンス改善が達成される。 0.67
In particular, we achieve a new state-of-the-art performance on UAVDT for real-time detectors. 特に,実時間検出器用UAVDTの最先端性能について述べる。 0.67
Furthermore, we create a new airborne image dataset by annotating 13 713 objects in 2 900 images featuring precise altitude and viewing angle annotations1. さらに,高度と視野角アノテーション1を特徴とする2900画像に,13個の713個の物体に注釈を付けて,新たな空中画像データセットを作成する。 0.63
Index Terms— Object detection, UAV, Domain, DNN Index Terms - Object Detection, UAV, Domain, DNN 0.90
1. INTRODUCTION Deep learning-based object detection from Unmanned Aerial Vehicles (UAVs) has developed to an important line of research due to its impact on many application areas, such as traffic surveillance, smart cities and search and rescue [1]. 1. 導入 無人航空機(UAV)からの深層学習に基づく物体検出は,交通監視,スマートシティ,捜索・救助など,多くの応用分野への影響から,重要な研究分野へと発展してきた。 0.70
While generic object detection has improved drastically lately [2], object detection on images captured from UAVs still poses great challenges [3]. ジェネリックオブジェクト検出は最近大幅に改善されました[2]が、UAVからキャプチャされた画像上のオブジェクト検出はまだ大きな課題 [3]。 0.69
Among these, the variation across domains is particularly challenging. その中で、ドメイン間の変化は特に困難です。 0.66
For example, an object detector encounters images taken from varying altitudes, angles of view, and at different times. 例えば、物体検出器は、様々な高度、角度、および異なる時間に撮影された画像に遭遇する。 0.77
More precisely, varying flying altitudes result in images containing differently sized objects with different resolutions while different viewing angles yield a multitude of different visual appearances. より正確には、異なる飛行高度は異なる解像度の異なる大きさの物体を含む画像をもたらすが、異なる視角は様々な視覚的外観をもたらす。 0.77
This problem becomes more severe when the interplay with different domains is considered (see Fig. 異なる領域との相互作用を考えると、この問題はより深刻になる(図参照)。
訳抜け防止モード: この問題はもっと深刻になる 異なるドメインとの相互作用が考慮されている(図参照)。
0.72
1). Another important factor of variation is the change in illumination and appearance at different times. 1). 変化のもう一つの重要な要因は、異なる時間における照明と外観の変化です。 0.78
†These two authors contributed equally. 2人の著者が等しく貢献した。 0.46
This work has been supported by the German Ministry for Economic この仕事はドイツ経済省が支援しています 0.78
Affairs and Energy, Project Avalon, FKZ: 03SX481B. 事務とエネルギー、プロジェクトアバロン、FKZ:03SX481B。 0.51
1Dataset and code will be made available at this URL. 1Datasetとコードは、このURLで利用可能になる。 0.78
Fig. 1. Predictions of the angle experts on two images of the dataset POG, showing the very same scenery taken from different perspectives (top: 10m, 10◦, bottom: 100m, 90◦) フィギュア。 1. データセット pog の 2 つの画像における角度の専門家の予測 : 異なる視点からとった全く同じ景色(トップ: 10m, 10 , ボトム: 100m, 90 ) 0.71
While domain information is implicitly encoded in the captured images, it is also explicitly available from the UAVs’ sensors: the altitude of the aircraft can be retrieved from the onboard GPS or barometer, the viewing angle from the gimbal pitch angle of the camera, and the time from an onboard clock. ドメイン情報はキャプチャされた画像に暗黙的にエンコードされるが、uavsのセンサーからは、航空機の高度をオンボードgpsまたはバロメーターから、カメラのジンバルピッチ角からの視野角、オンボードクロックからの時間まで、明示的に取得することができる。
訳抜け防止モード: ドメイン情報は、キャプチャされた画像に暗黙的にエンコードされます。 それはまたUAVsのセンサーから明示的に利用できます:航空機の高度はオンボードGPSまたは気圧計から取得することができます。 カメラのジンバルピッチ角度からの視野角。 そしてオンボード時計からの時間。
0.80
Therefore, we propose so-called expert models, which are composed of shared layers and domain-specific layers. そこで本稿では,共有層とドメイン固有層からなるいわゆるエキスパートモデルを提案する。 0.75
While the shared layers learn domain-invariant representations, the others preserve the domain-specific information, yielding robust performances in multi-domain settings. 共有レイヤはドメイン不変表現を学習するが、他のレイヤはドメイン固有の情報を保持し、マルチドメイン設定で堅牢なパフォーマンスをもたらす。 0.55
Our contributions are threefold: (i) We are the first to cast object detection from UAVs as a multi-domain learning [4] problem and construct domain-robust models by dividing them into shared and domain-specific layers, dubbed expert models. i) UAVからオブジェクト検出をマルチドメイン学習[4]問題としてキャストし、それらをエキスパートモデルと呼ばれる共有およびドメイン固有の層に分割することによってドメイン・ロバストモデルを構築するのは初めてです。 0.74
(ii) We demonstrate that the expert models consistently outperform multiple domain-agnostic models without sacrificing speed on three benchmarks, UAVDT [5], Visdrone [1] and PeopleOnGrass (POG), a dataset (iii) we captured and annotated with bounding boxes and precise domain labels, which will be provided to the community. (ii)uavdt[5],visdrone [1],peopleongrass (pog),バウンディングボックスと正確なドメインラベルでキャプチャして注釈付けしたデータセット(iii)の3つのベンチマークにおいて,複数のドメインに依存しないモデルに対して,速度を犠牲にすることなく,専門家モデルが一貫して優れることを示す。 0.74
2. RELATED WORK With the release of the UAVDT [5] and VisDrone [1] datasets, several works develop models specifically aimed at object 2. 関連作業 UAVDT [5]とVisDrone [1]データセットのリリースに伴い、オブジェクトに特化したモデルを開発する作品がいくつかある。 0.74
英語(論文から抽出)日本語訳スコア
detection from UAVs [6, 7, 8]. UAV[6, 7, 8]から検出する。 0.77
With [9], the concept of domains enters the field of object detection from UAVs, where a Siamese-GAN is introduced to learn invariant feature representations for labeled and unlabeled aerial images from two different domains. 9]では、ドメインの概念がUAVからオブジェクト検出の分野に入り、そこでシームズGANを導入し、2つの異なるドメインからラベル付きおよびラベルなしの空中画像の不変特徴表現を学習する。 0.81
However, such a domain adaptation method’s focus is to adapt the model from a fixed source domain to a fixed target domain. しかし、そのようなドメイン適応メソッドの焦点は、モデルを固定ソースドメインから固定ターゲットドメインに適応させることである。 0.76
Fine-grained domains are utilized by [10], where adversarial losses are employed to disentangle domain-specific nuisances. 細粒度ドメインは[10]によって利用され、敵の損失を利用してドメイン固有の迷惑を解消する。
訳抜け防止モード: きめ細かいドメインを[10]で利用します。 敵の損失はドメインを乱すために使われます。
0.63
However, the training is slow and unstable, and domain labels are ignored at test time. しかし、トレーニングは遅く不安定であり、ドメインラベルはテスト時に無視されます。 0.71
Expert models are proposed in [11] to account for objects with particular shapes (horizontally/vertic ally elongated, square-like). 専門家モデルは[11]で特定の形状の物体(水平または垂直に伸びた正方形)を考慮に入れている。 0.67
Since no domain labels are used in this work, they are formulated as a model ensemble too expensive to employ in multiple domains. この作業ではドメインラベルは使われないので、複数のドメインで使用するには高価すぎるモデルアンサンブルとして定式化されている。 0.63
A multi-domain learning approach for object detection is investigated in [12], where the focus is on learning multiple distinct datasets. オブジェクト検出のためのマルチドメイン学習アプローチを[12]で検討し,複数の異なるデータセットを学習することに焦点を当てた。 0.79
Transfer learning [13] is different in that it generally aims to learn invariant representations, whereas multi-domain learning preserves the domain-specific representations. トランスファーラーニング [13] は、一般的に不変表現を学習することを目的としているが、マルチドメイン学習はドメイン固有の表現を維持する。 0.58
3. MULTI-DOMAIN LEARNING APPROACH In multi-domain learning, image samples x with corresponding bounding box annotations y are accompanied by a discrete domain indicator d ∈ D = {D1, . 3. 多領域学習法 マルチドメイン学習では、対応する有界ボックスアノテーション y を持つ画像サンプル x に離散領域指示器 d ∈ D = {D1, が付随する。 0.69
. . , Dm} (which also is available at test time), such that a training sample is (x, d, y) and a test sample is (x, d). . . トレーニングサンプルが(x, d, y)であり、テストサンプルが(x, d)であるように、Dm}(テスト時にも利用できる)。 0.81
In particular, that means, we can leverage this domain information d at test time, which is the key to our expert models. 特に、このドメイン情報dをテスト時に活用することは、私たちのエキスパートモデルにとって鍵となります。 0.63
Motivated by [14] and [15], given an object detector model, we share lower layers across all domains and leave higher layers domain-specific. 14] と [15] に動機づけられ、オブジェクト検出器モデルが与えられたとき、私たちはすべてのドメインで下位のレイヤを共有し、より高いレイヤをドメイン固有に残します。 0.55
This approach follows the conventional wisdom that lower layers extract lower-level features, which are present across all domains, while higher layers extract higher-level features, which may differ substantially between domains (such as the people in Fig. このアプローチは、下位層がすべてのドメインに存在する低レベルな特徴を抽出し、上位層が高レベルな特徴を抽出しているという従来の考え方に従っている。 0.62
1). Empirically, this is backed up by [12], which shows that activations in higher layers differ vastly. 1). これは[12]によって裏付けられ、高層でのアクティベーションが大きく異なることを示す。 0.75
From preliminary experiments, we found empirically that it is best to split models not based on individual layers, but on groups of layers, which are known as stages [12]. 予備実験の結果,個々の層ではなく,段階[12]として知られる層群に基づいてモデルを分割するのが最善であることがわかった。 0.82
We denote the resulting model according to the domain dimension that is split and the stage until it is shared, such that the model in Fig. 図に示すように、分割されるドメインの寸法と共有されるまでのステージに応じて、結果のモデルを記述します。 0.72
2 is called time@3. 2 は time@3 と呼ばれる。 0.86
The branch for a particular domain is called an expert for that domain. 特定のドメインのブランチは、そのドメインのエキスパートと呼ばれます。 0.74
We explore empirically which stages are to be shared in section 4. セクション4で共有するステージを経験的に検討します。 0.56
While the number of parameters scales linearly with the number of domains, the inference speed stays constant as only a single expert is evaluated at a time. パラメータの数はドメイン数と線形にスケールするが、推論速度は1つの専門家のみが一度に評価されるため一定である。 0.79
Therefore, the experts effectively increase the model’s capacity without hampering the inference speed. 従って、専門家は推論の速度を妨げないで効果的にモデルの容量を高めます。 0.66
Furthermore, the experts’ sizes are still small enough such that they all fit even in embedded GPUs’ memory, as will be seen in section 4. さらに、専門家たちのサイズは依然として小さく、第4節に見られるように、組込みgpuのメモリにも収まる。
訳抜け防止モード: さらに、専門家のサイズはまだ十分に小さいです。 これらはすべて、セクション4で見られるように、組み込みGPUのメモリにも収まります。
0.80
Lastly, similar to what is done in transfer learning [13], we 最後に、転送学習[13]で行われていることと似ていますが、 0.62
Fig. 2. Illustration of a time@3 model with day and night experts. フィギュア。 2. 昼夜の専門家によるtime@3モデルのイラスト。 0.66
The time dimension is split into two domains, day (red) versus night (blue), where green outputs represent the shared stages (first, second, third). 時間次元は昼(赤)と夜(青)の2つの領域に分けられ、グリーン出力は共有ステージ(第1、第2、第3)を表す。 0.76
Every image is passed through the shared green stages. すべての画像は共有グリーンステージを通過します。 0.79
Then it is checked whether it is a day or night image and consequently passed through the red or blue stages, respectively. その後、昼夜の画像かどうかをチェックし、その結果、それぞれ赤または青の段階を通過します。 0.83
6 471 / 343 205 H 1 423 / 71 073 6 471 / 343 205 H 1 423 / 71 073 0.85
M 2 645 / 130 327 M 2 645 / 130 327 0.85
L 2 403 / 141 805 L 2 403 / 141 805 0.85
B 1 293 / 54 008 D 505 / 26 755 N 166 / 4 120 D 400 / 16 357 N 116 / 3 424 D 81 / 2 671 N 25 / 681 B 1 293 / 54 008 D 505 / 26 755 N 166 / 4 120 D 400 / 16 357 N 116 / 3 424 D 81 / 2 671 N 25 / 681 0.85
A 5 178 / 289 197 D 752 / 40 198 N 148 / 6 219 D 1 781 / 96 899 N 348 / 13 647 D 1 786 / 114 504 N 511 / 23 949 A 5 178 / 289 197 D 752 / 40 198 N 148 / 6 219 D 1 781 / 96 899 N 348 / 13 647 D 1 786 / 114 504 N 511 / 23 949 0.85
Table 1. Number of images / objects in the respective domain in the VisDrone train set. 表1。 VisDroneのトレインセット内の各ドメイン内の画像/オブジェクトの数。 0.75
The domains are bird view (B), acute viewing angle (A), high (H), medium (M), low (L), day (D) and night (N). 領域は、鳥図(B)、急性視角(A)、高(H)、中(M)、低(L)、昼(D)、夜(N)である。 0.64
freeze the shared stages after pretraining them on all domains in order to transfer knowledge between domains and such that weights will not be biased towards the over-represented domains [16]. すべてのドメインで事前トレーニングした後、共有ステージを凍結して、ドメイン間の知識を転送し、重みが過剰に表現されたドメインに偏らないようにする [16]。 0.64
This is particularly beneficial for datasets with great domain imbalances as is the case in UAVDT [5] and VisDrone (see Table 1). これは、UAVDT [5] および VisDrone (表1) の場合と同様に、大きなドメインの不均衡を持つデータセットにとって特に有益です。 0.76
4. EXPERIMENTAL RESULTS AND ABLATIONS 4. 実験結果とアブレーション 0.74
In the first two sets of experiments, we show how leveraging domain labels on UAVDT and VisDrone improves multiple model architectures’ performance. 最初の2つの実験では、UAVDTとVisDroneでドメインラベルを活用することで、複数のモデルアーキテクチャのパフォーマンスが向上することを示す。 0.73
Furthermore, we investigate the effect of different splitting strategies and ablations. さらに,異なる分割戦略とアブレーションの効果について検討した。 0.71
Lastly, we show that finer domain splitting is possible in the case of the dataset POG. 最後に、データセット pog の場合、より細かいドメイン分割が可能であることを示す。 0.64
70 and mAPavg We evaluate our models using the official evaluation protocols, i.e. 70とmAPavg 我々は、公式評価プロトコル、すなわち、モデルを評価する。 0.76
AP70 for UAVDT and mAP and mAP50 for VisDrone, respectively. AP70はUAVDT,mAPはmAP50,VisDroneはmAP50であった。 0.57
Furthermore, similar to [12], we report results on individual domains and their respective averages APavg 50 over all respective domains to measure the universal cross-domain performance. さらに,[12]と同様,各ドメインおよび各平均APavg50について,各ドメインに対して共通のクロスドメイン性能の測定結果について報告する。 0.88
These metrics weigh each domain equally and therefore mitigate the influence of domain imbalances in the test set. これらのメトリクスは各ドメインを等しく計量するため、テストセットにおけるドメインの不均衡の影響を緩和します。 0.68
They favor models that perform acceptably on all domains instead of just a few, possibly over-represented domains. 彼らは、おそらく過剰に表現される数個のドメインではなく、すべてのドメインで許容できるモデルを好む。 0.64
ClassificationRegres sionClassificationRe gressionObject DetectionBranchObjec t DetectionBranch ClassRegression ClassificationRegres sionObject DetectionBranchObjec t DetectionBranch 0.46
英語(論文から抽出)日本語訳スコア
DE-FPN [1] Altitude@0 Altitude@1 Altitude@2 Altitude@3 Altitude@4 Altitude@5 DE-FPN [1] Altitude@0 Altitude@1 Altitude@2 Altitude@3 Altitude@4 Altitude@5。 0.95
DE-FPN [1] Angle@4 DE-FPN [1] Angle@4 0.94
DE-FPN [1] DE-FPN [1] 0.84
Time@4 L 49.1 49.4 49.5 49.5 50.2 50.7 50.5 B 38.0 39.6 D 48.5 49.0 Time@4 L 49.1 49.4 49.5 49.5 50.2 50.7 50.5 B 38.0 39.6 D 48.5 49.0 0.66
M 49.7 49.6 49.7 49.9 50.2 50.2 50.0 A 49.0 49.8 N 52.0 52.6 M 49.7 49.6 49.7 49.9 50.2 50.2 50.0 A 49.0 49.8 N 52.0 52.6 0.48
H 36.0 35.5 35.7 36.1 36.8 37.5 37.5 H 36.0 35.5 35.7 36.1 36.8 37.5 37.5 0.46
mAP50 mAP mAPavg 50 48.6 44.9 44.8 48.3 45.0 48.5 45.2 48.7 45.7 49.2 49.9 46.1 46.0 49.7 mAP50 mAP mAPavg 50 48.6 44.9 44.8 48.3 45.0 48.5 45.2 48.7 45.7 49.2 49.9 46.1 46.0 49.7 0.47
26.1 25.9 25.9 26.1 26.6 27.4 27.0 26.1 25.9 25.9 26.1 26.6 27.4 27.0 0.43
48.6 49.4 48.6 49.0 48.6 49.4 48.6 49.0 0.50
26.1 27.0 26.1 26.6 26.1 27.0 26.1 26.6 0.50
43.5 44.7 50.2 50.8 43.5 44.7 50.2 50.8 0.50
Table 2. Expert results for various sharing strategies on VisDrone 表2。 VisDroneのさまざまな共有戦略のエキスパート結果。 0.76
4.1. VisDrone 4.1. VisDrone 0.78
The object detection track from VisDrone consists of around 10k images with 10 categories. VisDroneのオブジェクト検出トラックは、10カテゴリの約10k画像で構成されています。 0.69
All frames are annotated with domain labels regarding altitude (low (L), medium (M), high (H)), viewing angle (front, side, bird (B)) and light condition (day (D), night (N)) [10]. すべてのフレームは高度(L)、媒体(M)、高い(H)、視野角(前部、側面、鳥(B))および光条件(D)、夜(N)についてのドメイン ラベルとアノテートされます[10]。
訳抜け防止モード: すべてのフレームは、高度(低(L))に関するドメインラベルでアノテートされます。 媒体(M)、高い(H)、視野角(前部、前部)。 側面、鳥(B)およびライト状態(日(D))。 夜 (N ) ) [10 ]。
0.76
Note that we fuse the two domains ”front” and ”side” into a single domain ”acute angle (A)”, as, at test time, we can only distinguish between bird view and not bird view based on the camera angle. 2つのドメイン「フロント」と「サイド」を単一のドメイン「急性アングル(A)」に融合させることに注意してください。テスト時には、カメラアングルに基づいて鳥のビューと鳥のビューを区別することはできません。 0.74
We reimplement the best performing single-model (no ensemble) from the workshop report, DE-FPN [1], i.e. ワークショップレポート,DE-FPN [1],すなわち,最高のシングルモデル(アンサンブルなし)を再実装する。 0.70
a Faster R-CNN with a ResNeXt-101 64-4d [17] backbone (removing P6), which was trained using color jitter and random image cropping achieving 48.7% mAP50 on the test set. ResNeXt-101 64-4d[17]バックボーン(P6を除去)を備えたより高速なR-CNNは、テストセット上で48.7%のmAP50を達成できるカラージッタとランダム画像トリミングを使用して訓練された。
訳抜け防止モード: A Faster R - CNN with a ResNeXt-101 64 - 4d [ 17 ] backbone() P6を除去する)。 テストセットで48.7% % mAP50を達成しました
0.67
To compare with [10], we evaluate our models on the unseen validation set, on which our implementation yielded 48.6% mAP50. また, [10] と比較するために, 実装が48.6% mAP50 である未確認の検証セット上で, モデルの評価を行った。 0.70
From Table 2, we can make three observations: First, the altitude-experts improve over the baseline DE-FPN on the whole validation set and all domains individually if more than the second stage is shared. 表2から3つの観察を行うことができる: まず、高度試験は、検証セット全体のベースラインD-FPNと、第2ステージ以上の領域が共有されている場合、各ドメインに対して改善される。 0.70
The performance drop of Altitude@0 and Altitude@1 is likely caused by overfitting on the small domain H, on which the performance drop is -0.5 mAP50. Altitude@0とAltitude@1のパフォーマンス低下は、パフォーマンス低下が-0.5 mAP50である小さなドメインHのオーバーフィットによって引き起こされる可能性が高い。 0.73
Second, there seems to be an upward trend in performance, peaking at the fourth stage and dropping at the fifth stage. 第2に,パフォーマンスの上昇傾向があり,第4ステージがピーク,第5ステージが低下している。 0.77
Third, improvements are seen for all experts: +1.3, +0.8 and +0.4 mAP50 for the altitude-, angle- and timeexperts, respectively. +1.3、+0.8、+0.4 mAP50の高度、角度、タイムエキスパートがそれぞれ改善されている。 0.64
Furthermore, the performance improvements are seen in the domain-sensitive metric mAPavg 50 , yielding +1.2, +1.2 and +0.6 points for the respective experts. さらに、性能の改善は、各専門家のための+1.2、+1.2および+0.6ポイントをもたらす、ドメイン感受性メトリックmAPavg 50で見られます。 0.57
Table 3 shows that sharing along two and three domain dimensions is advantageous. 表3は、2次元と3次元の共有が有利であることを示している。 0.54
The altitude-angle@4-exp erts and the altitude-angle-time@ 4-experts improve DE-FPN on all domains individually and overall. 高度角@4-expertsと高度角@4-expertsは、各ドメインのD-FPNを個別に改善する。 0.60
In particular, we obtain a +1.8 and +2 mAPavg 50 increase, respectively. 特に、それぞれ +1.8 と +2 mAPavg 50 の増加を得る。 0.77
The standard metrics mAP and mAP50 show an improvement as well, albeit a lower one which is attributed to the failure of these metrics to capture domain imbalances in the validation set. 標準のmAPとmAP50も改善されているが、検証セットのドメイン不均衡を捉えるためにこれらのメトリクスが失敗したことに起因する低い値である。 0.79
DE-FPN [1] DE-FPN [1] 0.84
Altitudeangle@4 Altitudeangle@4 0.85
DE-FPN [1] DE-FPN [1] 0.84
Altitudeangletime@4 Altitudeangletime@4 0.85
↓ + → B A B A ↓ + → B B B B 0.79
B+D A+D A+N B+D A+D A+N B+D A+D A+N B+D A+D A+N 0.43
L 84.6 49.1 87.4 49.7 84.6 49.0 52.8 87.5 50.1 54.4 L 84.6 49.1 87.4 49.7 84.6 49.0 52.8 87.5 50.1 54.4 0.44
M 42.5 50.0 44.8 50.1 42.5 50.2 51.6 44.8 50.6 56.5 M 42.5 50.0 44.8 50.1 42.5 50.2 51.6 44.8 50.6 56.5 0.44
H 35.6 41.2 39.6 42.2 35.6 41.2 H 35.6 41.2 39.6 42.2 35.6 41.2 0.47
– 39.6 42.2 – – 39.6 42.2 – 0.65
mAP50 mAP mAPavg 50 48.6 50.5 mAP50 mAP mAPavg 50 48.6 50.5 0.69
26.1 49.0 26.3 26.1 49.0 26.3 0.59
52.3 48.6 26.1 52.3 48.6 26.1 0.59
50.9 49.6 26.8 50.9 49.6 26.8 0.59
52.9 Table 3. Results on specific domains for multi-dimension experts on VisDrone. 52.9 表3。 VisDroneの多次元専門家のための特定のドメインの結果。 0.66
For example, the Altitude-angle-time@ 4-expert achieves 54.4 mAP50 on the domain A+N+L (acute viewing angle, at night and low altitude). 例えば、Altitude-angle-time@ 4-expertは、ドメインA+N+L(急性視野角、夜間および低高度)で54.4 mAP50を達成する。 0.67
Note that there are no validation images in the domains B+N and A+N+H. なお、領域 B+N と A+N+H には検証画像がない。 0.71
DE-FPN [1] DE-FPN [1] 0.84
Altitude-time@4 Altitude-time@4 0.78
DE-FPN [1] Angle-time@4 DE-FPN [1] 角度時間@4 0.79
mAP50 mAP mAPavg 50 49.7 48.6 51.5 49.1 48.6 50.1 51.9 49.2 mAP50 mAP mAPavg 50 49.7 48.6 51.5 49.1 48.6 50.1 51.9 49.2 0.51
26.1 26.3 26.1 26.4 26.1 26.3 26.1 26.4 0.45
Table 4. Multi dimension experts on VisDrone Validation set 表4。 VisDrone Validation セットの多次元専門家 0.80
This contrast is, furthermore, seen in underrepresented domains being improved the most. さらに、過小評価されたドメインでは、この対比が最も改善されている。 0.55
For example, the altitudeangle-time@4 -experts improve the performance on the domain M+A+N, which only contains 348 images (see Table 1), from 51.6 mAP50 to 56.5 mAP50. 例えば、高度角time@4-expertsは、51.6 mAP50から56.5 mAP50までの348画像のみを含むドメインM+A+Nのパフォーマンスを向上させる。 0.72
Similar observations can be made from Table 4, where the altitude-time@4- and angle-time@4-experts both improve by +1.8 mAPavg 50 . 同様の観測は、高度時@4-と角度時@4-のどちらも+1.8 mAPavg 50で改善されているテーブル4から行うことができる。 0.65
To further test our approach in real-time scenarios, we choose the current best model family on the COCO test-dev according to [18], i.e. リアルタイムシナリオでのアプローチをさらにテストするために、[18]に従って、COCOテストデーブで現在最高のモデルファミリを選択します。 0.70
EfficientDet [19], and take the smallest model D0 as our baseline model. EfficientDet [19] そして、最小のモデルD0をベースラインモデルとします。 0.81
We test it on the NVIDIA Jetson AGX Xavier, which is an embedded computer with integrated GPU suitable for on-board processing. 我々はNVIDIA Jetson AGX Xavierでテストを行い、これは車載処理に適した統合GPUを備えた組み込みコンピュータである。 0.83
For that, we convert the trained model to half-precision using JetPack and TensorRT and set the performance mode to MAX-N. そこで,JetPack と TensorRT を用いてトレーニングしたモデルを半精度に変換し,MAX-N に性能モードを設定する。 0.76
The inference speed is reported in frames per second (fps) averaged over the validation set. 推論速度は、検証セット上で平均されるフレーム毎秒 (fps) で報告される。 0.77
Similar to [20], the fps times do not include the non-maximum suppression stage as TensorRT does not supported this. 20] と同様、TensorRT がサポートしていないため、fps 時間には非最大抑制段階は含まれない。 0.67
Keeping the image ratio, the employed longer image side is 1408px for training and testing. 画像比を維持すると、トレーニングとテストに使用される長い画像サイドは1408pxになる。 0.70
As shown in Table 5, sharing the backbone yields an improvement of 1.3 point mAP50 for the angle experts. 表5に示すように、バックボーンの共有は角度専門家のための1.3ポイントmAP50の改善をもたらす。 0.67
Both models run at 21.8fps, suitable for live on-board processing. どちらのモデルも21.8fpsで動作し、ライブオンボード処理に適している。 0.53
With all D0 Angle B 21.5 22.1 全部で D0 角度 B 21.5 22.1 0.67
A 24.9 26.2 mAP50 mAPavg 50 26.3 23.2 24.2 27.6 24.9 26.2 mAP50 mAPavg 50 26.3 23.2 24.2 27.6 0.60
Table 5. EfficientDet D0 Angle experts on VisDrone validation set テーブル5。 VisDrone 検証セットの EfficientDet D0 Angle エキスパート。 0.79
英語(論文から抽出)日本語訳スコア
Resnet-101-FPN [10] Resnet-101-FPN [10] 0.65
Altitude@2 Altitude@2 0.85
Resnet-101-FPN [10] Resnet-101-FPN [10] 0.65
Angle@2 Resnet-101-FPN [10] Angle@2 Resnet-101-FPN [10] 0.75
Time@2 L 61.9 62.5 B 28.9 33.6 D 51.4 53.4 Time@2 L 61.9 62.5 B 28.9 33.6 D 51.4 53.4 0.69
M 58.1 60.5 A 59.1 60.4 N 50.6 54.1 M 58.1 60.5 A 59.1 60.4 N 50.6 54.1 0.53
H 24.1 24.1 H 24.1 24.1 0.59
AP70 APavg 70 49.4 48.0 49.4 49.0 AP70 APavg 70 49.4 48.0 49.4 49.0 0.55
49.4 50.4 49.4 50.1 49.4 50.4 49.4 50.1 0.50
44.0 47.0 51 53.8 44.0 47.0 51 53.8 0.61
Table 6. Domain experts on the UAVDT test set 表6。 UAVDTテストセットに関するドメインエキスパート 0.73
Resnet-101 [10] Resnet-101 [10] 0.84
NDFT [10] Angle@2 NDFT [10] Angle@2 0.85
B 27.1 28.8 31.6 B 27.1 28.8 31.6 0.53
A 54.4 56.0 58.6 54.4 56.0 58.6 0.58
AP70 APavg 70 45.6 40.1 43.4 47.9 48.6 45.1 AP70 APavg 70 45.6 40.1 43.4 47.9 48.6 45.1 0.51
Table 7. Results for Resnet-101 backbone on UAVDT 表7。 resnet-101backbone on uavdtの結果 0.70
pre- and post-processing steps, we obtain a wall-clock time of 18.1fps. 処理前および処理後、壁時計時間18.1fpsを得る。 0.67
4.2. UAVDT 4.2. UAVDT 0.78
UAVDT contains around 41k frames with annotated cars, busses and trucks. UAVDTには41kフレームのアノテート車、バス、トラックがある。 0.70
Similar to [10], we fuse all classes into a single vehicle class. 10]と同様に、すべてのクラスを単一の車両クラスに融合します。 0.77
All frames are domain-annotated like VisDrone. すべてのフレームはVisDroneのようにドメインアノテートされます。 0.50
To compare our experts, we trained a Faster RCNN with ResNet-101-FPN like [10], which report 49.1 AP70, and obtained 49.4 AP70 on the test set serving as our baseline model. 専門家と比較するため、我々はFaster RCNNをResNet-101-FPNlike [10]でトレーニングし、49.1 AP70を報告し、ベースラインモデルとしてテストセットで49.4 AP70を得た。 0.65
As Table 6 shows, the angle@2- and time@2-experts improve performance over the baseline on both metrics. Table 6が示すように、 angle@2- と time@2-experts は両メトリクスのベースラインよりもパフォーマンスが向上する。 0.75
In particular, the angle@2-expert improves the baseline by +3 APavg 70 . 特に angle@2-expert はベースラインを +3 APavg 70 で改善する。 0.74
We also demonstrate that the performance gain using expert models does not vanish as we switch to another backbone, e.g. また、例えば、別のバックボーンに切り替えると、エキスパートモデルを使用したパフォーマンス向上が消えないことも示しています。 0.60
Resnet-101. resnet-101。 0.51
As shown in Table 7, the angle experts yield an increase in +3 AP70 and +5 AP avg 70 and even outperform NDFT, an approach using adversarial losses on domain labels. 表7に示すように、角度の専門家は +3 ap70 と +5 ap avg 70 の増加と、ドメインラベルの逆損失を用いたアプローチである ndft よりも優れています。
訳抜け防止モード: 表7に示すように、角度の専門家は+3 AP70と+5 AP avg 70の増加をもたらす。 NDFTはドメインラベルに対する敵対的損失を用いたアプローチである。
0.73
Similar as for VisDrone, Table 8 shows how the altitude experts with shared backbone can regain precision that has been sacrificed to the high speed of the D0 model. VisDroneと同様に、テーブル8は、共有バックボーンを持つ高度の専門家がD0モデルの高速に犠牲になった精度を取り戻す方法を示しています。 0.70
The large improvement of +18.1 AP70 is likely caused by the heavy domain imbalance of UAVDT [5] that the experts are successful to mitigate. 18.1 AP70の大幅な改善は、専門家が軽減に成功したUAVDT [5]の重いドメインの不均衡によって引き起こされる可能性が高い。 0.62
In particular, we set a new state-of-the-art performance for real-time detectors on embedded hardware by improving upon [20] by +9.0 AP70. 特に,[20]を+9.0 ap70で改善することにより,組込みハードウェア上でのリアルタイム検出器の新たな最先端性能を設定する。 0.69
Note that they tested on different embedded hardware. 彼らは異なる組み込みハードウェアでテストした。 0.80
4.3. POG: baseline and expert results 4.3. POG: ベースラインとエキスパートの成果 0.77
Lastly, we would like to note that there are no publicly available datasets for object detection from UAVs that include precise domain labels regarding altitude and viewing angle. 最後に、高度と視野角に関する正確なドメインラベルを含むuavからのオブジェクト検出用のデータセットが公開されていないことに留意したい。 0.75
We D0 UAV-Net [20] 私たち D0 UAV-Net [20] 0.76
Altitude AP70 17.1 26.2 35.2 緯度 AP70 17.1 26.2 35.2 0.54
FPS 21.8 18.3 21.8 FPS 21.8 18.3 21.8 0.53
Table 8. Altitude experts results on UAVDT test set 表8。 UAVDTテストセットの高度専門家結果。 0.77
D0 3xAltitude 6xAltitude D0 3xAltitude 6xAltitude 0.75
AP50 82.0 86.2 87.9 AP50 82.0 86.2 87.9 0.49
AP 36.4 40.3 40.8 AP 36.4 40.3 40.8 0.53
APavg 50 82.9 86.0 88.1 APavg 50 82.9 86.0 88.1 0.59
Table 9. (Finer) Altitude experts results on POG test set 表9。 (図)POGテストセットの高度専門家による結果 0.71
argue that this is a major impediment in the development of domain-aware models since these two factors majorly contribute to appearance changes. この2つの要因が外観変化に大きく寄与するため、ドメイン認識モデルの開発において、これは大きな障害であると主張する。 0.69
For that reason, we record the experimental dataset PeopleOnGrass (POG) containing 2 900 images (3840x2160px), showing people from various angles and altitudes varying from 0◦ (horizontally facing) to 90◦ (top-down) and 5m to 100m, respectively, each labeled with the precise altitude and angle it was captured at. そこで,2 900画像(3840x2160px)を含む実験データセットであるPeopleOnGrass (POG) を記録したところ,0/0(水平向き)から90/m(トップダウン)、100mまでのさまざまな角度と高度の人物が,それぞれが捉えられた正確な高度と角度でラベル付けされていることがわかった。
訳抜け防止モード: そのため、2 900 画像 (3840x2160px ) を含む実験データセット PeopleOnGrass (POG ) を収録した。 さまざまな角度と高度から、(水平に向き)0 から90 から(上から下)まで変化する人々を示す 5mから100mで、それぞれ正確な高度と角度でラベルが付けられました。
0.77
Further metadata, such as GPS location, UAV speed, and timestamps are also included. GPS位置情報、UAV速度、タイムスタンプなどのさらなるメタデータも含まれています。 0.80
We annotate 13 713 people and balance it with respect to the domain dimensions angle and altitude. 我々は、13人の713人をアノテートし、ドメイン次元の角度と高度についてバランスをとる。 0.63
This dataset will be released with the paper and hopefully will benefit the development of domain-aware models. このデータセットは論文とともにリリースされ、ドメイン対応モデルの開発に利益が期待できる。 0.78
For future reference, we establish an EfficientDet D0 baseline which can run in real-time on embedded hardware such as the Xavier board. 将来の参照のために、Xavierボードなどの組み込みハードウェア上でリアルタイムで実行できるEfficientDet D0ベースラインを確立します。 0.75
Finally, we employ altitude experts with shared backbone to showcase the effectiveness of a multi-domain learning approach on finer domains. 最後に,共有バックボーンを持つ高度の専門家を雇い,より細かい領域におけるマルチドメイン学習の有効性を示す。 0.70
We split the altitude dimension (0m-100m) into three and six equidistant domains and denote the experts 3xAltitude and 6xAltitude, respectively. 高度次元 (0m-100m) を3つの等値領域と6つの等値領域に分割し, それぞれ3xaltitudeと6xaltitudeを示す。 0.65
Table 9 shows that the baseline achieves 82.0 AP50, which the experts improve by +4.2 and +5.9 AP50, respectively, showing that experts further benefit from finer domain splits (6xAltitude +1.7 AP50 compared to 3xAltitude). 表9では、基準値が82.0 ap50となり、それぞれ4.2と5.9 ap50で改善され、専門家はより細かい領域分割(3xaltitude +1.7 ap50と3xaltitude)の恩恵を受ける。 0.56
5. CONCLUSION We are the first to successfully apply a multi-domain learning method to object detection from UAVs. 5. 結論 我々は、UAVからのオブジェクト検出にマルチドメイン学習法をうまく適用した最初の人物である。
訳抜け防止モード: 5. 結論 私たちは最初です UAVからのオブジェクト検出にマルチドメイン学習手法をうまく適用する。
0.74
We propose and analyze expert models leveraging metadata at test time. テスト時のメタデータを活用したエキスパートモデルの提案と分析を行う。 0.59
Although these expert models are conceptually simple, they achieve domain awareness and consistently improve several, heavily optimized state-of-the-art models on multiple datasets and metrics. これらのエキスパートモデルは概念的には単純だが、ドメインの認識を達成し、複数のデータセットやメトリクス上で複数の高度に最適化された最先端モデルを一貫して改善する。 0.54
In particular, our D0 expert yields 35.2% AP70 on UAVDT, making it the new state-of-the-art real-time detector on embedded hardware. 特に、当社のD0エキスパートはUAVDTで35.2%のAP70を出力し、組み込みハードウェアの最新のリアルタイムディテクタです。 0.65
Lastly, due to the lack of datasets with precise meta labels we introduce a new dataset that may help further studies in the field of multi-domain learning in object detection. 最後に、正確なメタラベルを持つデータセットがないため、オブジェクト検出におけるマルチドメイン学習の分野におけるさらなる研究に役立つ新しいデータセットを導入します。 0.83
英語(論文から抽出)日本語訳スコア
6. REFERENCES [1] Pengfei Zhu, Longyin Wen, Dawei Du, Xiao Bian, Haibin Ling, Qinghua Hu, Qinqin Nie, Hao Cheng, Chenfeng Liu, Xiaoyu Liu, et al., “VisDrone-DET2018: The vision meets drone object detection in image challenge results,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 6. 参考 [1] Pengfei Zhu, Longyin Wen, Dawei Du, Xiao Bian, Haibin Ling, Qinghua Hu, Qinqin Nie, Hao Cheng, Chenfeng Liu, Xiaoyu Liu, al., “VisDrone-DET2018: The vision meets drone object detection in image challenge results”, Proceedings of the European Conference on Computer Vision (ECCV) 2018, pp., pp. ] 0.73
0–0. [2] Zhong-Qiu Zhao, Peng Zheng, Shou-tao Xu, and Xindong Wu, “Object detection with deep learning: A review,” IEEE transactions on neural networks and learning systems, vol. 0–0. [2] Zhong-Qiu Zhao, Peng Zheng, Shou-tao Xu, and Xindong Wu, “Deep Learning: A review”, IEEEのニューラルネットワークと学習システムに関するトランザクション, Vol.. 0.77
30, no. 11, pp. 30だ 11, pp。 0.59
3212–3232, 2019. 3212–3232, 2019. 0.84
Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. IEEE International Conference on Computer Vision, 2019, pp. に出展しました。 0.83
1201–1210. 1201–1210. 0.71
[11] Hyungtae Lee, Sungmin Eum, and Heesung Kwon, “ME r-cnn: Multi-expert r-cnn for object detection,” IEEE Transactions on Image Processing, vol. [11]Hyungtae Lee, Sungmin Eum, and Heesung Kwon, “ME r-cnn: Multi-expert r-cnn for object detection”, IEEE Transactions on Image Processing, vol。 0.92
29, pp. 1030–1044, 2019. 29, pp。 1030–1044, 2019. 0.82
[12] Xudong Wang, Zhaowei Cai, Dashan Gao, and Nuno Vasconcelos, “Towards universal object detection by domain attention,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 12] Xudong Wang、Zhaowei Cai、Dashan Gao、Nuno Vasconcelosは、IEEE Conference on Computer Vision and Pattern Recognition、2019、ppのProceedingsで、“Towards Universal Object Detection by Domain attention”と題しています。 0.74
7289–7298. 7289–7298. 0.71
[3] Pengfei Zhu, Longyin Wen, Dawei Du, Xiao Bian, “Vision meets arXiv preprint [3]Pengfei Zhu, Longyin Wen, Dawei Du, Xiao Bian, “Vision meets arXiv preprint” 0.87
Qinghua Hu, and Haibin Ling, drones: Past, present and future,” arXiv:2001.06303, 2020. Qinghua Hu, and Haibin Ling, Drone: Past, present and future”. arXiv:2001.06303, 2020. 0.96
[13] Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Hui Xiong, and Qing He, “A comprehensive survey on transfer learning,” Proceedings of the IEEE, vol. [13]深川周、Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Hui Xiong, Qing He, “A comprehensive survey on transfer learning”, the Proceedings of the IEEE, vol. 0.79
109, no. 1, pp. 109 だめだ 1、p。 0.58
43–76, 2020. 43–76, 2020. 0.84
[4] Mahesh Joshi, Mark Dredze, William Cohen, and Carolyn Rose, “Multi-domain learning: when do domains matter?,” in Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012, pp. ^ Mahesh Joshi, Mark Dredze, William Cohen, Carolyn Rose, “Multi- domain learning: when do domain matter?” in Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012 pp. 2012 ] 0.78
1302–1312. 1302–1312. 0.71
[5] Dawei Du, Yuankai Qi, Hongyang Yu, Yifan Yang, Kaiwen Duan, Guorong Li, Weigang Zhang, Qingming Huang, and Qi Tian, “The unmanned aerial vehicle benchmark: Object detection and tracking,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 5]Dawei Du, Yuankai Qi, Hongyang Yu, Yifan Yang, Kaiwen Duan, Guorong Li, Weigang Zhang, Qingming Huang, Qi Tian, “The Unmanned air vehicle benchmark: Object Detection and Track” in Proceedings of the European Conference on Computer Vision (ECCV) 2018, 2018, pp。 0.78
370–386. [6] Igor ˇSevo and Aleksej Avramovi´c, “Convolutional neural network based automatic object detection on aerial images,” IEEE geoscience and remote sensing letters, vol. 370–386. Avramovi ́c, “Convolutional Neural Network based Automatic Object Detection on air image”, IEEE Geoscience and Remote Sen Sen letter, vol.[6] Igor ’Sevo and Aleksej Avramovi ́c。 0.78
13, no. 5, pp. 13、いいえ。 5, pp。 0.75
740–744, 2016. 740–744, 2016. 0.84
[7] Lars Wilko Sommer, Tobias Schuchert, and J¨urgen Beyerer, “Fast deep vehicle detection in aerial images,” in 2017 IEEE Winter Conference on Applications of Computer Vision (WACV). 2017年のIEEE Winter Conference on Applications of Computer Vision (WACV)において、Lars Wilko Sommer氏、Tobias Schuchert氏、J Wourgen Beyerer氏、"Fast Deep Vehicle Detection in air images"が発表された。 0.76
IEEE, 2017, pp. IEEE、2017 pp。 0.65
311–319. [8] Jian Ding, Nan Xue, Yang Long, Gui-Song Xia, and “Learning roi transformer for detecting arXiv preprint 311–319. [8]Jian Ding, Nan Xue, Yang Long, Gui-Song Xia, and “Learning roi transformer for detect arXiv preprint” 0.82
Qikai Lu, oriented objects in aerial arXiv:1812.00155, 2018. Qikai Lu, oriented objects in air arXiv:1812.00155, 2018 0.88
images,” [9] Laila Bashmal, Yakoub Bazi, Haikel AlHichri, Mohamad M AlRahhal, Nassim Ammour, and Naif Alajlan, “Siamese-gan: Learning invariant representations for aerial vehicle image categorization,” Remote Sensing, vol. イメージ」。 9] Laila Bashmal, Yakoub Bazi, Haikel AlHichri, Mohamad M AlRahhal, Nassim Ammour, Naif Alajlan, “Siamese-gan: Learning invariant representations for air vehicle image categorization”, Remote Sensing, vol。 0.70
10, no. 2, pp. 10、いいえ。 2、p。 0.69
351, 2018. 351, 2018. 0.85
[10] Zhenyu Wu, Karthik Suresh, Priya Narayanan, Hongyu Xu, Heesung Kwon, and Zhangyang Wang, “Delving into robust object detection from unmanned aerial vehicles: A deep nuisance disentanglement approach,” in 10]Zhenyu Wu, Karthik Suresh, Priya Narayanan, Hongyu Xu, Heesung Kwon, Zhangyang Wang, “Delving into robust object detection from unmanned air vehicle: A Deep nuisance disentanglement approach” in 0.76
[14] Rich Caruana, “Multitask learning,” Machine learning, 14]リッチなcaruana、“マルチタスク学習”、マシンラーニング、などです。 0.71
vol. 28, no. 1, pp. Vol. 28歳。 1、p。 0.60
41–75, 1997. 41–75, 1997. 0.84
[15] Sebastian Ruder, セバスチャン・ルーダー(Sebastian Ruder) 0.54
ing in deep neural networks,” arXiv:1706.05098, 2017. arXiv:1706.05098, 2017 0.31
“An overview of multi-task learnarXiv preprint マルチタスク学習用Xivプレプリントの概要 0.70
[16] Kemal Oksuz, Baris Can Cam, Sinan Kalkan, and Emre Akbas, “Imbalance problems in object detection: A review,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 16] Kemal Oksuz氏、Baris Can Cam氏、Sinan Kalkan氏、Emre Akbas氏、"Imbalance problem in object detection: A review", IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020。 0.74
[17] Saining Xie, Ross Girshick, Piotr Doll´ar, Zhuowen Tu, and Kaiming He, “Aggregated residual transformations for deep neural networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 17] コンピュータビジョンとパターン認識に関するIEEEカンファレンスのProceedings 2017で、Xie、Ross Girshick、Piotr Doll ́ar、Zhuowen Tu、Kaiming Heが「ディープニューラルネットワークの残留変換を集約した」と述べています。
訳抜け防止モード: [17 ]サイニング・ジー、ロス・ギルシック、ピョートル・ドル。 Zhuowen Tu, and Kaiming He, “Aggregated residual transformations for Deep Neural Network”。 In Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp。
0.76
1492–1500. 1492–1500. 0.71
[18] “Object [18] “object” 0.89
Detection on COCO 検出 オン COCO 0.76
test-dev,” https://paperswithco de.com/sota/ object-detection-on- coco, 2021-01-11. test-dev” https://paperswithco de.com/sota/ object-detection-on- coco, 2021-01-11。 0.62
Accessed: [19] Mingxing Tan, Ruoming Pang, and Quoc V Le, “Efficientdet: Scalable and efficient object detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. アクセス: [19]Mingxing Tan, Ruoming Pang, Quoc V Le, “Efficientdet: Scalable and efficient object detection” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp。 0.76
10781–10790. 10781–10790. 0.71
[20] Tobias Ringwald, Lars Sommer, Arne Schumann, Jurgen Beyerer, and Rainer Stiefelhagen, “UAV-net: A fast aerial vehicle detector for mobile platforms,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2019, pp. Tobias Ringwald, Lars Sommer, Arne Schumann, Jurgen Beyerer, and Rainer Stiefelhagen, “UAV-net: a fast air vehicle detector for mobile platform” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2019, pp。 0.77
0–0. 0–0. 0.71
           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。