論文の概要、ライセンス

# (参考訳) ロボットピッキングのための水中物体検出のデータセットとベンチマーク [全文訳有]

A Dataset And Benchmark Of Underwater Object Detection For Robot Picking ( http://arxiv.org/abs/2106.05681v1 )

ライセンス: CC BY 4.0
Chongwei Liu, Haojie Li, Shuchang Wang, Ming Zhu, Dong Wang, Xin Fan and Zhihui Wang(参考訳) ロボットピッキングのための水中物体検出は、多くの関心を集めている。 しかし、いくつかの問題により未解決の問題である。 以下に示す課題に対処することで、より現実的なものにするためのステップを踏み出します。 まず、現在利用可能なデータセットは基本的にテストセットアノテーションを欠いているため、研究者は他のSOTAと比較しなければならない(トレーニングセットから)。 他の方法のトレーニングはワークロードの増加につながり、研究者によって異なるデータセットが分割されるため、異なるアルゴリズムのパフォーマンスを比較するための統一ベンチマークは存在しない。 第二に、これらのデータセットには他にも欠点があり、例えば、多くの類似した画像や不完全なラベルがある。 これらの課題に向けて、すべての関連するデータセットの収集と再アノテーションに基づいて、データセット、検出水中オブジェクト(DUO)および対応するベンチマークを導入します。 DUOはより合理的な注釈を持つ多様な水中画像のコレクションを含んでいる。 対応するベンチマークは、JETSON AGX XAVIERを使用して検出速度を評価し、ロボット組み込み環境をシミュレートする、学術研究および産業応用のためのSOTA(MDtection framework)の効率と精度の指標を提供する。

Underwater object detection for robot picking has attracted a lot of interest. However, it is still an unsolved problem due to several challenges. We take steps towards making it more realistic by addressing the following challenges. Firstly, the currently available datasets basically lack the test set annotations, causing researchers must compare their method with other SOTAs on a self-divided test set (from the training set). Training other methods lead to an increase in workload and different researchers divide different datasets, resulting there is no unified benchmark to compare the performance of different algorithms. Secondly, these datasets also have other shortcomings, e.g., too many similar images or incomplete labels. Towards these challenges we introduce a dataset, Detecting Underwater Objects (DUO), and a corresponding benchmark, based on the collection and re-annotation of all relevant datasets. DUO contains a collection of diverse underwater images with more rational annotations. The corresponding benchmark provides indicators of both efficiency and accuracy of SOTAs (under the MMDtection framework) for academic research and industrial applications, where JETSON AGX XAVIER is used to assess detector speed to simulate the robot-embedded environment.
公開日: Thu, 10 Jun 2021 11:56:19 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
A DATASET AND BENCHMARK OF UNDERWATER OBJECT DETECTION FOR ROBOT ロボットの水中物体検出のためのデータセットとベンチマーク 0.48
PICKING Chongwei Liu, Haojie Li, Shuchang Wang, Ming Zhu, Dong Wang, Xin Fan, and Zhihui Wang∗ ピッキング 重慶理・法会理・宗昌王・明宗・東王・新華華・周*
訳抜け防止モード: ピッキング Chongwei Liu, Haojie Li, Shuchang Wang, Ming Zhu ドン・ワン、シン・ファン、ジウイ・ワン*
0.59
DUT-RU International School of Information Science & Engineering, Dalian University of Technology 大連工業大学情報工学専門学校(DUT-RU International School of Information Science and Engineering) 0.69
{lcwdllg, lwiiy}@mail.dlut.edu.cn {lcwdllg, lwiiy}@mail.dlut.edu.cn 0.67
{hjli, zhuming, wdice, zhwang}@dlut.edu.cn hjli, zhuming, wdice, zhwang}@dlut.edu.cn 0.92
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] V C . 0 1 ] 略称はC。 0.73
s c [ 1 v 1 8 6 5 0 sc [ 1 v 1 8 6 5 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
ABSTRACT Underwater object detection for robot picking has attracted a lot of interest. ABSTRACT ロボットピッキングのための水中物体検出は、多くの関心を集めている。 0.77
However, it is still an unsolved problem due to several challenges. しかし、いくつかの問題により未解決の問題である。 0.68
We take steps towards making it more realistic by addressing the following challenges. 以下に示す課題に対処することで、より現実的なものにするためのステップを踏み出します。 0.44
Firstly, the currently available datasets basically lack the test set annotations, causing researchers must compare their method with other SOTAs on a self-divided test set (from the training set). まず、現在利用可能なデータセットは基本的にテストセットアノテーションを欠いているため、研究者は他のSOTAと比較しなければならない(トレーニングセットから)。 0.70
Training other methods lead to an increase in workload and different researchers divide different datasets, resulting there is no unified benchmark to compare the performance of different algorithms. 他の方法のトレーニングはワークロードの増加につながり、研究者によって異なるデータセットが分割されるため、異なるアルゴリズムのパフォーマンスを比較するための統一ベンチマークは存在しない。 0.69
Secondly, these datasets also have other shortcomings, e g , too many similar images or incomplete labels. 第二に、これらのデータセットには他にも欠点があり、例えば、多くの類似した画像や不完全なラベルがある。 0.51
Towards these challenges we introduce a dataset, Detecting Underwater Objects (DUO), and a corresponding benchmark, based on the collection and re-annotation of all relevant datasets. これらの課題に向けて、すべての関連するデータセットの収集と再アノテーションに基づいて、データセット、検出水中オブジェクト(DUO)および対応するベンチマークを導入します。 0.71
DUO contains a collection of diverse underwater images with more rational annotations. DUOはより合理的な注釈を持つ多様な水中画像のコレクションを含んでいる。 0.62
The corresponding benchmark provides indicators of both efficiency and accuracy of SOTAs (under the MMDtection framework) for academic research and industrial applications, where JETSON AGX XAVIER is used to assess detector speed to simulate the robot-embedded environment. 対応するベンチマークは、JETSON AGX XAVIERを使用して検出速度を評価し、ロボット組み込み環境をシミュレートする、学術研究および産業応用のためのSOTA(MDtection framework)の効率と精度の指標を提供する。 0.86
Index Terms— Underwater object detection, robot pick- 指標項 -水中物体検出, ロボットピック- 0.82
ing, dataset, benchmark ing、dataset、benchmark 0.73
1. INTRODUCTION Underwater robot picking is to use the robot to automatically capture sea creatures like holothurian, echinus, scallop, or starfish in an open-sea farm where underwater object detection is the key technology for locating creatures. 1. 導入 水中ロボットピッキングは、水中の物体検出が生物を探索するための重要な技術であるオープンシーファームで、holothurian、echinus、scallop、starfishなどの海洋生物を自動的に捕獲するためにロボットを使用する。 0.68
Until now, the datasets used in this community are released by the Underwater Robot Professional Contest (URPC1) beginning from 2017, in which URPC2017 and URPC2018 are most often used for research. これまで、このコミュニティで使用されるデータセットは、2017年からUnderwater Robot Professional Contest (URPC1)によってリリースされ、URPC2017とURPC2018が最もよく研究に使用される。 0.81
Unfortunately, as the information listed in Table 1, URPC series datasets do not provide the annotation file of the test set and cannot be downloaded after the contest. 残念ながら、テーブル1にリストされている情報として、URPCシリーズのデータセットはテストセットのアノテーションファイルを提供しておらず、コンテスト後にダウンロードできない。 0.72
1Underwater Robot Professional Contest: http://en.cnurpc.org . 1Underwater Robot Professional Contest: http://en.cnurpc.org 0.73
Table 1. Information about all the collected datasets. 表1。 収集されたすべてのデータセットに関する情報。 0.65
* denotes the test set’s annotations are not available. * はテストセットのアノテーションが利用できないことを示す。 0.79
3 in Class means three types of creatures are labeled, i.e., holothurian, echinus, and scallop. クラス3は、ホロトリアン、エチヌス、スカロップの3種類の生物に分類されることを意味する。 0.71
4 means four types of creatures are labeled (starfish added). 4は4種類の生物をラベル付けすることを意味する。 0.71
Retention represents the proportion of images that retain after similar images have been removed. 保持は、同様の画像が削除された後に保持される画像の割合を表す。 0.65
Test Class Retention Year Train Dataset 985* 2017 17,655 URPC2017 2018 2,901 800* URPC2018 2019 4,757 1,029* URPC2019 2020 URPC2020ZJ 5,543 2,000* URPC2020DL 6,575 2,400* 2020 2020 400 UDD テストクラス保持年次データセット 985* 2017 17,655 URPC2017 2018 2,901 800* URPC2018 2019 4,757 1,029* URPC2019 2020 URPC2020ZJ 5,543 2,000* URPC2020DL 6,575 2,400* 2020 2020 400 UDD 0.69
15% 99% 86% 82% 80% 84% 15% 99% 86% 82% 80% 84% 0.85
3 4 4 4 4 3 3 4 4 4 4 3 0.85
1,827 Therefore, researchers [1, 2] first have to divide the training data into two subsets, including a new subset of training data and a new subset of testing data, and then train their proposed method and other SOTA methods. 1,827 そのため、[1, 2] 研究者はまず、トレーニングデータの新しいサブセットとテストデータの新しいサブセットを含むトレーニングデータを2つのサブセットに分割し、提案したメソッドや他のSOTAメソッドをトレーニングする必要がある。 0.70
On the one hand, training other methods results in a significant increase in workload. 一方、他の方法をトレーニングすると、ワークロードが大幅に増加する。 0.67
On the other hand, different researchers divide different datasets in different ways, causing there is no unified benchmark to compare the performance of different algorithms. 一方、異なる研究者は異なる方法で異なるデータセットを分割し、異なるアルゴリズムのパフォーマンスを比較するための統一ベンチマークは存在しない。 0.82
In terms of the content of the dataset images, there are a large number of similar or duplicate images in the URPC datasets. データセットのイメージの内容に関しては、URPCデータセットには、多くの類似または重複したイメージがある。 0.76
URPC2017 only retains 15% images after removing similar images compared to other datasets. URPC2017は、他のデータセットと同じような画像を削除した後のみ、15%のイメージを保持する。 0.54
Thus the detector trained on URPC2017 is easy to overfit and cannot reflect the real performance. したがって、URPC2017でトレーニングされた検出器は、オーバーフィットが容易で、実際のパフォーマンスを反映できない。 0.56
For other URPC datasets, the latter also includes images from the former, e g , URPC2019 adds 2,000 new images compared to URPC2018; compared with URPC2019, URPC2020ZJ adds 800 new images. 他のURPCデータセットでは、前者のイメージ、例えば、URPC2019では、URPC2018と比較して2000の新しいイメージが追加されている。 0.62
The URPC2020DL adds 1,000 new images compared to the URPC2020ZJ. URPC2020DLには、URPC2020ZJと比較して1,000の新しいイメージが追加されている。 0.44
It is worth mentioning that the annotation of all datasets is incomplete; some datasets lack the starfish labels and it is easy to find error or missing labels. データセットの中にはstarfishのラベルがなく、エラーやラベルの欠如を見つけるのが容易なものもある。
訳抜け防止モード: すべてのデータセットのアノテーションが不完全であることには注意が必要だ。 starfishラベルがないデータセットもあり、エラーや欠落したラベルを見つけるのが簡単である。
0.62
[3] pointed out that although the CNN model has a strong fitting ability for any dataset, the existence of dirty data will significantly weaken its robustness. CNNモデルはどんなデータセットにも強い適合性を持っているが、汚いデータの存在は、その堅牢性を著しく弱めるだろう、と [3] 指摘した。
訳抜け防止モード: [3]は指摘しましたが CNNモデルはどんなデータセットにも強力な適合性を持つ。 汚いデータの存在は その堅牢性を著しく弱める。
0.67
Therefore, a reasonable dataset (containing a small number of similar images as well as an accurate annotation) and a したがって、合理的なデータセット(少数の類似した画像と正確なアノテーションを含む)と、 0.78
978-1-6654-3864-3/21 /$31.00 ©2021 IEEE 978-1-6654-3864-3/21 /$31.00 >2021 IEEE 0.35
英語(論文から抽出)日本語訳スコア
Fig. 1. Examples in DUO, which show a variety of scenarios in underwater environments. フィギュア。 1. DUOの例では、水中環境における様々なシナリオを示す。 0.71
corresponding recognized benchmark are urgently needed to promote community development. 承認された基準は コミュニティ開発を促進するために 緊急に必要です 0.56
To address these issues, we introduce a dataset called Detecting Underwater Objects (DUO) by collecting and reannotating all the available underwater datasets. これらの問題に対処するために、利用可能な水中データセットをすべて収集し、再注釈することで、検出水中オブジェクト(DUO)と呼ばれるデータセットを導入する。 0.55
It contains 7,782 underwater images after deleting overly similar images and has a more accurate annotation with four types of classes (i.e., holothurian, echinus, scallop, and starfish). 非常に類似した画像を削除した後の7,782枚の水中画像を含み、より正確な4種類の分類(ホロトゥリアヌス、キチヌス、頭蓋骨、ヒトデ)を持つ。 0.65
Besides, based on the MMDetection2 [4] framework, we also provide a SOTA detector benchmark containing efficiency and accuracy indicators, providing a reference for both academic research and industrial applications. さらに,MMDetection2[4]フレームワークをベースとして,効率と精度の指標を含むSOTA検出ベンチマークも提供し,学術研究と産業応用の両面での参考となる。 0.85
It is worth noting that JETSON AGX XAVIER3 was used to assess all the detectors in the efficiency test in order to simulate robot-embedded environment. なお、JETSON AGX XAVIER3は、ロボットが埋め込まれた環境をシミュレートするために、効率テストのすべての検出器を評価するために使用された。 0.68
DUO will be released in https://github.com/c hongweiliu soon. DUOはもうすぐhttps://github.com/c hongweiliu.comでリリースされる。 0.55
In summary, the contributions of this paper can be listed 要約すると、本稿の貢献はリストアップできる。 0.63
as follows. • By collecting and re-annotating all relevant datasets, we introduce a dataset called DUO with more reasonable annotations as well as a variety of underwater scenes. 以下のとおり。 • すべての関連するデータセットの収集と再アノテーションを行うことで、より合理的なアノテーションとさまざまな水中シーンを備えたDUOと呼ばれるデータセットを導入する。 0.65
• We provide a corresponding benchmark of SOTA detectors on DUO including efficiency and accuracy indicators which could be a reference for both academic research and industrial applications. • DUOにおけるSOTA検出器の精度と効率の指標を,学術研究と産業応用の両分野の基準として,対応するベンチマークとして提示する。 0.74
2MMDetection is an open source object detection toolbox based on Py- 2MMDetectionはPyに基づいたオープンソースのオブジェクト検出ツールボックスである 0.75
Torch. https://github.com/o pen-mmlab/mmdetectio n トーチ。 https://github.com/o pen-mmlab/mmdetectio n 0.44
3JETSON AGX XAVIER is an embedded development board produced by NVIDIA which could be deployed in an underwater robot. 3JETSON AGX XAVIERはNVIDIAが開発した組み込み開発ボードで、水中ロボットに展開できる。 0.80
Please refer https://developer.nv idia.com/embedded/je tson-agx-xavier-deve loperkit for more information. 詳細はhttps://developer.nv idia.com/embedded/je tson-agx-xavier-deve loperkitを参照。 0.44
2. BACKGROUND In the year of 2017, underwater object detection for open-sea farming is first proposed in the target recognition track of Underwater Robot Picking Contest 20174 (URPC2017) which aims to promote the development of theory, technology, and industry of the underwater agile robot and fill the blank of the grabbing task of the underwater agile robot. 2. 背景 2017年、水中アジャイルロボットの理論、技術、産業の発展を促進し、水中アジャイルロボットの捕獲作業の空白を埋めることを目的とした、水中ロボットピッキングコンテスト20174(URPC2017)の目標認識トラックで、オープンシー農業のための水中物体検出が最初に提案された。 0.69
The competition sets up a target recognition track, a fixed-point grasping track, and an autonomous grasping track. 競技者は、目標認識トラック、固定点把握トラック、自律的把握トラックを設置する。 0.60
The target recognition track concentrates on finding the high accuracy and efficiency algorithm which could be used in an underwater robot for automatically grasping. 目標認識トラックは、水中ロボットが自動的に把握するために使用できる高精度で効率のよいアルゴリズムを見つけることに集中する。 0.81
The datasets we used to generate the DUO are listed be- DUO の生成に使用したデータセットは be- 0.80
low. The detailed information has been shown in Table 1. 低い 詳細は表1に示されています。 0.62
URPC2017: It contains 17,655 images for training and 985 images for testing and the resolution of all the images is 720×405. URPC2017: トレーニング用の17,655イメージとテスト用の985イメージを含み、すべてのイメージの解像度は720×405です。 0.66
All the images are taken from 6 videos at an interval of 10 frames. すべての画像は10フレームの間隔で6つのビデオから撮影される。 0.82
However, all the videos were filmed in an artificial simulated environment and pictures from the same video look almost identical. しかし、全てのビデオは人工的なシミュレート環境で撮影され、同じビデオからの映像はほぼ同じように見える。 0.77
URPC2018: It contains 2,901 images for training and 800 images for testing and the resolutions of the images are 586×480, 704×576, 720×405, and 1,920×1,080. URPC2018: トレーニング用の2,901イメージとテスト用の800イメージを含み、画像の解像度は586×480, 704×576, 720×405, 1,920×1,080である。 0.62
The test set’s annotations are not available. テストセットのアノテーションは利用できません。 0.63
Besides, some images were also collected from an artificial underwater environment. また、人工的な水中環境から収集した画像もある。 0.73
URPC2019: It contains 4,757 images for training and 1029 images for testing and the highest resolution of the images is 3,840×2,160 captured by a GOPro camera. urpc2019: トレーニング用画像は4,757枚、テスト用画像は1029枚、最高解像度はgoproカメラで撮影した3,840×2,160枚。
訳抜け防止モード: urpc2019 : トレーニング用4,757画像,テスト用1029画像 最高解像度は3,840×2,160で、goproカメラが撮影したものです。
0.72
The test set’s annotations are also not available and it contains images from the former contests. テストセットのアノテーションも利用できず、以前のコンテストの画像が含まれている。 0.66
URPC2020ZJ: From 2020, the URPC will be held twice a year. URPC 2020ZJ: 2020年以降、URPCは年に2回開催されます。 0.72
It was held first in Zhanjiang, China, in April and then 最初は中国の山江で、その後4月に行われた。 0.69
4From 2020, the name has been changed into Underwater Robot Profes- 4From 2020で「水中ロボットプロフェス」に名称変更 0.71
sional Contest which is also short for URPC. sional Contestは、URPCにも短い。 0.66
英語(論文から抽出)日本語訳スコア
3.2. Image Re-annotation 3.2. Image Re Annotation 0.79
Due to the small size of objects and the blur underwater environment, there are always missing or wrong labels in the existing annotation files. オブジェクトのサイズが小さく、水中環境がぼやけているため、既存のアノテーションファイルには常にラベルが欠落したり間違ったりしている。 0.70
In addition, some test sets’ annotation files are not available and some datasets do not have the starfish annotation. さらに、一部のテストセットのアノテーションファイルは利用できず、いくつかのデータセットは starfishアノテーションを持っていない。 0.69
In order to address these issues, we follow the next process which combines a CNN model and manual annotation to re-annotate these images. これらの問題に対処するために、我々はcnnモデルと手動アノテーションを組み合わせてこれらの画像を再注釈する次のプロセスに従う。 0.68
Specifically, we first train a detector (i.e., GFL [6]) with the originally labeled images. 具体的には、まず最初に検出器(GFL[6])をラベル付き画像で訓練する。 0.71
After that, the trained detector predicts all the 7,782 images. その後、訓練された検出器は7,782枚の画像を全て予測する。 0.54
We treat the prediction as the groundtruth and use it to train the GFL again. 我々は、この予測を基盤として扱い、再びGFLのトレーニングに利用します。 0.65
We get the final GFL prediction called the coarse annotation. 粗いアノテーションと呼ばれる最後のGFL予測が得られる。 0.71
Next, we use manual correction to get the final annotation called the fine annotation. 次に、手動修正を使用して、ファインアノテーションと呼ばれる最終アノテーションを取得します。 0.55
Notably, we adopt the COCO [7] annotation form as the final format. 特に、最終フォーマットとしてCOCO[7]アノテーション形式を採用しています。 0.74
3.3. Dataset Statistics 3.3. データセット統計 0.75
The proportion of classes: The total number of objects is 74,515. クラスの割合: オブジェクトの総数は74,515である。 0.78
Holothurian, echinus, scallop, and starfish are 7,887, 50,156, 1,924, and 14,548, respectively. ホロートリアン、エチヌス、スカロップ、スターフィッシュはそれぞれ7,887、50,156、1,924、14,548である。 0.53
Figure 2 shows the proportion of each creatures where echinus accounts for 67.3% of the total. 図2は、エキヌスが全体の67.3%を占める各生物の割合を示しています。 0.71
The whole data distribution shows an obvious long-tail distribution because the different economic benefits of different seafoods determine the different breed quantities. データ分布全体は、異なる海産物の経済的利益が異なる品種の量を決定するため、明らかにロングテール分布を示す。 0.78
The distribution of instance sizes: Figure 3(a) shows an instance size distribution of DUO. インスタンスサイズの分布: 図3(a)はduoのインスタンスサイズ分布を示しています。 0.85
Percent of image size represents the ratio of object area to image area, and Percent of instance represents the ratio of the corresponding number of objects to the total number of objects. 画像サイズの割合は、画像面積と画像面積の比率を表し、例のパーセントは、対応するオブジェクトの数とオブジェクトの総数の割合を表します。
訳抜け防止モード: 画像サイズの割合は、対象領域と画像領域の比率を表す。 インスタンスのパーセントは、対応するオブジェクトの数とオブジェクトの総数との比率を表しています。
0.83
Because of these small creatures and high-resolution images, the vast majority of objects occupy 0.3% to 1.5% of the image area. これらの小さな生物と高解像度の画像のため、ほとんどの天体は画像面積の0.3%から1.5%を占める。 0.68
The instance number per image: Figure 3(b) illustrates the number of categories per image for DUO. 画像毎のインスタンス番号:図3(b)は、DUOのイメージ毎のカテゴリ数を示しています。 0.72
Number of instances represents the number of objects one image has, and Percentage of images represents the ratio of the corresponding number of images to the total number of images. 画像のインスタンス数は、画像が持つオブジェクトの数を表し、画像の割合は、対応する画像の数と画像の総数との比率を表す。 0.79
Most images contain between 5 and 15 instances, with an average of 9.57 instances per image. ほとんどの画像は5から15のインスタンスを含み、平均9.57のインスタンスがある。 0.63
Summary: In general, smaller objects are harder to detect. まとめ: 一般的に、より小さなオブジェクトは検出が難しい。 0.83
For PASCAL VOC [8] or COCO [7], roughly 50% of all objects occupy no more than 10% of the image itself, and others evenly occupy from 10% to 100%. PASCAL VOC [8] や COCO [7] では、すべてのオブジェクトの約50%が画像自体の10%以下を占めており、その他のオブジェクトは10%から100%を占める。 0.82
In the aspect of instances number per image, COCO contains 7.7 instances per image and VOC contains 3. 画像当たりのインスタンス番号の面では、COCOはイメージ当たり7.7インスタンス、VOCは3.3インスタンスである。
訳抜け防止モード: イメージ単位のインスタンス番号の面において。 COCOにはイメージ当たり7.7のインスタンスがある VOCは3。
0.68
In comparison, DUO has 9.57 instances per image and most instances less than 1.5% of the image size. 対照的に、DUOは画像あたり9.57のインスタンスを持ち、ほとんどのインスタンスは画像サイズの1.5%未満である。 0.56
Therefore, DUO contains almost exclusively massive small instances and has the long-tail distribution at the same time, which means it is promising to design a detector to deal with massive small objects and stay high efficiency at the same time for underwater robot picking. したがってduoは、ほぼ独占的に巨大な小さなインスタンスを持ち、同時にロングテール分布を持つ。つまり、巨大な小さなオブジェクトを扱う検出器の設計と、水中ロボットのピッキングと同時に高い効率を維持することを約束している。 0.75
Fig. 2. The proportion distribution of the objects in DUO. フィギュア。 2. DUOにおける対象物の比率分布 0.64
in Dalian, China, in August. URPC2020ZJ means the dataset released in the first URPC2020 and URPC2020DL means the dataset released in the second URPC2020. 8月に中国の大連で URPC2020ZJは最初のURPC2020でリリースされたデータセット、URPC2020DLは2番目のURPC2020でリリースされたデータセットを意味する。 0.48
This dataset contains 5,543 images for training and 2,000 images for testing and the highest resolution of the images is 3,840×2,160. このデータセットはトレーニング用の5,543枚の画像とテスト用の2,000枚の画像を含み、画像の最高解像度は3,840×2,160である。
訳抜け防止モード: このデータセットにはトレーニング用の5,543イメージとテスト用の2,000イメージが含まれている 解像度は3,840×2,160。
0.58
The test set’s annotations are also not available. テストセットのアノテーションも利用できない。 0.49
URPC2020DL: This dataset contains 6,575 images for training and 2,400 images for testing and the highest resolution of the images is 3,840×2,160. URPC2020DL: このデータセットは、トレーニング用の6,575イメージとテスト用の2,400イメージを含み、画像の最高解像度は3,840×2,160である。
訳抜け防止モード: urpc2020dl : トレーニング用6,575イメージとテスト用2,400イメージを含むデータセット 解像度は3,840×2,160。
0.64
The test set’s annotations are also not available. テストセットのアノテーションも利用できない。 0.49
UDD [5]: This dataset contains 1,827 images for training and 400 images for testing and the highest resolution of the images is 3,840×2,160. UDD [5]: このデータセットはトレーニング用の1,827イメージとテスト用の400イメージを含み、画像の最高解像度は3,840×2,160です。 0.67
All the images are captured by a diver and a robot in a real open-sea farm. すべての画像は、本物のオープンシーファームでダイバーとロボットによって撮影されます。 0.73
3. PROPOSED DATASET 3. 提案データセット 0.59
3.1. Image Deduplicating 3.1. 画像の重複 0.64
As we explained in Section 1, there are a large number of similar or repeated images in the series of URPC datasets. 第1節で説明したように、一連のURPCデータセットには、多くの類似または繰り返しの画像があります。 0.67
Therefore, it is important to delete duplicate or overly similar images and keep a variety of underwater scenarios when we merge these datasets together. したがって、重複または過度に類似した画像を削除し、これらのデータセットをマージする場合、さまざまな水中シナリオを維持することが重要です。 0.65
Here we employ the Perceptual Hash algorithm (PHash) to remove those images. ここでは、知覚ハッシュアルゴリズム(PHash)を用いて画像を削除する。 0.82
PHash has the special property that the hash value is dependent on the image content, and it remains approximately the same if the content is not significantly modified. PHashは、ハッシュ値が画像内容に依存するという特別な性質を持ち、内容が著しく変更されていない場合、ほぼ同じである。 0.83
Thus we can easily distinguish different scenarios and delete duplicate images within one scenario. これにより、異なるシナリオを容易に識別し、1つのシナリオで重複画像を削除できる。 0.64
After deduplicating, we obtain 7,782 images (6,671 images for training; 1,111 for testing). 7,782画像(訓練用6,671画像、試験用1,111画像)を得た。 0.69
The retention rate of the new dataset is 95%, which means that there are only a few similar images in the new dataset. 新しいデータセットの保持率は95%であり、新しいデータセットに類似したイメージはごくわずかである。 0.72
Figure 1 shows that our dataset also retains various underwater scenes. 図1は、私たちのデータセットがさまざまな水中シーンも保持していることを示している。 0.50
英語(論文から抽出)日本語訳スコア
(a) (b) Fig. (a) (b) フィギュア。 0.71
3. (a) The distribution of instance sizes for DUO; (b) The number of categories per image. 3. (a)duoのインスタンスサイズの分布(b)画像ごとのカテゴリ数 0.71
4. BENCHMARK Because the aim of underwater object detection for robot picking is to find the high accuracy and efficiency algorithm, we consider both the accuracy and efficiency evaluations in the benchmark as shown in Table 2. 4. ベンチマーク ロボットピッキングにおける水中物体検出の目的は,高い精度と効率のアルゴリズムを求めることにあるため,表2に示すように,ベンチマークにおける精度と効率の両立を考察する。 0.69
4.1. Evaluation Metrics Here we adopt the standard COCO metrics (mean average precision, i.e., mAP) for the accuracy evaluation and also provide the mAP of each class due to the long-tail distribution. 4.1. 評価指標 ここでは、精度評価に標準COCOメトリクス(平均精度、すなわちmAP)を採用し、また、長テール分布による各クラスのmAPを提供する。 0.72
AP – mAP at IoU=0.50:0.05:0.95. AP - MAP at IoU=0.50:0.05:0.95 0.40
AP50 – mAP at IoU=0.50. AP50 - MAP at IoU=0.50 0.67
AP75 – mAP at IoU=0.75. AP75 - MAP at IoU=0.75 0.67
APS – AP for small objects of area smaller than 322. APS - 322より小さい領域の小さなオブジェクトのAP。 0.72
APM – AP for objects of area between 322 and 962. APM - 322から962の領域のAP。 0.51
APL – AP for large objects of area bigger than 962. APL (APL) は、962以上の大きな領域のAPである。 0.64
APHo – AP in holothurian. APHo - ホロトゥリアンのAP。 0.66
APEc – AP in echinus. APEc - AP in echinus の略。 0.72
APSc – AP in scallop. APSc - AP in scallopの略。 0.77
APSt – AP in starfish. APSt - スターフィッシュのAP。 0.73
For the efficiency evaluation, we provide three metrics: Param. 効率評価には3つの指標を提供する。 0.61
– The parameters of a detector. -検出器のパラメータ。 0.64
FLOPs – Floating-point operations per second. flops – 毎秒の浮動小数点演算。 0.57
FPS – Frames per second. FPS - 1秒あたりのフレーム。 0.78
Notably, FLOPs is calculated under the 512×512 input image size and FPS is tested on a JETSON AGX XAVIER under MODE 30W ALL. 特に、FLOPsは512×512入力画像サイズで計算され、FPSはMODE30WALLのJETSON AGX XAVIER上で試験される。 0.75
4.2. Standard Training Configuration 4.2. 標準トレーニング構成 0.73
We follow a widely used open-source toolbox, i.e., MMDetection (V2.5.0) to produce up our benchmark. 我々は、ベンチマークを作成するために広く使われているオープンソースツールボックス、すなわちMMDetection (V2.5.0)に従う。 0.55
During the training, the standard configurations are as follows: その間 トレーニングでは 標準的な構成は以下の通りです 0.67
pre-trained parameters on ImageNet [9]. ImageNet[9]で事前トレーニングされたパラメータ。 0.67
• We initialize the backbone models (e g , ResNet50) with • We resize each image into 512 × 512 pixels both in training and testing. • バックボーンモデル(resnet50など)を初期化します。 • トレーニングとテストの両方で、各イメージを512×512ピクセルにリサイズしました。 0.82
Each image is flipped horizontally with 0.5 probability during training. 各画像は、トレーニング中に0.5確率で水平に反転する。 0.64
• We normalize RGB channels by subtracting 123.675, 116.28, 103.53 and dividing by 58.395, 57.12, 57.375, respectively. • RGB チャネルを 123.675,116.28,103.5 3 を減算し,それぞれ 58.395,57.12,57.375 を割って正規化する。 0.63
• SGD method is adopted to optimize the model. • sgd法はモデルを最適化するために採用される。 0.66
The initial learning rate is set to be 0.005 in a single GTX 1080Ti with batchsize 4 and is decreased by 0.1 at the 8th and 11th epoch, respectively. 初期学習率は、バッチサイズ4の単一のGTX1080Tiにおいて0.005と設定され、第8および第11エポックでそれぞれ0.1減少する。 0.71
WarmUp [10] is also employed in the first 500 iterations. WarmUp [10]も最初の500イテレーションで採用されています。 0.70
Totally there are 12 training epochs. 合計で12の訓練期間がある。 0.69
• Testing time augmentation (i.e., flipping test or multi- • テスト時間拡張(すなわち、フリップテストまたはマルチ) 0.86
scale testing) is not employed. スケールテスト)は採用されていない。 0.60
4.3. Benchmark Analysis 4.3. ベンチマーク分析 0.72
Table 2 shows the benchmark for the SOTA methods. 表2はSOTAメソッドのベンチマークを示す。 0.62
Multiand one- stage detectors with three kinds of backbones (i.e., ResNet18, 50, 101) give a comprehensive assessment on DUO. 3種類のバックボーンを持つマルチステージとワンステージ検出器(resnet18, 50, 101)はduoを包括的に評価する。 0.71
We also deploy all the methods to AGX to assess efficiency. 効率を評価するために、すべてのメソッドをAGXにデプロイします。 0.56
In general, the multi-stage (Cascade R-CNN) detectors have high accuracy and low efficiency, while the one-stage (RetinaNet) detectors have low accuracy and high efficiency. 一般に、マルチステージ(カスケードR-CNN)検出器は高い精度と低効率であり、一方1ステージ(RetinaNet)検出器は低い精度と高効率である。 0.78
However, due to recent studies [11] on the allocation of more reasonable positive and negative samples in training, onestage detectors (ATSS or GFL) can achieve both high accuracy and high efficiency. しかし, より合理的な正と負のサンプルの配置に関する最近の研究により, 1段検出器(ATSS, GFL)は高い精度と高効率を達成できることがわかった。 0.79
Therefore, in terms of accuracy, the accuracy difference between the multi- and the one- stage methods in AP is not したがって、精度の観点からは、APにおける多段法と一段法の精度差は一致しない。 0.73
0.0%1.0%2.0%3.0%4.0% 5.0%Percent of image size0.0%1.0%2.0%3.0% 4.0%5.0%6.0%7.0%8.0% Percent of instanceHolothurianE chinusScallopStarfis hAll5101520253035Num ber of instances0%5%10%15%2 0%25%Percentage of imagesHolothurianEch inusScallopStarfishA ll 0.0%1.0%2.0%%4.0%5.0 % 画像サイズ0.0%1.0%2.0%%4.0%5.0 %6.0%7.0%8.0% インスタンスHolothurianEchinusSc allopStarfishAll5102 0253035 インスタンス0%10%20%25% イメージHolothurianEchinusSc allopStarfishAll 0.61
英語(論文から抽出)日本語訳スコア
Table 2. Benchmark of SOTA detectors (single-model and single-scale results) on DUO. 表2。 DUOにおけるSOTA検出器(単一モデルと単一スケール結果)のベンチマーク 0.70
FPS is measured on the same machine with a JETSON AGX XAVIER under the same MMDetection framework, using a batch size of 1 whenever possible. FPSは、JETSON AGX XAVIERと同じMMDetectionフレームワークで、可能な限り1のバッチサイズを使用して、同じマシン上で測定される。 0.82
R: ResNet. R: ResNet。 0.82
Method multi-stage: マルチステージの方法: 0.72
Faster R-CNN [12] 高速R-CNN[12] 0.80
Cascade R-CNN [13] カスケードR-CNN[13] 0.78
Grid R-CNN [14] グリッドR-CNN[14] 0.80
RepPoints [15] RepPoints [15] 0.85
one-stage: RetinaNet [16] ワンステージ RetinaNet [16] 0.64
FreeAnchor [17] FreeAnchor [17] 0.85
FoveaBox [18] FoveaBox [18] 0.85
PAA [19] FSAF [20] PAA[19] FSAF[20] 0.83
FCOS [21] ATSS [11] FCOS[21] ATSS[11] 0.83
GFL [6] Backbone Param. GFL[6] バックボーン・パラム。 0.70
FLOPs FPS AP AP50 AP75 APS APM APL APHo APEc APSc APSt FLOPs FPS AP50 AP75 APS APL APHO APEc APSc APSt 0.82
R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 0.41
R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-101 R-18 R-50 R-50 R-101 R-18 R-50 R-50 R-101 R-18 R-50 R-50 R-101 0.29
28.14M 49.75G 5.7 50.1 72.6 57.8 42.9 51.9 48.7 41.14M 63.26G 4.7 54.8 75.9 63.1 53.0 56.2 53.8 60.13M 82.74G 3.7 53.8 75.4 61.6 39.0 55.2 52.8 55.93M 77.54G 3.4 52.7 73.4 60.3 49.0 54.7 50.9 68.94M 91.06G 3.0 55.6 75.5 63.8 44.9 57.4 54.4 87.93M 110.53G 2.6 56.0 76.1 63.6 51.2 57.5 54.7 51.24M 163.15G 3.9 51.9 72.1 59.2 40.4 54.2 50.1 64.24M 176.67G 3.4 55.9 75.8 64.3 40.9 57.5 54.8 83.24M 196.14G 2.8 55.6 75.6 62.9 45.6 57.1 54.5 20.11M 35.60G 5.6 51.7 76.9 57.8 43.8 54.0 49.7 36.60M 48.54G 4.8 56.0 80.2 63.1 40.8 58.5 53.7 55.60M 68.02G 3.8 55.4 79.0 62.6 42.2 57.3 53.9 28.14M 49.75G 5.7 50.1 72.6 57.8 42.9 51.9 48.7 41.14M 63.26G 4.7 54.8 75.9 63.1 53.0 56.2 53.8 60.13M 82.74G 3.7 53.8 75.4 61.6 39.0 55.2 52.8 55.93M 77.54G 3.4 52.7 73.4 60.3 49.0 54.7 50.9 68.94M 91.06G 3.0 55.6 75.5 63.8 44.9 57.4 54.4 87.93M 110.53G 2.6 56.0 76.1 63.6 51.2 57.5 54.7 51.24M 163.15G 3.9 51.9 72.1 59.2 40.4 54.2 50.1 64.24M 176.67G 3.4 55.9 75.8 64.3 40.9 57.5 54.8 83.24M 196.14G 2.8 55.6 75.6 62.9 45.6 57.1 54.5 20.11M 35.60G 5.6 51.7 76.9 57.8 43.8 54.0 49.7 36.60M 48.54G 4.8 56.0 80.2 63.1 40.8 58.5 53.7 55.60M 68.02G 3.8 55.4 79.0 62.6 42.2 57.3 53.9 0.37
19.68M 39.68G 7.1 44.7 66.3 50.7 29.3 47.6 42.5 36.17M 52.62G 5.9 49.3 70.3 55.4 36.5 51.9 47.6 55.16M 72.10G 4.5 50.4 71.7 57.3 34.6 52.8 49.0 19.68M 39.68G 6.8 49.0 71.9 55.3 38.6 51.7 46.7 36.17M 52.62G 5.8 54.4 76.6 62.5 38.1 55.7 53.4 55.16M 72.10G 4.4 54.6 76.9 62.9 36.5 56.5 52.9 21.20M 44.75G 6.7 51.6 74.9 57.4 40.0 53.6 49.8 37.69M 57.69G 5.5 55.3 77.8 62.3 44.7 57.4 53.4 56.68M 77.16G 4.2 54.7 77.3 62.3 37.7 57.1 52.4 18.94M 38.84G 3.0 52.6 75.3 58.8 41.3 55.1 50.2 31.89M 51.55G 2.9 56.8 79.0 63.8 38.9 58.9 54.9 50.89M 71.03G 2.4 56.5 78.5 63.7 40.9 58.7 54.5 19.53M 38.88G 7.4 49.6 74.3 55.1 43.4 51.8 47.5 36.02M 51.82G 6.0 54.9 79.3 62.1 46.2 56.7 53.3 55.01M 55.01G 4.5 54.6 78.7 61.9 46.0 57.1 52.2 18.94M 38.84G 6.5 48.4 72.8 53.7 30.7 50.9 46.3 31.84M 50.34G 5.4 53.0 77.1 59.9 39.7 55.6 50.5 50.78M 69.81G 4.2 53.2 77.3 60.1 43.4 55.4 51.2 18.94M 38.84G 6.0 54.0 76.5 60.9 44.1 56.6 51.4 31.89M 51.55G 5.2 58.2 80.1 66.5 43.9 60.6 55.9 50.89M 71.03G 3.8 57.6 79.4 65.3 46.5 60.3 55.0 19.09M 39.63G 6.3 54.4 75.5 61.9 35.0 57.1 51.8 32.04M 52.35G 5.5 58.6 79.3 66.7 46.5 61.6 55.6 51.03M 71.82G 4.1 58.3 79.3 65.5 45.1 60.5 56.3 19.68M 39.68G 7.1 44.7 66.3 50.7 29.3 47.6 42.5 36.17M 52.62G 5.9 49.3 70.3 55.4 36.5 51.9 47.6 55.16M 72.10G 4.5 50.4 71.7 57.3 34.6 52.8 49.0 19.68M 39.68G 6.8 49.0 71.9 55.3 38.6 51.7 46.7 36.17M 52.62G 5.8 54.4 76.6 62.5 38.1 55.7 53.4 55.16M 72.10G 4.4 54.6 76.9 62.9 36.5 56.5 52.9 21.20M 44.75G 6.7 51.6 74.9 57.4 40.0 53.6 49.8 37.69M 57.69G 5.5 55.3 77.8 62.3 44.7 57.4 53.4 56.68M 77.16G 4.2 54.7 77.3 62.3 37.7 57.1 52.4 18.94M 38.84G 3.0 52.6 75.3 58.8 41.3 55.1 50.2 31.89M 51.55G 2.9 56.8 79.0 63.8 38.9 58.9 54.9 50.89M 71.03G 2.4 56.5 78.5 63.7 40.9 58.7 54.5 19.53M 38.88G 7.4 49.6 74.3 55.1 43.4 51.8 47.5 36.02M 51.82G 6.0 54.9 79.3 62.1 46.2 56.7 53.3 55.01M 55.01G 4.5 54.6 78.7 61.9 46.0 57.1 52.2 18.94M 38.84G 6.5 48.4 72.8 53.7 30.7 50.9 46.3 31.84M 50.34G 5.4 53.0 77.1 59.9 39.7 55.6 50.5 50.78M 69.81G 4.2 53.2 77.3 60.1 43.4 55.4 51.2 18.94M 38.84G 6.0 54.0 76.5 60.9 44.1 56.6 51.4 31.89M 51.55G 5.2 58.2 80.1 66.5 43.9 60.6 55.9 50.89M 71.03G 3.8 57.6 79.4 65.3 46.5 60.3 55.0 19.09M 39.63G 6.3 54.4 75.5 61.9 35.0 57.1 51.8 32.04M 52.35G 5.5 58.6 79.3 66.7 46.5 61.6 55.6 51.03M 71.82G 4.1 58.3 79.3 65.5 45.1 60.5 56.3 0.37
49.1 55.5 54.3 51.4 56.8 56.2 50.7 56.7 55.5 50.8 56.7 56.0 49.1 55.5 54.3 51.4 56.8 56.2 50.7 56.7 55.5 50.8 56.7 56.0 0.41
46.9 54.4 54.6 47.2 55.3 54.0 51.0 57.9 55.3 49.9 56.5 55.8 45.5 53.7 53.0 46.5 52.3 51.7 52.6 58.6 57.7 51.8 58.6 57.0 46.9 54.4 54.6 47.2 55.3 54.0 51.0 57.9 55.3 49.9 56.5 55.8 45.5 53.7 53.0 46.5 52.3 51.7 52.6 58.6 57.7 51.8 58.6 57.0 0.40
60.1 62.4 62.0 62.3 63.6 63.9 61.8 62.9 62.9 63.3 65.7 65.8 60.1 62.4 62.0 62.3 63.6 63.9 61.8 62.9 62.9 63.3 65.7 65.8 0.41
54.2 56.6 57.0 62.8 65.2 65.1 61.9 64.2 63.6 64.6 66.9 66.5 63.5 66.4 66.3 61.5 64.5 64.1 65.5 67.6 67.2 66.9 69.1 69.1 54.2 56.6 57.0 62.8 65.2 65.1 61.9 64.2 63.6 64.6 66.9 66.5 63.5 66.4 66.3 61.5 64.5 64.1 65.5 67.6 67.2 66.9 69.1 69.1 0.40
31.6 38.7 38.5 34.9 38.7 41.3 33.3 39.5 41.0 33.6 39.3 39.0 31.6 38.7 38.5 34.9 38.7 41.3 33.3 39.5 41.0 33.6 39.3 39.0 0.41
23.9 27.8 33.7 28.6 35.3 38.4 34.6 36.4 38.9 35.6 39.9 42.0 30.3 36.8 38.2 29.1 35.2 38.5 35.8 41.8 42.6 36.5 41.3 43.0 23.9 27.8 33.7 28.6 35.3 38.4 34.6 36.4 38.9 35.6 39.9 42.0 30.3 36.8 38.2 29.1 35.2 38.5 35.8 41.8 42.6 36.5 41.3 43.0 0.40
59.7 62.5 60.4 62.3 63.5 62.6 61.9 64.4 62.9 59.2 62.3 60.9 59.7 62.5 60.4 62.3 63.5 62.6 61.9 64.4 62.9 59.2 62.3 60.9 0.41
53.8 58.3 56.3 57.6 61.8 60.7 59.1 62.8 60.8 60.5 64.0 61.6 58.9 62.5 61.1 56.6 60.0 58.5 61.9 64.6 62.9 62.5 65.3 64.0 53.8 58.3 56.3 57.6 61.8 60.7 59.1 62.8 60.8 60.5 64.0 61.6 58.9 62.5 61.1 56.6 60.0 58.5 61.9 64.6 62.9 62.5 65.3 64.0 0.40
英語(論文から抽出)日本語訳スコア
obvious, and the APS of different methods is always the lowest among the three size AP. 異なる手法のAPSは常に3つのサイズのAPの中で最低である。 0.69
For class AP, APSc lags significantly behind the other three classes because it has the smallest number of instances. クラスAPでは、APScはインスタンス数が最小であるため、他の3つのクラスよりも大幅に遅れている。 0.67
In terms of efficiency, large parameters and FLOPs result in low FPS on AGX, with a maximum FPS of 7.4, which is hardly deployable on underwater robot. 効率の面では、大きなパラメータとFLOPはAGX上のFPSが低く、最大FPSは7.4であり、水中ロボットでは展開できない。 0.72
Finally, we also found that ResNet101 was not significantly improved over ResNet50, which means that a very deep network may not be useful for detecting small creatures in underwater scenarios. 最後に、ResNet101はResNet50よりも大幅に改善されていないこともわかりました。
訳抜け防止モード: 最後に、ResNet101はResNet50よりも大幅に改善されていないこともわかりました。 つまり、非常に深いネットワークは、水中のシナリオで小さな生物を検出するのに役に立ちません。
0.63
Consequently, the design of high accuracy and high efficiency detector is still the main direction in this field and there is still large space to improve the performance. その結果, 高精度かつ高効率な検出器の設計は依然としてこの分野のメインの方向であり, 性能向上のための大きな空間がまだ残っている。 0.81
In order to achieve this goal, a shallow backbone with strong multi-scale feature fusion ability can be proposed to extract the discriminant features of small scale aquatic organisms; a specially designed training strategy may overcome the DUO’s long-tail distribution, such as a more reasonable positive/negative label sampling mechanism or a class-balanced image allocation strategy within a training batch. この目的を達成するために、小規模水生生物の識別特徴を抽出するために、強力なマルチスケール機能融合能力を持つ浅いバックボーンを提案し、より合理的な正負のラベルサンプリング機構や訓練バッチ内のクラスバランス画像割り当て戦略など、DUOの長期分布を克服する特別に設計されたトレーニング戦略を提案することができる。 0.78
5. CONCLUSION In this paper, we introduce a dataset (DUO) and a corresponding benchmark to fill in the gaps in the community. 5. 結論 本稿では,コミュニティのギャップを埋めるためのデータセット(DUO)とそれに対応するベンチマークを紹介する。 0.71
DUO contains a variety of underwater scenes and more reasonable annotations. DUOは様々な水中シーンとより合理的なアノテーションを含んでいる。 0.68
Benchmark includes efficiency and accuracy indicators to conduct a comprehensive evaluation of the SOTA decoders. ベンチマークには、SOTAデコーダの包括的な評価を行うための効率と精度の指標が含まれている。 0.57
The two contributions could serve as a reference for academic research and industrial applications, as well as promote community development. この2つの貢献は、学術研究や産業応用への参考となり、コミュニティの発展を促進する。 0.71
6. REFERENCES [1] Long Chen, Zhihua Liu, Lei Tong, Zheheng Jiang, Shengke Wang, Junyu Dong, and Huiyu Zhou, “Underwater object detection using Invert Multi-Class Adaboost with deep learning,” arXiv, p. 2005.11552, 2020. 6. 参考 [1] Long Chen, Zhihua Liu, Lei Tong, Zheheng Jiang, Shengke Wang, Junyu Dong, Huiyu Zhou, “Invert Multi-class Adaboost with Deep Learning”, arXiv, p. 2005.11552, 2020。 0.69
[2] Wei-Hong Lin, Jia-Xing Zhong, Shan Liu, Thomas Li, and Ge Li, “ROIMIX: proposal-fusion among multiple images for underwater object detection,” in ICASSP. [2] wei-hong lin, jia-xing zhong, shan liu, thomas li, ge li, “roimix: proposal-fusion between multiple images for underwater object detection” in icassp。
訳抜け防止モード: [2]済(い)-Hong Lin, Jia-Xing Zhong, Shan Liu, Thomas Li, Ge Li, “ROIMIX : proposal - 水中物体検出のための複数の画像間の融合” ICASSP。
0.80
2020, pp. 2588–2592, IEEE. 2020年、p。 2588-2592、IEEE。 0.70
[3] Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals, “Understanding deep learning requires rethinking generalization,” in ICLR. [3]Chiyuan Zhang氏、Samy Bengio氏、Moritz Hardt氏、Benjamin Recht氏、Oriol Vinyals氏は、ICLRで次のように述べている。 0.57
2017, OpenReview.net. 2017年、OpenReview.net。 0.66
[4] Kai Chen and Jiaqi Wang et al, “Mmdetection: Open mmlab detection toolbox and benchmark,” arXiv, p. 1906.07155, 2019. [4] Kai Chen and Jiaqi Wang et al, “Mmdection: Open mmlab detection toolbox and benchmark” arXiv, p. 1906.07155, 2019。 0.87
[5] Zhihui Wang, Chongwei Liu, Shijie Wang, Tao Tang, Yulong Tao, Caifei Yang, Haojie Li, Xing Liu, and Xin Fan, “UDD: An Underwater Open-sea Farm Object Detection Dataset for Underwater Robot Picking,” arXiv e-prints, p. arXiv:2003.01446, Mar. [5]Zhihui Wang, Chongwei Liu, Shijie Wang, Tao Tang, Yulong Tao, Caifei Yang, Haojie Li, Xing Liu, and Xin Fan, “UDD: An Underwater Open-sea Farm Object Detection Dataset for Underwater Robot Picking”, arXiv e-prints, p. arXiv:2003.01446, Mar. 0.97
2020. [6] Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui Tang, and Jian Yang, “Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection,” arXiv, 2020. 2020. 6] xiang li, wenhai wang, lijun wu, shuo chen, xiaolin hu, jun li, jinhui tang, jian yang, “一般化された焦点損失(generalized focal loss: learning qualified and distributed bounding box for dense object detection)” arxiv, 2020。 0.81
[7] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C Lawrence Zitnick, and Piotr Doll´ar, “Microsoft COCO: Common Objects in Context,” arXiv.org, May 2014. 9] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C Lawrence Zitnick, and Piotr Doll ́ar, “Microsoft COCO: Common Objects in Context”, arXiv.org, 2014年5月 0.91
[8] Mark Everingham, Andrew Zisserman, Christopher K. I. Williams, Luc Van Gool, Moray Allan, Christopher M. Bishop, Olivier Chapelle, Navneet Dalal, Thomas Deselaers, and Gyuri Dork´o, “The 2005 pascal visual object classes challenge,” Lecture Notes in Computer Science, vol. 8] mark everingham, andrew zisserman, christopher k. i. williams, luc van gool, moray allan, christopher m. bishop, olivier chapelle, navneet dalal, thomas deselaers, and gyuri dork ́o, “the 2005 pascal visual object class challenge”, lecture notes in computer science, vol.
訳抜け防止モード: Mark Everingham, Andrew Zisserman, Christopher K. I. Williams, Luc Van Gool Moray Allan, Christopher M. Bishop, Olivier Chapelle, Navneet Dalal Thomas Deselaers, and Gyuri Dork ́o, “The 2005 Pascal Visual Object Class Challenge”. 2005年5月1日閲覧。 コンピュータサイエンスにおける講義ノート
0.87
111, no. 1, pp. 111 だめだ 1、p。 0.58
98–136, 2007. 98–136, 2007. 0.84
[9] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Fei-Fei Li, “Imagenet: A large-scale hierarchical image database,” in CVPR, 2009. 9]Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Fei-Fei Li, “Imagenet: A Large-scale hierarchical image database” in CVPR, 2009 0.86
[10] Hao Luo, Youzhi Gu, Xingyu Liao, Shenqi Lai, and Wei Jiang, “Bag of Tricks and A Strong Baseline for Deep Person Re-identification,” arXiv, Mar. [10]Hu Luo,Youzhi Gu,Xingyu Liao,Shenqi Lai,Wei Jiang, “Bag of Tricks and A Strong Baseline for Deep Person Re-identification”, arXiv, Mar。 0.78
2019. [11] Shifeng Zhang, Cheng Chi, Yongqiang Yao, Zhen Lei, and Stan Z. Li, “Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection,” in CVPR. 2019. CVPRでは[11]Shifeng Zhang氏、Cheng Chi氏、Yongqiang Yao氏、Zhen Lei氏、Stan Z. Li氏は、“適応トレーニングサンプル選択によるアンカーベースとアンカーフリー検出のギャップを埋める”と述べている。 0.71
2020, pp. 9756–9765, IEEE. 2020年、p。 9756-9765、IEEE。 0.68
[12] Shaoqing Ren, Kaiming He, Ross Girshick, and Sun Jian, “Faster r-cnn: Towards real-time object detection with region proposal networks,” in NIPS, 2015. 12] Shaoqing Ren, Kaiming He, Ross Girshick, Sun Jian, “Faster r-cnn: toward real-time object detection with region proposal network” in NIPS, 2015 0.80
[13] Zhaowei Cai and Nuno Vasconcelos, “Cascade r-cnn: High quality object detection and instance segmentation,” T-PAMI, p. 1–1, 2019. [13]Zhaowei Cai, Nuno Vasconcelos, “Cascade r-cnn: High quality object detection and instance segmentation”, T-PAMI, pp. 1-1, 2019。 0.87
[14] Xin Lu, Buyu Li, Yuxin Yue, Quanquan Li, and Junjie [14]新羅、仏王李、幽泉遊江、クァンカン李、淳慈江 0.61
Yan, “Grid r-cnn,” in CVPR, 2019. yan, “grid r-cnn” in cvpr, 2019。 0.68
[15] Ze Yang, Shaohui Liu, Han Hu, Liwei Wang, and Stephen Lin, “Reppoints: Point set representation for object detection,” in ICCV, 2019. [15]Ze Yang, Shaohui Liu, Han Hu, Liwei Wang, Stephen Lin, “Reppoints: Point set representation for object detection” in ICCV, 2019。 0.75
[16] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar, “Focal loss for dense object detection,” T-PAMI, vol. 16]tsung-yi lin, priya goyal, ross girshick, kaiming he, and piotr doll ’ar, “focal loss for dense object detection”, t-pami, vol。 0.69
PP, no. 99, pp. PP、ノー。 99, pp。 0.78
2999–3007, 2017. 2999–3007, 2017. 0.84
[17] Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, and Qixiang Ye, “FreeAnchor: Learning to Match Anchors for Visual Object Detection,” arXiv, 2019. [17]Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, Qixiang Ye, “FreeAnchor: Learning to Match Anchors for Visual Object Detection”, arXiv, 2019。 0.76
[18] Tao Kong, Fuchun Sun, Huaping Liu, Yuning Jiang, Lei Li, and Jianbo Shi, “Foveabox: Beyound anchor-based object detection,” IEEE TIP, 2020. [18]Tao Kong, Fuchun Sun, Huaping Liu, Yuning Jiang, Lei Li, and Jianbo Shi, “Foveabox: Beyound anchor-based object detection”, IEEE TIP, 2020。 0.83
[19] Kang Kim and Hee Seok Lee, “Probabilistic Anchor Assignment with IoU Prediction for Object Detection,” ECCV, 2020. [19]Kang KimとHee Seok Lee, “Probabilistic Anchor Assignment with IoU Prediction for Object Detection”, ECCV, 2020。 0.75
[20] Chenchen Zhu, Yihui He, and Marios Savvides, “Feature selective anchor-free module for single-shot object detection,” in CVPR, 2019, pp. CVPR, 2019, pp。[20]Chenchen Zhu, Yihui He, and Marios Savvides, “Feature selective anchor-free modules for single-shot object detection”. CVPR, 2019. 0.90
840–849. [21] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He, “FCOS: fully convolutional one-stage object detection,” CoRR, vol. 840–849. CoRR, vol.[21] Zhi Tian, Chunhua Shen, Hao Chen, Tong He, “FCOS: complete convolutional one-stage objects detection”[21] CoRR, vol. 0.82
abs/1904.01355, 2019. Abs/1904.01355, 2019 0.67
             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。