論文の概要、ライセンス

# (参考訳) Gated3D:一時照明キューからの単眼3D物体検出 [全文訳有]

Gated3D: Monocular 3D Object Detection From Temporal Illumination Cues ( http://arxiv.org/abs/2102.03602v1 )

ライセンス: CC BY 4.0
Frank Julca-Aguilar, Jason Taylor, Mario Bijelic, Fahim Mannan, Ethan Tseng, Felix Heide(参考訳) 今日の3dオブジェクト検出の最先端の方法は、lidar、ステレオ、単眼カメラに基づいている。 lidarベースの手法は、最も精度は高いが、足跡が大きく、コストが高く、機械的に制限された角サンプリングレートがあり、長距離での空間分解能は低い。 低コストの単眼またはステレオカメラに基づく最近のアプローチは、これらの制限を克服することを約束しますが、受動CMOSセンサーに依存するため、低照度または低コントラスト領域では苦労します。 本研究では、低コストの単眼ゲート画像から時間的照明キューを利用する新しい3次元物体検出モダリティを提案する。 本稿では,3つのゲート画像からの時間的照明手がかりに合わせた,新しい深層検出器アーキテクチャgated3dを提案する。 定格画像は、フラスタムセグメント推定を通じて3D予測を導く成熟した2Dオブジェクト特徴抽出器を利用することができます。 提案手法を1万km以上の走行データで撮影したゲート画像を含む新しい3D検出データセット上で評価する。 本手法が遠距離でのモノクロおよびステレオアプローチよりも優れていることを検証した。 私たちはコードとデータセットをリリースし、自動運転でライダーを置き換える手段として新しいセンサーモダリティを開放します。

Today's state-of-the-art methods for 3D object detection are based on lidar, stereo, or monocular cameras. Lidar-based methods achieve the best accuracy, but have a large footprint, high cost, and mechanically-limited angular sampling rates, resulting in low spatial resolution at long ranges. Recent approaches based on low-cost monocular or stereo cameras promise to overcome these limitations but struggle in low-light or low-contrast regions as they rely on passive CMOS sensors. In this work, we propose a novel 3D object detection modality that exploits temporal illumination cues from a low-cost monocular gated imager. We propose a novel deep detector architecture, Gated3D, that is tailored to temporal illumination cues from three gated images. Gated images allow us to exploit mature 2D object feature extractors that guide the 3D predictions through a frustum segment estimation. We assess the proposed method on a novel 3D detection dataset that includes gated imagery captured in over 10,000 km of driving data. We validate that our method outperforms state-of-the-art monocular and stereo approaches at long distances. We will release our code and dataset, opening up a new sensor modality as an avenue to replace lidar in autonomous driving.
公開日: Sat, 6 Feb 2021 16:06:51 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 b e F 6 1 2 0 2 b e F 6 0.85
] V C . ] V C。 0.79
s c [ 1 v 2 0 6 3 0 sc [ 1 v 2 0 6 3 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Gated3D: Monocular 3D Object Detection Gated3D: モノラル3Dオブジェクト検出 0.77
From Temporal Illumination Cues 時間的照明の手がかりから 0.52
Frank Julca-Aguilar1 Jason Taylor 1 Mario Bijelic 2 Frank Julca-Aguilar1 Jason Taylor 1 Mario Bijelic 2 0.88
, 3 Fahim Mannan 1 Ethan Tseng 4 Felix Heide1 , 3 Fahim Mannan 1 Ethan Tseng 4 Felix Heide1。 0.91
, 4 1Algolux , 4 1Algolux 0.83
2Daimler AG 3Ulm University 2Daimler AG 3Ulm University 0.84
4Princeton University Abstract 4プリンストン大学 概要 0.58
Today’s state-of-the-art methods for 3D object detection are based on lidar, stereo, or monocular cameras. 今日の最先端の3dオブジェクト検出手法は、lidar、ステレオ、単眼カメラに基づいている。 0.72
Lidar-based methods achieve the best accuracy, but have a large footprint, high cost, and mechanically-limited angular sampling rates, resulting in low spatial resolution at long ranges. lidarベースの手法は、最も精度は高いが、足跡が大きく、コストが高く、機械的に制限された角サンプリングレートがあり、長距離での空間分解能は低い。 0.52
Recent approaches based on low-cost monocular or stereo cameras promise to overcome these limitations but struggle in low-light or low-contrast regions as they rely on passive CMOS sensors. 低コストの単眼またはステレオカメラに基づく最近のアプローチは、これらの制限を克服することを約束しますが、受動CMOSセンサーに依存するため、低照度または低コントラスト領域では苦労します。
訳抜け防止モード: 低価格単眼・ステレオカメラによる最近のアプローチ これらの限界を克服し しかし、受動CMOSセンサーに依存するため、低-軽量または低-コントラスト領域での闘争。
0.65
In this work, we propose a novel 3D object detection modality that exploits temporal illumination cues from a low-cost monocular gated imager. 本研究では、低コストの単眼ゲート画像から時間的照明キューを利用する新しい3次元物体検出モダリティを提案する。 0.72
We propose a novel deep detector architecture, Gated3D, that is tailored to temporal illumination cues from three gated images. 本稿では,3つのゲート画像からの時間的照明手がかりに合わせた,新しい深層検出器アーキテクチャgated3dを提案する。 0.71
Gated images allow us to exploit mature 2D object feature extractors that guide the 3D predictions through a frustum segment estimation. 定格画像は、フラスタムセグメント推定を通じて3D予測を導く成熟した2Dオブジェクト特徴抽出器を利用することができます。 0.68
We assess the proposed method on a novel 3D detection dataset that includes gated imagery captured in over 10,000 km of driving data. 提案手法を1万km以上の走行データで撮影したゲート画像を含む新しい3D検出データセット上で評価する。 0.80
We validate that our method outperforms state-of-the-art monocular and stereo approaches at long distances. 本手法が遠距離でのモノクロおよびステレオアプローチよりも優れていることを検証した。 0.55
We will release our code and dataset, opening up a new sensor modality as an avenue to replace lidar in autonomous driving. 私たちはコードとデータセットをリリースし、自動運転でライダーを置き換える手段として新しいセンサーモダリティを開放します。 0.75
1. Introduction 3D object detection is a fundamental vision task in robotics and autonomous driving. 1. はじめに 3Dオブジェクト検出は、ロボティクスと自動運転における基本的なビジョンタスクです。 0.69
Accurate 3D detections are critical for safe trajectory planning, with applications emerging across disciplines such as autonomous drones, assistive and health robotics, as well as warehouse and delivery robots. 正確な3D検出は安全な軌道計画に不可欠であり、自律型ドローン、補助および健康ロボット、倉庫および配送ロボットなどの分野にまたがるアプリケーションが登場します。 0.78
RGB-D cameras using correlation time-offlight [22, 29, 33], such as Microsoft’s Kinect One, enable robust 3D detection indoors [55, 56] for small ranges. MicrosoftのKinect Oneのような相関タイムオフライト[22, 29, 33]を使用したRGB-Dカメラは、小さな範囲の屋内[55, 56]で堅牢な3D検出を可能にします。 0.67
In the past, autonomous driving, which requires long ranges and high depth accuracy, has relied on scanning lidar for 3D detection [50, 59, 15, 63, 34, 11, 67, 30, 32]. 過去には、長距離と高い深さ精度を必要とする自動運転は、3D検出のためのスキャンライダーに依存してきました [50, 59, 15, 63, 34, 11, 67, 30, 32]。 0.79
However, while lidar provides accurate depth, existing systems are fundamentally limited by point-by-point acquisition, re- しかし、Lidarは正確な深さを提供しますが、既存のシステムは基本的にポイントバイポイント取得によって制限されます。 0.43
sulting in spatial resolution that falls off quadratically with distance and linearly with framerate. 距離と直線的にフレームレートで二次的に落ちる空間分解能のsulting。 0.68
In contrast to conventional cameras, lidar systems are three orders of magnitude more expensive, suffer from low resolution at long distances, and fail in the presence of strong back-scatter, e.g. 従来のカメラとは対照的に、lidarシステムは3桁以上のコストがかかり、長距離での解像度が低く、強力な後方散乱がある場合には失敗する。 0.67
in snow or fog [4]. Promising to overcome these challenges, a recent line of work proposed pseudo-lidar sensing [60], which rely on low-cost sensors, such as stereo [10, 7, 27] or monocular [9, 20, 14] to recover dense depth maps from conventional intensity imagers. 雪か霧[4]で。 これらの課題を克服するために, ステレオ[10, 7, 27]やモノクル[9, 20, 14]のような低コストのセンサーを頼りに, 従来の強度画像から深度マップを復元する擬似ライダーセンシング [60] を提案した。 0.74
Point-clouds are sampled from the depth maps and ingested by 3D detection methods that operate on point-cloud representations [32, 67]. 深度マップからポイントクラウドをサンプリングし、ポイントクラウド表現[32, 67]を操作する3d検出手法で取り込みます。 0.78
More recent methods predict 3D boxes directly from the passive input images [35, 5, 54]. より最近の方法は、受動入力画像から直接3Dボックスを予測する[35, 5, 54]。 0.78
Although all of these methods promise low-cost 3D detection with the potential to replace lidar, they rely on passive camera-only sensing. これらの手法はすべて、ライダーの代わりに低コストの3D検出を約束するが、それらは受動的カメラのみのセンシングに依存している。 0.53
Passive stereo approaches degrade at long ranges, where disparities are small, and in low-light scenarios, e.g. パッシブステレオアプローチは、差が小さく、例えば低照度シナリオにおいて、長い範囲で劣化する。 0.69
at night, when stereo or monocular depth cues are less visible. 夜、ステレオまたは単眼の深さのキューが目立たない時。 0.64
In this work, we introduce the first 3D object detection method using gated imaging and evaluate this as a lowcost detection method for long ranges, outperforming recent monocular and stereo detection methods. 本研究では, ゲートイメージングを用いた最初の3次元物体検出法を紹介し, 最近のモノクロおよびステレオ検出法を上回って, 低コストな長距離物体検出法として評価する。 0.77
Similar to passive approaches, we use CMOS sensors but add active temporal illumination. 受動的アプローチと同様にCMOSセンサを用いるが、能動的時間照明を加える。 0.77
The proposed gated imager captures illumination distributed in three wide gates (> 30 m) for all sensor pixels. 提案するゲート撮像器は,全センサ画素に対して3つの広角ゲート(>30 m)に分布する照明を撮像する。 0.70
Gated imaging [25, 6, 3, 62, 49, 2, 21] allows us to capture several dense high-resolution images distributed continuously across the distances in their respective temporal bin. Gated Imaging [25, 6, 3, 62, 49, 2, 21] により、各時間ビン内の距離を連続的に分散した高解像度画像をいくつか取得できる。 0.80
Additionally, back-scatter can be removed by the the distribution of early gates. さらに、初期ゲートの分布によって後方散乱を除去することができる。 0.74
Whereas scanning lidar trades off temporal resolution with spatial resolution and SNR, the sequential acquisition of gated cameras trades off dense spatial resolution and SNR (i.e. 走査ライダーは時間分解能を空間分解能とSNRと交換するのに対し、ゲートカメラのシーケンシャルな取得は高密度空間分解能とSNR(すなわちSNR)とを交換する。 0.60
wide gates) with coarse temporal resolution. 粗い時間分解能の広いゲート)。 0.63
We demonstrate that the temporal illumination variations in gated images are a depth cue naturally suited for 3D object detection, without the need to first recover intermediate proxy depth maps [21]. ゲート画像における時間的照度変化は, 中間プロキシ深度マップ [21] を最初に復元する必要なく, 3D 物体検出に適した深度 cue であることを示した。 0.82
Operating on 2D gated slices allows us to leverage existing 2D object 2Dゲートスライスで操作することで、既存の2Dオブジェクトを活用できる 0.68
1 1 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: We propose a novel 3D object detection method, which we dub “Gated3D”, using a flood-illuminated gated camera. 図1:洪水照らされたゲートカメラを用いて「Gated3D」をダブする新しい3Dオブジェクト検出法を提案する。 0.82
The high-resolution of gated images enables semantic understanding at long ranges. ゲート画像の高解像度化は、長距離のセマンティック理解を可能にする。 0.53
In the figure, our gated slices are colorcoded with red for slice 1, green for slice 2 and blue for slice 3. この図では、このゲートスライスをスライス1に赤、スライス2に緑、スライス3に青でカラーコードする。 0.67
We evaluate Gated3D on real data, collected with a scanning lidar Velodyne HDL64-S3D as reference, see overlay on the right. 我々は,実データ上でGated3Dを評価し,スキャンライダーVelodyne HDL64-S3Dを参照として収集した。 0.65
detection architectures to guide the 3D object detection task with a novel frustum segmentation. 3Dオブジェクト検出タスクを新しいフラストラムセグメンテーションでガイドする検出アーキテクチャ。 0.68
The proposed architecture further exploits gated images by disentangling the semantic contextual features from depth cues in the gates through a two stream feature extraction. 提案アーキテクチャは,2つのストリーム特徴抽出により,ゲート内の奥行きから意味的文脈特徴を引き離すことにより,ゲート画像をさらに活用する。 0.71
Relying on the resulting high-resolution 2D feature stacks, the method outperforms existing methods especially at long ranges. 得られた高解像度の2D機能スタックに基づいて、このメソッドは、特に長距離で既存の方法よりも優れています。 0.48
The method runs at real-time frame rates and outperforms existing passive imaging methods, independent of the ambient illumination – promising low-cost CMOS sensors for 3D object detection in diverse automotive scenarios. この方法はリアルタイムフレームレートで動作し、周囲照明とは無関係に既存の受動イメージング手法を上回ります。さまざまな自動車シナリオで3Dオブジェクト検出のための低コストCMOSセンサーが期待できます。 0.61
Specifically, we make the following contributions: 具体的には、以下の貢献を行います。 0.63
• We formulate the 3D object detection problem as a regression from a frustum segment, computed using 2D detection priors and the object dimension statistics. • フラスタムセグメントからの回帰として3次元物体検出問題を定式化し, 2次元検出前処理と対象次元統計を用いて計算する。 0.83
• We propose a novel end-to-end deep neural network architecture that solves the regression problem by effectively integrating depth cues and semantic features from gated images, without generating intermediate depth maps. 中間深度マップを生成せずに,ゲート画像からの深度キューと意味的特徴を効果的に統合することで,回帰問題を解決する,新たな深層ニューラルネットワークアーキテクチャを提案する。 0.73
• We validate the proposed method on real-world driving data acquired with a prototype system in challenging automotive scenarios. •プロトタイプシステムで取得した実世界の運転データに対して,提案手法の有効性を検証する。 0.75
We show that the proposed approach detects objects with high accuracy beyond 80 m, outperforming existing monocular, stereo and pseudo-lidar low-cost methods. 提案手法は,80mを超える物体を高精度に検出し,既存のモノクラー,ステレオ,擬似ライダーの低コスト手法より優れていることを示す。 0.62
• We provide a novel annotated 3D gated dataset, covering over 10,000 km driving throughout northern Europe, along with all code. • 我々は新しい注釈付き3dゲートデータセットを提供し、すべてのコードとともに、北ヨーロッパ全体で1万km以上を走行する。
訳抜け防止モード: •北ヨーロッパ全体で1万km以上を走行する新しい3Dゲートデータセットを提供する。 すべてのコードと共に
0.75
As an example, Figure 1 shows experimental results of the proposed method. 例として、図1は提案手法の実験結果を示す。 0.81
The gated image contains dense information on objects further away in the scene. ゲート画像は、シーンのより遠くにある物体の密接な情報を含む。 0.65
The advantage of gated sensors for nighttime scenes is also demonstrated in this example, where the pedestrians are not clearly visible in the RGB image. 夜間のシーンにゲートされたセンサーの利点も、歩行者がRGB画像ではっきりと見えないこの例で示されています。 0.78
2. Related Work Depth Sensing and Estimation. 2. 関連作品 深さの感知と推定。 0.73
Passive acquisition methods for recovering depth from conventional intensity images operate on single monocular images [8, 20, 31, 14, 48, 5], temporal sequences of monocular images [28, 57, 58, 66], or on multi-view stereo images [23, 51, 7, 43, 35]. 従来の強度画像からの深度回復のためのパッシブ取得方法は、単一単眼画像[8, 20, 31, 14, 48, 5]、単眼画像[28, 57, 58, 66]、または多視点ステレオ画像[23, 51, 7, 43, 35]で動作します。
訳抜け防止モード: 従来の強度画像からの深度回復のためのパッシブ取得法は、単眼画像上で動作します[8]。 20, 31, 14, 48, 5 ], 単眼画像の時系列 [28, 57, 58, 66] または、マルチビューステレオ画像[23, 51]。 7 , 43 , 35 ] .
0.84
These methods all suffer in low-light and low-contrast scenes. これらの方法は、すべて低照度および低コントラストのシーンに苦しむ。 0.57
Active depth sensing overcomes these limitations by actively illuminating the scene, and scanning lidar [50] has emerged as an essential depth sensor for autonomous driving, independent of ambient lighting. 能動深度検知は、シーンを積極的に照らすことでこれらの制限を克服し、周囲の照明とは無関係に、自律運転に不可欠な深度センサとしてスキャニングライダー[50]が登場している。
訳抜け防止モード: アクティブ深度センシングは、シーンを積極的に照らすことでこれらの限界を克服します。 そしてスキャンのライダー[50]は周囲照明から独立した自動運転のための必須の深さセンサーとして現われました。
0.65
However, the spatial resolution of lidar is fundamentally limited by the sequential point-bypoint scanning frame rate and the sensor cost is significantly higher. しかし, ライダーの空間分解能は, 逐次点差走査フレーム率によって基本的に制限されており, センサコストは著しく高い。 0.75
Recently, gated cameras were proposed as an alternative for dense depth estimation [21]. 近年,密集深度推定の代替としてゲートカメラが提案されている [21]。 0.78
Although promising depth estimates have been demonstrated with gated cameras, local artefacts and low-confidence regions in outputs from Gruber et al. 有望な深度推定はゲートカメラ、ローカルアーティファクト、gruberらからの出力の低信頼領域で実証されている。 0.57
[21] call into question if its performance for high-quality scene understanding tasks could surpass that of recent monocular and stereo-based methods – a gap addressed in this work in an end-to-end fashion by directly processing the gated input slices. 21] 高品質なシーン理解タスクのパフォーマンスが,最近のモノクロおよびステレオベースの方法 – ゲートされた入力スライスを直接処理することによって,この作業がエンドツーエンドで対処できるギャップ – を上回っているのではないか,という疑問を投げかけている。 0.61
CNN 2D Object Detection. CNN 2Dオブジェクト検出。 0.93
Convolutional neural networks (CNNs) for efficient 2D object detection have outperformed classical methods that rely on hand-crafted features by a large margin [47]. 効率的な2次元物体検出のための畳み込みニューラルネットワーク(CNN)は、手作りの特徴に大きく依存する古典的手法より優れている[47]。 0.75
The key concept behind such learned object detectors is the classification of image patches at varying positions and scales [52]. このような学習対象検出器の背後にある重要な概念は、様々な位置とスケールにおける画像パッチの分類である[52]。 0.69
Discretized grid cells and predefined object templates (anchor boxes) are regressed and classified by fully-convolutional network architectures [39]. 離散化されたグリッドセルと事前定義されたオブジェクトテンプレート(アンカーボックス)は、完全に畳み込みネットワークアーキテクチャー[39]によって回帰され分類される。
訳抜け防止モード: 離散グリッドセルと予め定義されたオブジェクトテンプレート(アンカーボックス)はレグレッションされる 完全な畳み込みネットワークアーキテクチャ[39]によって分類されます。
0.62
To this end, two popular directions of research have been explored: single-stage [38, 46, 26, 37] and proposal-based two-stage detectors [19, 18, 47]. この目的のために、単段 [38, 46, 26 37] と提案に基づく二段検出器 [19, 18, 47] の2つの一般的な研究方法が検討されている。 0.75
Two-stage approaches such as R-CNN [19] and Faster R-CNN [47] generate region proposals for objects in the first stage followed by object classification and bounding box refinement in the second stage [19]. R-CNN[19]やFaster R-CNN[47]のような2段階のアプローチは、第1段階のオブジェクトに対する領域提案を生成し、続いて第2段階のオブジェクト分類と境界ボックスの改良を行う。 0.77
Single-stage detectors such as SSD [38] and SSD[38]などの単段検出器 0.69
英語(論文から抽出)日本語訳スコア
YOLO [46] directly predict the final detections and are usually faster than two-stage detectors but with lower accuracy. YOLO [46]は最終検出を直接予測し、通常2段検出器よりも高速だが精度は低い。 0.76
Recently, RetinaNet [37] proposed a focal loss that effectively down-weights easily-classified background examples and showed that single-stage detectors trained with this loss can outperform two-stage detectors in terms of accuracy. 近年, RetinaNet [37] は, 背景サンプルを効果的に分類しやすくする焦点損失を提案し, 精度で2段階検出器より優れていることを示した。 0.78
3D Object Detection. 3Dオブジェクト検出。 0.87
A large body of work on 3D object detection has explored different scene and measurement representations. 3Dオブジェクト検出に関する多くの研究が、異なるシーンと測定表現を探索している。 0.73
For lidar point cloud data, one direction is to rely on voxel-based representations [59, 15, 67, 12, 53]. lidar point cloud dataの場合、1つの方向はvoxelベースの表現 [59, 15, 67, 12, 53]に依存することである。 0.77
Unfortunately, the computational cost of the 3D convolutions required for voxel-based approaches is prohibitive for real-time processing [59, 15]. 残念ながら、voxelベースのアプローチに必要な3d畳み込みの計算コストは、リアルタイム処理では禁止されている [59, 15]。 0.62
Alternatively, the height dimension of the voxel grid can be collapsed into feature channels with 2D convolutions performed in the BEV plane [63, 32, 40], trading off height information for computational efficiency. また、ボクセルグリッドの高さ寸法をbev平面 [63, 32, 40] で2次元畳み込みを行う特徴チャネルに分解し、高さ情報を交換して計算効率を向上させることもできる。 0.78
Although current state of the art relies on lidar, recent work has been attempting to close the performance gap with low-cost passive sensors due to the limitations of scanning lidar, such as cost, size, low angular resolution and failure in strong back-scatter. 現在の技術はライダーに依存しているが、最近の研究は、コスト、サイズ、角度分解能の低さ、強い後方散乱の失敗など、スキャンライダーの限界により、低コストの受動的センサーによる性能ギャップを埋めようとしている。 0.53
Earlier work on monocular [9, 54, 5] and stereo [35] methods leveraged convolutional architectures from 2D object detection, extracting depth information from stereo disparity cues or geometric constraints in an end-to-end fashion. モノキュラー [9, 54, 5] およびステレオ [35] 法に関する初期の研究は、2次元物体検出から畳み込みアーキテクチャを活用し、ステレオ不一致の手がかりや幾何学的制約から深さ情報を抽出する。 0.75
More recently, pseudo-lidar [60] showed that point cloud input representations can be used with passive imaging approaches by first estimating depth maps. 近ごろ、pseudo-lidar [60] は、まず深度マップを推定することによって、受動的イメージングアプローチでポイントクラウド入力表現が使用できることを示した。 0.60
Several methods have since followed this approach with monocular [61, 42] and stereo [64] depth estimation. その後, 単分子 [61, 42] とステレオ [64] 深度推定による手法がいくつか提案されている。 0.72
PatchNet [41] proposed that the advantage of pseudo-lidar is its explicit depth information in its input rather than the point cloud representation. PatchNet [41]は、擬似ライダーの利点は、ポイントクラウド表現ではなく、入力の明示的な深さ情報であることを提案した。 0.58
Instead, PatchNet uses a 2D convolutional architecture with the estimated (x,y,z) coordinates of each pixel as its input. 代わりに、PatchNetは各ピクセルの推定(x,y,z)座標を入力として、2D畳み込みアーキテクチャを使用します。 0.73
Estimating the depth prior to the detection network effectively disentangles depth information from object appearance, improving the detection accuracy. 検出ネットワーク前の深さの推定は、物体の出現から深度情報を効果的に切り離し、検出精度を向上させる。
訳抜け防止モード: 検出ネットワーク前の深さの推定 物体の外観から奥行き情報を効果的に切り離す 検出精度を向上する
0.88
In this work, we propose a method for 3D detection using 2D gated images, offering a low-cost solution comparable to passive sensors with improved detection accuracy. 本研究では,2次元ゲート画像を用いた3次元検出手法を提案し,検出精度を向上した受動センサに匹敵する低コストソリューションを提供する。 0.77
This input representation allows us to leverage the rich body of efficient 2D convolutional architectures for the task of 3D object detection, while the gated slices represent depth more effectively than RGB images. この入力表現により、3次元オブジェクト検出のタスクに効率的な2次元畳み込みアーキテクチャのリッチボディを活用でき、ゲートスライスはRGB画像よりも効率的に深度を表現できる。 0.83
3. Gated Imaging 3. ゲートイメージング 0.64
Gated imaging is an emerging sensor technology for selfdriving cars which relies on active flash illumination to allow for low-light imaging (e.g. ゲーテッドイメージング(Gated Imaging)は、低照度撮像を可能にするアクティブフラッシュ照明を利用する自動運転車用の新興センサー技術である。 0.73
night driving) while reducing back-scatter in adverse weather situations such as snow or fog [21]. 夜間運転) 雪や霧などの悪天候下で後方散乱を減少させながら[21]。 0.79
Gated Slice 1 Gated Slice 1 0.85
Gated Slice 2 Gated Slice 2 0.85
Gated Slice 3 Gated Slice 3 0.85
Gated Sensor Range-Intensity Profile ゲートセンサ Range-Intensity Profile 0.65
) r ( C Pulsed Laser ) r (C) パルスレーザー 0.84
0 20 40 60 Distance r [m] 0 20 40 60 距離 r [m] 0.83
80 100 Figure 2: A gated system consists of a pulsed laser source and a gated imager that are time-synchronized. 80 100 図2: ゲートシステムはパルスレーザー源と時間同期されたゲートイメージ器で構成される。 0.82
The range-intensity profile (RIP) Ci(r) describes the distancedependent illumination for a slice i. 範囲強度プロファイル(RIP) Ci(r) は、スライス i の距離依存照明を記述する。 0.79
A car at a certain distance appears with a different intensity in each slice according to the RIP. 特定の距離の車は、RIPに応じて各スライスに異なる強度で表示されます。 0.79
As shown in Figure 2, a gated imaging system consists of a flood-illuminator and synchronized gated image sensor that integrates photons falling in a window of round-trip path-length ξc, where ξ is a delay in the gated sensor and c is the speed of light. 図2に示すように、ゲートイメージングシステムは、洪水イルミネーターと同期ゲートイメージセンサーで構成されており、これは、ゲートされたセンサーの遅延であり、cは光の速度である、ラウンドトリップパス長のacの窓に落ちる光子を統合します。 0.64
Following [21], the range-intensity profile (RIP) C(r) describes the distance-dependent integration, which is independent of the scene and given by 21]に従うと、範囲強度プロファイル(RIP)C(r)は、シーンとは独立して与えられる距離依存の統合を記述する。 0.81
C (r) = ∞ Z C (r) = ∞ Z 0.85
−∞ g (t − ξ) p(cid:18)t − −∞ g (t − s) p(cid:18)t − 0.88
2r c (cid:19) β (r) dt, 2r c (cid:19) β (r) dt, 0.89
(1) where g is the temporally modulated camera gate, p the laser pulse profile and β models atmospheric interactions. (1) gは時間変調されたカメラゲートであり、pはレーザーパルスプロファイル、βは大気相互作用をモデル化する。 0.78
Assuming now a scene with dominating lambertian reflector with albedo α at distance ˜r, the measurement for each pixel location is obtained by ランベルト反射体とアルベドαを距離 ~r で有するシーンを仮定すると、各画素位置の測定値が得られる。 0.73
z = αC(˜r) + ηp (αC(˜r)) + ηg, z = αC( sr) + sp(αC( sr)) + sg, 0.88
(2) where ηp describes the Poissonian photon shot noise and ηg the Gaussian read-out noise [16]. (2) ここでηp はポアソニアンフォトンショットノイズとガウス読み出しノイズ [16] を記述する。 0.73
In this work, we capture three images Zi ∈ Nheight×width for i ∈ {1, 2, 3} with different profiles Ci(r) that intrinsically encode depth into the three slices. 本研究では、3つの画像 zi ∈ nheight×width for i ∈ {1, 2, 3} を、深さを内在的に3つのスライスにエンコードする異なるプロファイル ci(r) でキャプチャする。 0.72
4. 3D Object Detection from Gated Images 4. 定格画像からの3次元物体検出 0.83
In this section, we introduce Gated3D, a novel model for detecting 3D objects from temporal illumination cues in gated images. 本稿では,ゲート画像中の時間的照明手がかりから3次元物体を検出する新しいモデルであるGated3Dを紹介する。 0.79
Given three gated images, the proposed network determines the 3D location, dimensions, orientation and class of the objects in the scene. 3つのゲート画像が与えられると、提案されたネットワークはシーン内のオブジェクトの3d位置、寸法、向き、およびクラスを決定する。 0.70
Architecture Overview The proposed architecture is illustrated in Figure 3. アーキテクチャの概要 提案されたアーキテクチャは図3に示します。 0.70
Our model is composed of a 2D detection network, based on Mask R-CNN [24], and a 3D detection network designed to effectively integrate semantic, 本モデルは,マスクr-cnn[24]に基づく2次元検出ネットワークと,セマンティクスを効果的に統合する3次元検出ネットワークで構成されている。 0.78
英語(論文から抽出)日本語訳スコア
contextual, and depth information from gated images. ゲート画像からの文脈情報と深度情報です 0.67
The model is trained end-to-end using only 3D bounding box annotations with no additional depth supervision. モデルは3Dバウンディングボックスアノテーションのみを使用して、追加の深度監視なしでエンドツーエンドでトレーニングされる。 0.58
The 2D detector predicts bounding boxes that guide the feature extraction with a FPN [36] backbone. 2D検出器は、FPN[36]バックボーンで特徴抽出を導くバウンディングボックスを予測する。 0.75
These 2D boxes are used to estimate frustum segments that constrain the 3D location. これらの2Dボックスは、3D位置を制限するフラストラムセグメントを推定するために使用される。 0.62
In addition to these geometric estimates, the 3D detection network receives the cropped and resized regions of interest extracted from both the input gated slices and the backbone features. これらの幾何推定に加えて、3d検出ネットワークは、入力ゲートスライスとバックボーン特徴の両方から抽出された関心領域の切り抜きおよび再サイズを受信する。 0.76
To extract contextual, semantic and depth information from the temporal intensity variations of the gated images, our 3D detection network applies two separate convolution streams: one for the backbone features and another for the gated input slices. ゲート画像の時間強度変化から文脈的,意味的,深度的な情報を抽出するために,我々の3D検出ネットワークは,バックボーンの特徴とゲート入力スライスのための2つの別々の畳み込みストリームを適用した。 0.76
The resulting features are fed into a sequence of fully-connected layers that predict the 3D location, dimensions, and orientation of the objects. 結果として得られた機能は、オブジェクトの3d位置、寸法、方向を予測する一連の完全連結層に供給される。 0.68
The remainder of this section details our proposed 2D object detection network 4.1, 3D prediction network architecture 4.2 and the loss functions for training 4.3. 本稿では,提案する2次元オブジェクト検出ネットワーク4.1,3次元予測ネットワークアーキテクチャ4.2,および学習用損失関数4.3について詳述する。 0.74
4.1. 2D Object Detection Network 4.1. 2次元物体検出ネットワーク 0.79
The proposed 2D detection network uses a FPN [36] as a backbone and RoIAlign for extracting crops of both the features and input gated slices. 提案された2D検出ネットワークはFPN [36]をバックボーンとして使用し、RoIAlignは特徴と入力ゲートスライスの両方の作物を抽出する。 0.77
We extract features maps P2, P3, P4 and P5 of the backbone, as defined in [36]. 背骨のP2,P3,P4,P5を[36]で定義した特徴写像を抽出する。 0.71
Our 2D object detection network follows a two-stage architecture, where the final 2D box detections are refined from proposals output by a region proposal network (RPN). 我々の2Dオブジェクト検出ネットワークは、最終2Dボックス検出を領域提案ネットワーク(RPN)が出力する提案から洗練する2段階アーキテクチャに従っている。 0.88
In contrast to Mask RCNN [24], we use these 2D detections instead of the RPN proposals for 3D detection. Mask RCNN [24] とは対照的に、3D検出にはRPNの提案の代わりにこれらの2D検出を使用する。 0.73
Using the refined 2D detections allows the 3D box prediction network to obtain more precise region features, especially from the input gated slices, and a more precise frustum segment, which is essential for depth estimation. 改良された2D検出を用いることで、3Dボックス予測ネットワークは、特に入力されたゲートスライスからより正確な領域特徴と、深度推定に不可欠なより正確なフラストラムセグメントを得ることができる。 0.84
4.2. 3D Object Detection Network 4.2. 3次元物体検出ネットワーク 0.79
Our 3D prediction network fuses the extracted features from both the input gated slices and the backbone features. 当社の3D予測ネットワークは、入力ゲートスライスとバックボーン機能の両方から抽出された機能を融合します。 0.64
The gated stream extracts depth cues from the cropped gated input slices with a sequence of convolutions per slice, without parameter sharing. ゲートストリームは、抽出されたゲート入力スライスからパラメータ共有なしで、スライス毎に一連の畳み込みで深さキューを抽出する。 0.61
These convolutions consist of three layers with 3 × 3 × 16, 3 × 3 × 32 and 3 × 3 × 32 kernels. これらの畳み込みは、3 × 3 × 16, 3 × 3 × 32 と 3 × 3 × 32 の3つの層からなる。
訳抜け防止モード: これらの畳み込みは、3×3×16の3つの層からなる。 3 × 3 × 32 and 3 × 3 × 32 kernels .
0.93
The network fuses the three gated features and the backbone features by concatenating along the channel dimension and processing with 5 residual layers. ネットワークは3つのゲート特徴とバックボーン特徴を融合し、チャネル次元に沿って結合し、5つの残差層で処理する。 0.70
Instead of pooling or flattening the resulting features, an attention subnetwork produces softmax attention maps for each feature channel which are used for a weighted sum over the height and width of the features. 結果として生じる特徴をプールまたは平らにする代わりに、注意サブネットワークは、特徴の高さと幅の重み付き合計に使用する各特徴チャネルのソフトマックス注意マップを生成します。 0.76
The resulting feature vectors are fed into two fully connected layers, followed by a final layer that generates eight 3D bounding box coefficients. 得られた特徴ベクトルは2つの完全連結層に供給され、続いて8つの3dバウンディングボックス係数を生成する最終層が続く。 0.67
We denote an object’s predicted 2D bounding box as オブジェクトの予測された2Dバウンディングボックスを示します。 0.70
P = (c, u, v, hu, wv), where c is object’s class, (u, v) is the bounding box center, and (hu, wv) define its height and width, respectively. p = (c, u, v, hu, wv) ここで c はオブジェクトのクラスであり、 (u, v) はバウンディングボックスの中心であり、 (hu, wv) はそれぞれの高さと幅を定義する。 0.83
The 3D detection network takes P and estimates a set of parameters Q, that define a 3D bounding box whose projection is given by P . 3D検出ネットワークはPを取り、Pによって投影される3D境界ボックスを定義するパラメータQのセットを推定する。 0.86
The problem of estimating Q is ill-posed as given a specific 2D bounding box P , there are an infinite number of 3D boxes that can be projected to P . Q を推定する問題は、特定の 2D 境界箱 P が与えられたとき、P に射影できる無限個の 3D ボックスが存在すると仮定される。 0.81
However, we can restrict the range of locations of Q to a segment of the 3D viewing frustum extracted from P , using the object’s approximate dimensions and P . ただし、物体の近似寸法とPを用いて、Pから抽出した3次元視聴フラスタムのセグメントにQの位置の範囲を制限することができます。 0.76
See Figure 4 for an illustration. 図4を参照してください。 0.74
Estimating the 3D location is aided by restricting the object’s location to a specific frustum region similar to [44]. オブジェクトの位置を[44]に類似した特定のフラストラム領域に制限することで、3D位置を推定する。 0.83
For lidar data, a frustum suffices to define an object in 3D space as lidar provides depth values. lidarデータの場合、frustumは3d空間でオブジェクトを定義するのに十分である。 0.61
In our case, we only have data in the image space, without absolute depth value. われわれの場合、画像空間にデータしか持たず、絶対深度の値も持たない。 0.78
Instead of considering the whole frustum as in [44], we leverage the camera calibration and object dimensions in the training set to constrain the depth. 44]で全体のフラスタムを考慮する代わりに、トレーニングセットでカメラのキャリブレーションとオブジェクト寸法を活用し、深さを制限します。 0.74
This idea is illustrated in Fig. このアイデアは図に示されています。 0.62
4, where a person is located at different distances relative to the camera. 4、人はカメラと異なる距離に位置しています。 0.71
Using the object height and 2D bounding box projection, we can estimate the distance to the camera through triangulation. 物体の高さと2次元境界ボックス投影を用いて、三角測量によりカメラの距離を推定できる。 0.78
Assuming a bounded height, we can accurately estimate the segment of the frustum where the object is located. 有界の高さを仮定すると、対象が位置するフラスタムのセグメントを正確に推定することができる。 0.72
In the example in Fig. 4, we define the minimum and maximum height values to be 1.5m and 2m. 図の例では。 4) 最小高さと最大高さを1.5mと2mと定義する。 0.69
For each 2D bounding box P = (c, u, v, wu, hv) generated by the 2D detection network, our 3D bounding box network is trained to estimate the parameters Q′ = (δu′, δv′, δz′, δh′, δw′, δl′, θ′), which encode the location (x, y, z), dimensions (h, w, l), and orientation (θ′) of a 3D bounding box as follows 2D検出ネットワークによって生成される各2D境界ボックス P = (c, u, v, wu, hv) に対して、我々の3D境界ボックスネットワークは、次の3D境界ボックスの位置 (x, y, z) を符号化するパラメータ Q′ = (δu′, δv′, δz′, δh′, δw′, δl′, θ′) を推定するように訓練される。 0.85
3D Location. We estimate the objects location (x, y, z) using its projection over the image space, as well as a frustum segment. 3Dロケーション。 物体の位置 (x, y, z) を画像空間上の投影とフラスタムセグメントを用いて推定する。
訳抜け防止モード: 3Dロケーション。 画像空間上の投影を用いて物体の位置(x, y, z)を推定します。 だけでなく、フラスタムセグメント。
0.76
Specifically, we define the target δu′, δv′ values as 具体的には、ターゲット δu′, δv′ 値を定義します。 0.63
δu′ = (P roj2du(x, y, z) − u)/wu δv′ = (P roj2dv(x, y, z) − v)/hv, δu′ = (P roj2du(x, y, z) − u)/wu δv′ = (P roj2dv(x, y, z) − v)/hv, 0.91
(3) (4) where P roj2du(x, y, z), P roj2dv(x, y, z) represent the u, v coordinates of the 2D projection of (x, y, z) over the image space. (3) (4) ここで、P roj2du(x, y, z) と P roj2dv(x, y, z) は、画像空間上の (x, y, z) の2次元投影の u, v 座標を表す。 0.86
To define the target z, we first define a frustum segment used as a reference for depth estimation. ターゲットzを定義するために、まず深度推定の参照として使用されるフラストタムセグメントを定義します。 0.75
Given an object with height h, we can estimate the object distance to the camera with focal length fv as 高さ h の物体があれば、焦点距離 fv のカメラへの物体距離を推定できます。 0.80
f (hv, h) = f (hv, h) = 0.85
h hv fv. (5) hv fvだ (5) 0.71
If we assume that h follows a Gaussian Distribution with mean µh and standard deviation σh, given P = (c, u, v, wu, hv) and fv, we can constrain the distance from the object to the camera to a range of [f (hv, µh − h が平均 μh と標準偏差 σh のガウス分布に従うと仮定すると、P = (c, u, v, wu, hv) と fv が与えられたとき、対象からカメラへの距離を [f (hv, μh −) の範囲に制限することができる。 0.88
英語(論文から抽出)日本語訳スコア
Figure 3: From three gated slices, the proposed Gated3D architecture detects objects and predicts their 3D location, dimension and orientation. 図3: 3つのゲートスライスから、提案されたGated3Dアーキテクチャはオブジェクトを検出し、3Dの位置、寸法、方向を予測する。 0.63
Our network employs a 2D detection network to detect ROIs. このネットワークは2次元検出ネットワークを用いてroisを検出する。 0.67
The resulting 2D boxes are used to crop regions from both the backbone network and input gated slices. 得られた2Dボックスは、バックボーンネットワークと入力ゲートスライスの両方から領域をトリミングするために使用されます。
訳抜け防止モード: 結果の2Dボックスが使用されます バックボーンネットワークと入力ゲートスライスの両方から 作物を収穫します
0.72
Our 3D network estimates the 3D object parameters using a frustum segment computed from the 2D boxes and 3D statistics of the training data. 3dネットワークは,2dボックスから計算したフラスタムセグメントと,トレーニングデータの3d統計を用いて3dオブジェクトパラメータを推定する。 0.79
The network processes the gated slices separately, then fuses the resulting features with the backbone features and estimates the 3D bounding box parameters. ネットワークはゲートスライスを別々に処理し、その結果の機能をバックボーンの特徴と融合し、3D境界ボックスパラメータを推定する。 0.81
Figure 4: There is an infinite number of 3D cuboids that can project to a given bounding box P . 図4:与えられた境界ボックスPに投影できる無限数の3D立方体があります。 0.77
However, the object location can be reasonably estimated using the object height, its projected height, and the vertical focal length. しかし、物体の高さ、投影高さ、垂直焦点長を用いて、物体の位置を合理的に推定することができる。 0.69
σh), f (hv, µh + σh)], or, more general, we deduct that the frustum segment has a length d σh), f (hv, μh + σh)] あるいは、より一般的には、フラスタムセグメントが長さ d を持つと仮定する。 0.78
d = f (hv, µh + k ∗ σh) − f (hv, µh − k ∗ σh), d = f (hv, μh + k ∗ σh) − f (hv, μh − k ∗ σh)。 0.95
(6) where k is a scalar that adjusts the segment extent and is inversely proportional to our prediction confidence. (6) ここで k はセグメントの範囲を調整し、予測の信頼性に反比例するスカラーである。 0.79
Following these observations, the z coordinate of the 3D これらの観測の後 3次元のz座標は 0.80
bounding box, δz′, is given as 境界ボックス δz′ は 0.45
δz′ = z − f (hv, h) δz'= z − f (hv, h) 0.81
d . (7) Note that learning δz′ instead of the absolute depth z has the advantage that the target value includes a good depth estimation as prior and it is normalized by d, which varies according to the distance from the object to camera. d . (7) 絶対深度 z の代わりに δz′ を学ぶことは、目標値が予め良い深度推定を含み、オブジェクトからカメラまでの距離に応じて変化する d によって正規化されるという利点があることに注意してください。 0.82
We have found this normalization is key to estimate the absolute depth of the objects. この正規化が物体の絶対深さを推定する鍵であることが分かっています。 0.68
Intuitively, for higher distances 直観的には 高い距離で 0.64
there is greater localization uncertainty in the labels and as such, the training loss needs to account for this proportionally. ラベルには ローカライゼーションの不確実性が大きく トレーニングの損失は 比例的に考慮する必要がある
訳抜け防止モード: ラベルには より大規模な ローカライゼーションの不確実性があり トレーニングの損失は 比例的に考慮しなければなりません
0.66
Analogous to 2D detectors, this frustum segment can also be considered as an anchor, except its position and dimensions are not fixed, instead using the camera model and object statistics to adjust accordingly. 2D検出器に類似して、このフラスタムセグメントはアンカーと見なすことができますが、その位置と寸法は固定されておらず、カメラモデルとオブジェクト統計を使用してそれに応じて調整します。
訳抜け防止モード: 2d検出器と同様に、このフラスタムセグメントはアンカーと見なすこともできる。 その位置と寸法は固定されておらず、代わりにカメラモデルとオブジェクト統計を用いて 順に調整する。
0.72
During training, we use h from ground-truth; during in- トレーニング中は、グラウンドトラスからhを使用します。 0.61
ference, we use the network prediction. 推論はネットワーク予測を使っています 0.70
3D Box Dimensions and Orientation. 3D箱次元およびオリエンテーション。 0.79
The target 3D box dimensions are estimated using δh′, δw′, δl′, which are defined as the offset between the mean of the objects dimensions, per class, and the true dimensions. 対象の3Dボックス次元は δh′, δw′, δl′ を用いて推定される。
訳抜け防止モード: 対象の3Dボックス寸法はδh′, δw′ を用いて推定される。 δl′ は対象次元の平均間のオフセットとして定義される。 クラスごとに 真の次元は
0.78
δp′ = p − µp δp'= p − μp 0.84
µp , ∀p ∈ {h, w, l}. μp は、p ∈ {h, w, l} である。 0.76
(8) To learn the target orientation (observation angle) θ′, the orientation is encoded as (sinθ ′, cosθ ′), and the network is trained to estimate each parameter separately. (8) 目標方向(観測角度)θ′ を学習するために、向きを (sinθ ′, cosθ ′) として符号化し、各パラメータを個別に推定するようにネットワークを訓練する。 0.82
4.3. Loss Functions Given a 3D box parameters prediction Q = (δu, δv, δz, δh, δw, δl, sinθ, cosθ), and its corresponding ground-truth box Q′ = (δu′, δv′, δz′, δh′, δw′, δl′, θ′), we define our overall loss L3D(Q, Q′) as 4.3. 損失関数 3Dボックスパラメータ予測Q = (δu, δv, δz, δh, δw, δl, sin , coss) と対応する接地トラスボックスQ′ = (δu′, δv′, δz′, δh′, δw′, δl′, δl′) を与えられると、全体的な損失L3D(Q, Q′) が定義される。
訳抜け防止モード: 4.3. 損失関数 Q = (δu, δv, δz, δh, δw, δl, sinθ, cosθ ) そして、対応する接地 - truth box Q′ = ( δu′, δv′, δz′, δh′, δw′, δl′, θ′ ) 全体の損失 L3D(Q , Q′ ) を
0.76
L3D(Q, Q′) = α ∗ Xl∈{u,v,z} Ldim(δd − δd′) + β ∗ Lori(sinθ, cosθ, θ′), L3D(Q, Q′) = α ∗ Xl∂{u,v,z} Ldim(δd − δd′) + β ∗ Lori(sinθ, cosθ, θ′) 0.92
Lloc(δl − δl′) lloc(δl − δl′) 0.77
+ Xd∈{h,w,l} xd ∈{h,w,l} 0.77
(9) (9) 0.85
英語(論文から抽出)日本語訳スコア
where Lloc is the location loss, Ldim is the dimensions loss, and Lori(θ, θ′) is the orientation loss. Lloc は位置損失、Ldim は次元損失、Lori(θ, θ′) は方向損失である。
訳抜け防止モード: Llocは位置損失です。 Ldimは次元損失です。 そして、Lori(θ , θ′ ) は向きの損失である。
0.76
We use α and β to weight the location and orientation loss, and define these values during training. αとβを使って位置と方向の損失を重み付け、トレーニング中にこれらの値を定義します。 0.71
We define Lloc and Ldim as SmoothL1, and Lori(sinθ, cosθ, θ′) as Lloc と Ldim を SmoothL1 と定義し、Lori を SmoothL1 と定義します。 0.73
Lori(sinθ, cosθ, θ′) = (sinθ − sin(θ′))2+(cosθ − cos(θ′))2. lori(sinθ, cosθ, θ′) = (sinθ − sin(θ′))2+(cosθ − cos(θ′))2。 0.88
(10) The method runs at approximately 10 FPS on an Nvidia RTX 2080 GPU in TensorFlow without implementation optimization such as TensorRT. (10)この方法はTensorRTのような実装最適化なしでTensorFlowのNvidia RTX 2080 GPU上で約10FPSで動作する。 0.83
We refer to the Supplemental Material for additional method and implementation details. 追加の方法や実装の詳細については補足資料を参照。 0.65
We also provide detailed ablation studies, validating the architecture components of the model, in the same document. また,モデルのアーキテクチャコンポーネントを同一文書で検証し,詳細なアブレーション研究を行う。 0.75
5. Datasets In this section, we describe Gated3D, our new dataset 5. データセット 本稿では,新しいデータセットであるGated3Dについて述べる。 0.70
for 3D object detection with gated images. ゲート画像による3Dオブジェクト検出。 0.82
Sensor Setup. センサーのセットアップ。 0.78
Since existing automotive datasets [1, 13, 17, 65] do not include measurements from gated cameras, we collected gated image data during a large-scale data acquisition in Northern Europe. 既存の自動車データセット [1, 13, 17, 65] はゲートカメラの計測を含まないため, 北欧における大規模データ取得において, ゲート画像データを収集した。 0.78
Following [21], we used the gated system BrightEye from BrightwayVision which consists of: 21]に従うと、BrightwayVisionのゲートシステムであるBrightEyeを使用しました。 0.68
• A gated CMOS pixel array of resolution 1280 px × 720 px with a pixel pitch of 10 µm. • 解像度1280 px × 720 pxのゲート型cmosピクセル配列で、10μmのピクセルピッチを持つ。 0.83
Using a focal length of 23 mm provides a horizontal and vertical field of view of 31.1◦ H × 17.8◦ V. 焦点距離 23 mm は、水平と垂直の視野が 31.1 × H × 17.8 × V である。 0.79
• Two repetitive pulsed vertical-cavity surface-emitting laser (VCSEL) which act as a pulsed illumination source. • パルス光源として機能する2つの繰り返しパルス垂直キャビティ表面発光レーザ(VCSEL)。 0.88
The VCSELs emit light at 808 nm and 500 W peak power to comply with eye-safety regulations. VCSELは808 nmと500 Wのピーク電力で光を発し、目の安全規制に準拠します。 0.73
The pulsed illumination is diffused and results 24.0◦ H × 8.0◦ V illumination cone. パルス照明は拡散され、24.0度h×8.0度v照明円錐になる。 0.63
The source is mounted below the bumper of the vehicle, see Figure 5. ソースは車両のバンパーの下に取り付けられている(図5参照)。 0.80
The gated images consist of three exposure profiles as shown in Figure 2. ゲート画像は図2に示すように3つの露光プロファイルで構成されています。 0.60
The corresponding gate settings (delay, laser duration, gate duration) can be found in the supplement. 対応するゲート設定(遅延、レーザー持続時間、ゲート持続時間)は、サプリメントに記載されている。 0.65
For each single capture, multiple laser flashes are integrated on the chip before read-out in order to increase the measurement signal-to-noise ratio. シングルキャプチャ毎に、測定信号-ノイズ比を増加させるために、読み出し前のチップに複数のレーザーフラッシュが統合される。 0.72
For comparison with state-of-the-art 3D detection approaches, our test vehicle is equipped with a Velodyne HDL64 lidar scanner and a stereo camera. 最先端の3D検出手法と比較して,テスト車両はVelodyne HDL64ライダースキャナとステレオカメラを備えている。 0.79
The stereo system consists of two cameras with OnSemi AR0230 sensors mounted at 20.3 cm baseline. ステレオシステムは2台のカメラと20.3cmのベースラインに搭載されたOnSemi AR0230センサーで構成されている。 0.57
All sensor specifications are listed in Figure 5. すべてのセンサー仕様は図5に記載されている。 0.69
The gated camera runs freely and cannot be triggered, so to obtain matching measurements we compensate the egomotion of the lidar point clouds. ゲート付きカメラは自由に動作し、トリガーできないため、一致の測定を得るためにライダーポイント雲の自転を補償する。 0.65
The corresponding gated images are found using an adapted ROS MessageFilter [45], see Supplemental Material. 対応するゲート画像は、適応されたROS MessageFilter [45]を使用して見つかります。 0.72
Gated Camera Stereo Camera ゲートカメラ ステレオカメラ 0.66
Lidar Sensor BrightwayVision ライダー センサ BrightwayVision 0.66
2x OnSemi Velodyne 2xオンセミ ヴェロディーヌ 0.44
BrightEye AR0230 BrightEye AR0230 0.82
HDL64-S3D Resolution HDL64-S3D 解決 0.47
1280px×720px 1280px×720px 0.47
1920px×1080px 1440”×612” 1920px×1080px1440”×612” 0.69
Wavelength 808 nm Frame Rate 波長 808nm。 フレームレート 0.76
120 Hz Color 30 Hz 120Hz 色 30Hz 0.78
905 nm 10 Hz 905nm 10Hz 0.77
Bit Depth 10 bit uint ビット深さ 10ビットuint 0.76
12 bit uint 32 bit float 12ビットuint 32ビットフロート 0.75
Figure 5: Sensor setup for recording the proposed Gated3D dataset. 図5: gated3dデータセットを記録するためのセンサー設定。 0.76
For comparisons we also capture corresponding lidar point clouds and stereo image pairs. 比較のために、対応するライダー点雲とステレオ画像ペアをキャプチャする。 0.56
Note that the stereo camera is located at approximately the same position of the gated camera in order to ensure a similar viewpoint. ステレオカメラは、同様の視点を確保するためにゲートカメラのほぼ同じ位置にあることに注意されたい。 0.66
Collection and Split We annotated 1.4 million frames collected at framerate of 10 Hz, covering 10,000 km of driving in Northern Europe during winter. 収集と分割 冬の間に北ヨーロッパで1万kmの運転をカバーし、10Hzのフレームレートで14万フレームの注釈を付けました。 0.55
The annotation and capture procedures for the dataset are detailed in the supplement. データセットのアノテーションとキャプチャ手順は、サプリメントに詳述されている。 0.61
The gated images have been manually labeled with human annotators matching lidar, gated and RGB frames simultaneously. ゲート画像は、リダー、ゲート、RGBフレームに一致する人間のアノテーションで手動でラベル付けされています。 0.57
In total, more than 100,000 objects are labeled, which comprise 4 classes. 合計で10万以上のオブジェクトにラベルが付けられ、4つのクラスで構成される。 0.64
The annotations were done over 12997 image examples. アノテーションは12997のイメージ例で実行されました。 0.64
The dataset is randomly split into a training set of 10,046 frames, a validation set of 1,000 frames and a test set of 1,941 frames. データセットは、10,046フレームのトレーニングセット、1000フレームの検証セット、および1,941フレームのテストセットにランダムに分割される。 0.78
In addition to the gated images, our proposed dataset contains corresponding RGB stereo images captured by the stereo camera system described in the previous paragraph. 本研究では、ゲート画像に加えて、前項のステレオカメラシステムによって撮影されたRGBステレオ画像を含むデータセットを提案する。 0.74
In contrast to popular datasets, including as Waymo [1], KITTI [17] and Cityscapes [13], our dataset is significantly more challenging as it also includes many nighttime images and captures under adverse weather conditions such as snow and fog. Waymo [1],KITTI [17],Cityscapes [13]などの一般的なデータセットとは対照的に,当社のデータセットには夜間の画像が多数含まれており,雪や霧などの悪天候下での撮影も非常に難しい。 0.82
6. Assessment Evaluation Setting. 6. 評価 評価設定。 0.75
The BEV and 2D/3D detection metrics as defined in the KITTI evaluation framework are used for evaluation, as well as the ones described by [63], which calculate the metrics with respect to distance ranges. KITTI評価フレームワークで定義されているBEVおよび2D/3D検出メトリックは、距離範囲に関するメトリクスを計算する[63]で説明されているものと同様に、評価に使用されます。 0.84
Fol- Fol- 0.78
英語(論文から抽出)日本語訳スコア
Table 1: Object detection performance over Gated3D dataset (test split). 表1:Gated3Dデータセット上のオブジェクト検出パフォーマンス(テスト分割)。 0.82
Our method outperforms monocular and stereo methods (bottom part of the table) over most of the short (0-30m), middle (30-50m) and long (50-80m) distance ranges, as well as Pseudo-Lidar based methods trained over gated images. 提案手法は,0-30m,中(30-50m),長(50-80m)の短距離領域と,ゲート画像上で訓練した擬似ライダー法において,単分子法やステレオ法(テーブルのボトム部)よりも優れていた。 0.66
Interestingly, our model even outperforms PointPillars lidar reference for Pedestrian detection at long distance ranges. 興味深いことに、このモデルは長距離歩行者検出のためのpointpillars lidar参照よりも優れています。 0.46
Method Modality 2D object detection 方法 モダリティ 2次元物体検出 0.70
3D object detection BEV detection 3次元物体検出 BEV検出 0.82
2D object detection (a) Average Precision on Car class. 2次元物体検出 (a)自動車クラスの平均精度。 0.80
Daytime Images Nighttime Images 3D object detection 昼間の画像 Nighttime Images 3Dオブジェクト検出 0.84
BEV detection 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m BEV検出 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 30-50 m 50-80 m 30-80 m 50-80 m 30-50 m 50-80 m 30-50 m 50-80 m 30-50 m 30-80 m 30-80 m 30-80 m 30-80 m 30-80 m 0.65
POINTPILLARS [32] ポイントピラー[32] 0.66
Lidar 90.12 ライダー 90.12 0.47
82.83 56.63 82.83 56.63 0.59
91.51 84.63 91.51 84.63 0.59
54.28 91.59 54.28 91.59 0.59
86.54 54.71 86.54 54.71 0.59
90.73 84.88 90.73 84.88 0.59
54.22 90.29 54.22 90.29 0.59
87.40 52.32 87.40 52.32 0.59
90.29 87.51 90.29 87.51 0.59
52.60 M3D-RPN [5] STEREO-RCNN [35] PSEUDO-LIDAR PSEUDO-LIDAR++ [64] PATCHNET [41] GATED3D 52.60 M3D-RPN [5] STEREO-RCNN [35] PSEUDO-LIDAR PSEUDO-LIDAR++ [64] PATCHNET [41] GATED3D 0.63
RGB Stereo Gated Gated Gated Gated RGBステレオゲートGated Gated Gated 0.75
90.44 81.56 81.74 81.74 90.46 90.78 90.44 81.56 81.74 81.74 90.46 90.78 0.43
89.29 81.07 81.33 80.29 81.74 90.55 89.29 81.07 81.33 80.29 81.74 90.55 0.43
62.76 78.08 80.88 81.59 89.78 90.91 62.76 78.08 80.88 81.59 89.78 90.91 0.43
53.21 54.17 26.17 30.44 23.91 52.15 53.21 54.17 26.17 30.44 23.91 52.15 0.43
13.26 17.16 16.06 15.47 10.86 28.31 13.26 17.16 16.06 15.47 10.86 28.31 0.43
10.52 6.17 10.27 11.76 7.34 14.85 10.52 6.17 10.27 11.76 7.34 14.85 0.43
60.80 57.92 26.94 32.49 24.87 52.31 60.80 57.92 26.94 32.49 24.87 52.31 0.43
16.16 17.69 17.26 16.97 11.33 29.26 16.16 17.69 17.26 16.97 11.33 29.26 0.43
10.52 6.26 10.87 12.83 7.84 15.02 10.52 6.26 10.87 12.83 7.84 15.02 0.43
90.85 81.73 89.35 90.21 90.87 90.84 90.85 81.73 89.35 90.21 90.87 90.84 0.43
80.64 81.03 89.02 81.75 89.86 81.82 80.64 81.03 89.02 81.75 89.86 81.82 0.43
59.76 70.85 88.31 81.78 88.89 90.33 59.76 70.85 88.31 81.78 88.89 90.33 0.43
51.18 47.36 36.58 36.36 23.74 51.42 51.18 47.36 36.58 36.36 23.74 51.42 0.43
20.76 17.21 23.05 21.93 16.79 25.73 20.76 17.21 23.05 21.93 16.79 25.73 0.43
2.73 13.02 19.88 22.39 7.16 12.97 2.73 13.02 19.88 22.39 7.16 12.97 0.43
52.53 53.81 39.50 37.46 25.15 53.37 52.53 53.81 39.50 37.46 25.15 53.37 0.43
21.39 18.34 28.68 23.12 17.76 29.13 21.39 18.34 28.68 23.12 17.76 29.13 0.43
2.74 13.08 22.82 23.63 8.29 13.12 2.74 13.08 22.82 23.63 8.29 13.12 0.43
Method Modality 2D object detection 方法 モダリティ 2次元物体検出 0.70
3D object detection BEV detection 3次元物体検出 BEV検出 0.82
2D object detection (b) Average Precision on Pedestrian class. 2次元物体検出 (b) 歩行者クラスの平均精度。 0.77
Daytime Images Nighttime Images 3D object detection 昼間の画像 Nighttime Images 3Dオブジェクト検出 0.84
BEV detection 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m BEV検出 0-30 m 30-50 m 50-80 m 0-30 m 30-50 m 50-80 m 30-50 m 50-80 m 30-80 m 50-80 m 30-50 m 50-80 m 30-50 m 50-80 m 30-50 m 30-80 m 30-80 m 30-80 m 30-80 m 30-80 m 0.65
POINTPILLARS [32] ポイントピラー[32] 0.66
Lidar 70.08 ライダー 70.08 0.47
49.03 0.00 49.03 0.00 0.59
69.71 45.24 69.71 45.24 0.59
0.00 70.53 0.00 70.53 0.59
48.07 0.00 48.07 0.00 0.59
69.97 43.32 69.97 43.32 0.59
0.00 71.25 0.00 71.25 0.59
41.21 0.00 41.21 0.00 0.59
70.99 43.61 70.99 43.61 0.59
0.00 M3D-RPN [5] STEREO-RCNN [35] PSEUDO-LIDAR PSEUDO-LIDAR++ [64] PATCHNET [41] GATED3D 0.00 M3D-RPN [5] STEREO-RCNN [35] PSEUDO-LIDAR PSEUDO-LIDAR++ [64] PATCHNET [41] GATED3D 0.63
RGB Stereo Gated Gated Gated Gated RGBステレオゲートGated Gated Gated 0.75
79.08 88.57 77.87 77.89 90.48 89.72 79.08 88.57 77.87 77.89 90.48 89.72 0.43
66.41 75.63 78.38 77.95 80.75 81.47 66.41 75.63 78.38 77.95 80.75 81.47 0.43
36.98 59.82 69.11 60.88 69.56 86.73 36.98 59.82 69.11 60.88 69.56 86.73 0.43
26.20 48.58 6.19 9.19 32.88 50.94 26.20 48.58 6.19 9.19 32.88 50.94 0.43
14.50 23.26 4.59 2.36 18.05 20.59 14.50 23.26 4.59 2.36 18.05 20.59 0.43
9.84 7.77 2.15 3.30 5.62 14.14 9.84 7.77 2.15 3.30 5.62 14.14 0.43
30.68 50.11 10.28 14.32 39.45 53.26 30.68 50.11 10.28 14.32 39.45 53.26 0.43
17.47 25.10 9.14 5.66 20.27 22.15 17.47 25.10 9.14 5.66 20.27 22.15 0.43
10.07 8.38 4.13 4.10 9.77 16.51 10.07 8.38 4.13 4.10 9.77 16.51 0.43
78.36 80.38 80.34 79.84 81.50 81.52 78.36 80.38 80.34 79.84 81.50 81.52 0.43
62.99 69.13 78.61 79.57 88.62 81.23 62.99 69.13 78.61 79.57 88.62 81.23 0.43
36.76 60.94 67.78 54.42 65.43 80.18 36.76 60.94 67.78 54.42 65.43 80.18 0.43
25.09 46.09 7.53 7.37 15.37 48.53 25.09 46.09 7.53 7.37 15.37 48.53 0.43
6.43 21.63 9.58 7.21 13.37 23.99 6.43 21.63 9.58 7.21 13.37 23.99 0.43
2.07 11.57 1.62 2.06 6.75 14.98 2.07 11.57 1.62 2.06 6.75 14.98 0.43
26.42 47.58 14.27 12.92 21.60 49.82 26.42 47.58 14.27 12.92 21.60 49.82 0.43
7.69 25.47 15.72 11.99 18.15 25.57 7.69 25.47 15.72 11.99 18.15 25.57 0.43
2.74 11.84 5.55 5.64 8.46 15.46 2.74 11.84 5.55 5.64 8.46 15.46 0.43
lowing Simonelli et al. ローリングSimonelli et al。 0.67
[54], average precision (AP) is based on 40 recall positions to provide a fair comparison. 54]、平均精度(AP)は、公正な比較を提供するために40リコール位置に基づいています。 0.76
We consider Pedestrian and Car as our target detection classes. 我々はPedestrianとCarをターゲット検出クラスとみなしている。 0.72
The 3D metrics are based on intersection over union (IoU) between cuboids [11], which has the disadvantage of equally penalizing completely wrong detections and detections with IoU below the threshold. 3Dメトリクスは、コロイド[11]間の結合(IoU)の交差に基づいており、これは、完全に間違った検出と検出をしきい値以下でIoUと等しくペナルティ化する不利である。 0.67
Due to the emphasis on challenging scenarios in the dataset, as well as imperfect sensor synchronization, the dataset has notably more label noise than typical public datasets for 3D object detection. データセットの困難なシナリオ、および不完全なセンサー同期に重点を置いているため、データセットは3Dオブジェクト検出のための典型的な公開データセットよりも特にラベルノイズが多い。 0.75
This problem is mitigated by using lower IoU thresholds than in KITTI: 0.2 for Car and 0.1 for Pedestrian. この問題は、KITTIの0.2と歩行者の0.1よりも低いIoUしきい値を使用することによって緩和される。 0.60
To focus on detection at different depth ranges, metrics based on difficulty, as defined in KITTI, are provided in the Supplemental Document. 異なる深度範囲での検知に焦点を合わせるため、KITTIで定義された難易度に基づくメトリクスが補足文書に記載されている。 0.72
Baselines. We compare our approach to monocular, stereo, lidar, and pseudo-lidar methods. ベースライン。 我々は,単眼法,ステレオ法,ライダー法,擬似ライダー法に対するアプローチを比較した。 0.57
As monocular baseline, we evaluate M3D-RPN [5], which performs 3D object detection from a single RGB image by “depth-aware” convolution, where weights in one branch of the network are shared across rows only, assuming objects higher up in the image tend to be further away. 1つのrgb画像から3dオブジェクト検出を行うm3d-rpn [5]を,ネットワークの一枝の重みが行間でのみ共有され,画像の上位のオブジェクトが遠ざかる傾向があると仮定した畳み込みによって評価する。 0.76
As stereo method, we evaluate STEREO-RCNN [35], which utilizes stereo image pairs to predict left-right 2D bounding boxes and keypoints that are then used to infer 3D bounding boxes using geometric constraints. ステレオ手法としてステレオ画像ペアを用いて左右2D境界ボックスとキーポイントを予測し,幾何学的制約を用いて3D境界ボックスを推定するSTEREO-RCNN[35]を評価する。 0.75
Recent pseudo-lidar methods allow us to compare our method with recent state-of-the-art methods using the depth map as input, and therefore more directly asses the effectiveness of our model architecture in extracting information from gated images. 近年の擬似ライダー法では,深度マップを入力とした最新の最先端手法との比較が可能となり,ゲート画像からの情報抽出におけるモデルアーキテクチャの有効性をより直接的に評価した。 0.73
To this end, we use the method from Gruber et. この目的のためには Gruber etのメソッドを使用します。 0.67
al. [21] to first generate dense depth maps from gated images, back-project all the pixels of the depth maps into 3D coordinates, and follow [60] to perform 3D object detection using Frustum PointNet [44]. アル 21]まずゲート画像から密度の高い深度マップを生成し、深度マップのすべてのピクセルを3d座標にバックプロジェクションし、[60]を追従し、flustum pointnet [44]を用いて3dオブジェクト検出を行う。 0.58
We also evaluate Pseudo-Lidar ++ [64] depth correction method from sparse lidar, downsampled from our 64 layered lidar to four lidar rays. また,64層lidarから4枚のlidarにダウンサンプリングしたsparse lidarからの擬似lidar ++ [64]深度補正法も評価した。 0.59
Furthermore, we evaluate PatchNet [41], which implements a pseudo-lidar approach based on 2D image-based representation. さらに,2次元画像に基づく表現に基づく擬似ライダー手法を実装したPatchNet[41]を評価する。 0.72
As a lidar reference method for reference with known (measured) depth, we evaluate POINTPILLARS [32]. 既知の(測定された)深さを参照するためのライダー参照手法として,POINTPILLARS[32]を評価する。 0.68
We use the corresponding open source repositories and tune the hyperparameters of each baseline model during training over our dataset. 対応するオープンソースリポジトリを使用し、データセットのトレーニング中に各ベースラインモデルのハイパーパラメータを調整します。 0.73
Experimental Validation. Tables 1a and 1b, respectively, show Car and Pedestrian AP for 2D, 3D and BEV detection on the test set. 実験的検証。 表1aと1bはそれぞれ、テストセットで2D、3DおよびBEV検出用のCarとPedestrian APを示す。 0.78
These results demonstrate the utility of gated imaging for 3D object detection. これらの結果は,3次元物体検出におけるゲートイメージングの有用性を示す。 0.62
Consistent with prior work [35] both the monocular and stereo baselines show a drop in performance with increasing distance. 35] モノキュラーベースラインとステレオベースラインの両方が先行作業と一致し、距離が増すにつれて性能が低下する。 0.65
Monocular and stereo depth cues for a small automotive baseline of 10 - 30cm are challenging to find with increasing range. 10~30cmの小型自動車ベースラインの単分子およびステレオ深度は、範囲の増大とともに発見が困難である。 0.71
The proposed GATED3D method offers a new image modality between monocular, stereo and lidar measurements. 提案されたGATED3D法は、単眼、ステレオ、ライダー測定の新たな画像モダリティを提供する。 0.47
The results demonstrate improvement over intensity-only methods, especially for pedestrians and at night. この結果は、特に歩行者や夜間の強度のみの方法よりも改善を示しています。 0.59
GATED3D excels at detecting objects at long distances or in low-visibility situations. GATED3Dは、遠距離または低視認性状況における物体の検出に優れる。 0.57
Note that pseudo-lidar and stereo methods can be readily combined with the pro- 疑似ライダーとステレオメソッドは簡単にpro-と結合できることに注意。 0.67
英語(論文から抽出)日本語訳スコア
Figure 6: Qualitative comparison against baseline methods on the captured dataset. 図6: キャプチャされたデータセットのベースラインメソッドに対する質的比較。 0.79
Bounding boxes from the proposed method are tighter and more accurate than the state-of-the-art methods. 提案手法のバウンディングボックスは,最先端手法よりも厳密かつ高精度である。 0.65
This is seen in the second image with the other methods showing large errors in pedestrian bounding box heights. これは、歩行者境界箱の高さに大きな誤差を示す他の手法による第2の画像に見られる。 0.68
The BEV lidar overlays show our method offers more accurate depth and orientation than the baselines. BEVライダーオーバーレイは,本手法がベースラインよりも精度の高い深度と方位を提供することを示す。
訳抜け防止モード: BEVライダーオーバーレイショー 我々の方法は 基準線よりも 正確な深さと向きを与える
0.69
For example, the car in the intersection of the fourth image has a 90 degree orientation error in the pseudo-lidar and stereo baselines, and is missed in the monocular baseline. 例えば、第4の画像の交差点にある車は、擬似ライダーとステレオのベースラインで90度の方向誤差があり、単眼のベースラインでは欠落している。 0.71
The advantages of our method are most noticeable for pedestrians, as cars are easier for other methods due to being large and specular (please zoom in electronic version for details). この手法の利点は歩行者にとって最も顕著であり、自動車は大型で仕様(詳細は電子版ズーム)のため、他の方法よりも容易である。 0.77
posed method — a gated stereo pair may capture stereo cues orthogonal to the gated cues exploited by the proposed method. posed method – ゲート付きステレオペアは、提案手法で活用されたゲート付きキューに直交するステレオキューをキャプチャすることができる。 0.49
For additional ablation studies on the components of the proposed method, please refer to the Supplemental Document. 提案手法の構成要素に関するさらなるアブレーション研究については,補遺文書を参照のこと。 0.79
Figure 6 shows qualitative examples of our proposed method and state-of-the-art methods. 図6は,提案手法と最先端手法の定性例を示す。 0.69
The color-coded gated images illustrate the semantic and space information of the gated data (red tones for closer objects and blue for farther away ones). カラーコードされたゲート画像は、ゲートデータのセマンティクスと空間情報(近距離オブジェクトは赤、遠距離オブジェクトは青)を示している。 0.72
Our method accurately detects objects at both close and large distances, whereas other methods struggle, particularly in the safety-critical application of detecting pedestrians at night or in adverse weather conditions. 本手法は近距離と遠距離の両方の物体を正確に検出するが、他の手法は特に夜間や悪天候の歩行者を検知する安全性を重要視する。 0.73
7. Conclusions and Future Work 7. 結論と今後の課題 0.79
This work presented the first 3D object detection method for gated images. 本研究は、ゲート画像に対する最初の3次元物体検出法を示した。 0.61
As a low-cost alternative to lidar, Gated3D outperforms recent stereo and monocular detection methods, including state-of-the-art pseudo-lidar approaches. 低コストなlidarの代替として、gated3dは最先端の擬似lidarアプローチを含む最近のステレオおよびモノクロ検出手法を上回っている。 0.50
We expand on CMOS sensor arrays used in passive imaging approaches by flood-illuminating the scene and capture the temporal intensity variation in coarse tem- 我々は、受動撮像法に用いるCMOSセンサアレイを拡張し、シーンを照らし、粗いtemの時間強度変化を捉えた。 0.70
poral gates. Gated images allow us to leverage existing 2D feature-extraction architectures. ポーラルゲートだ ゲーテッドイメージにより、既存の2D機能抽出アーキテクチャを活用できます。 0.55
We distribute the resulting features in the camera frustum along the corresponding gate – a representation that naturally encodes geometric constraints between the gates, without the need to first recover intermediate proxy depth maps. 我々は,対応するゲートに沿ってカメラフラストラムの特徴を分配する。この表現は,中間プロキシ深度マップを最初に復元することなく,ゲート間の幾何学的制約を自然に符号化する。 0.78
The proposed method runs at real-time rates and we validate the method experimentally on 10,000 km of driving data, demonstrating higher 3D object detection accuracy than existing monocular or stereo detection methods, including recent stereo and monocular pseudo-lidar methods with similar cost to the proposed system. 提案手法は実時間速度で動作し,1万kmの駆動データに対して実験的に検証し,提案方式と同様のコストで最近のステレオおよびモノクロ擬似ライダー法を含む既存のモノクロおよびステレオ検出法よりも高い3次元物体検出精度を示す。 0.81
The proposed method allows for accurate object detection in low-illumination scenarios, where passive methods fail, while being a low-cost camera with an additional flash source. 提案手法は, フラッシュ源を付加した低コストカメラであると同時に, パッシブメソッドが故障する低照度シナリオにおいて, 高精度な物体検出を可能にする。 0.73
In the future, gated imaging systems could benefit from stereo cues (in a stereo system). 将来的には、ゲート型撮像システムはステレオキュー(ステレオシステム)の恩恵を受ける可能性がある。 0.66
We envision our work as a first step towards gated imaging as a new sensor modality, beyond lidar, radar and camera, useful for a broad range of tasks in robotics and autonomous driving, including tracking, motion planning, SLAM, visual odometry, and largescale scene understanding. ライダー、レーダー、カメラを超えて、トラッキング、モーションプランニング、SLAM、視覚オドメトリー、大規模シーン理解など、ロボットと自動運転の幅広いタスクに有用な新しいセンサーモダリティとしてゲートイメージングへの第一歩として、私たちの仕事を想定しています。 0.70
英語(論文から抽出)日本語訳スコア
References [1] Waymo open dataset: An autonomous driving dataset, 2019. 参考文献 [1] waymo open dataset: 自動運転データセット、2019年。 0.70
6 [2] A. Adam, C. Dann, O. Yair, S. Mazor, and S. Nowozin. 6 [2] A. Adam, C. Dann, O. Yair, S. Mazor, S. Nowozin。 0.89
Bayesian time-of-flight for realtime shape, illumination and albedo. リアルタイム形状、照明、アルベドのためのベイジアン飛行時間。 0.63
IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(5):851–864, 2017. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(5):851–864, 2017 0.91
1 [3] P. Andersson. 1 P. Andersson (複数形 P. Anderssons) 0.71
Long-range three-dimensional imaging using range-gated laser radar images. レーザーレーダを用いた長距離3次元イメージング 0.76
Optical Engineering, 45(3):034301, 2006. 光工学、45(3):034301、2006年。 0.72
1 [4] M. Bijelic, T. Gruber, F. Mannan, F. Kraus, W. Ritter, K. Dietmayer, and F. Heide. 1 M. Bijelic, T. Gruber, F. Mannan, F. Kraus, W. Ritter, K. Dietmayer, F. Heide. 0.87
Seeing through fog without seeing fog: Deep multimodal sensor fusion in unseen adverse weather. 霧を見ることなく霧を通して見る:見えない悪天候の深いマルチモーダルセンサー融合。 0.77
arXiv preprint arXiv:1902.08913, 2020. arXiv preprint arXiv:1902.08913, 2020 0.81
1 [5] G. Brazil and X. Liu. 1 5] G.ブラジルおよびX.Liu。 0.82
M3d-rpn: Monocular 3d region proposal network for object detection. M3d-rpn:オブジェクト検出のためのモノラル3d領域提案ネットワーク。 0.66
In Proceedings of the IEEE International Conference on Computer Vision, pages 9287–9296, 2019. In Proceedings of the IEEE International Conference on Computer Vision, page 9287–9296, 2019。 0.92
1, 2, 3, 7 1, 2, 3, 7 0.85
[6] J. Busck. Underwater 3-D optical imaging with a gated view- 6]j・ブッシュ ゲートドビューによる水中3次元光学イメージング- 0.65
ing laser radar. ingレーザーレーダー。 0.70
Optical Engineering, 2005. 光学工学、2005年。 0.83
1 [7] J.-R. Chang and Y.-S. Chen. 1 7] J.R.チャンとY.S.チェン。 0.69
Pyramid stereo matching network. ピラミッドステレオマッチングネットワーク。 0.63
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5410–5418, 2018. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、ページ5410-5418、2018。 0.78
1, 2 [8] R. Chen, F. Mahmood, A. Yuille, and N. J. Durr. 1, 2 8] R. Chen、F. Mahmood、A. Yuille、N.J. Durr。 0.86
Rethinking monocular depth estimation with adversarial training. 対向訓練による単眼深度推定の再検討 0.79
arXiv preprint arXiv:1808.07528, 2018. arXiv preprint arXiv:1808.07528, 2018 0.79
2 [9] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun. 2 9]X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, R. Urtasun. 0.90
Monocular 3d object detection for autonomous driving. 自律走行のための単眼3次元物体検出 0.74
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2147–2156, 2016. コンピュータビジョンとパターン認識に関するIEEE会議の進行の中で、ページ2147-2156、2016。 0.74
1, 3 [10] X. Chen, K. Kundu, Y. Zhu, H. Ma, S. Fidler, and R. Urtasun. 1, 3 10] X. Chen、K. Kundu、Y. Zhu、H. Ma、S. Fidler、R. Urtasun。 0.86
3d object proposals using stereo imagery for accurate object class detection. ステレオ画像を用いた正確なオブジェクトクラス検出のための3次元オブジェクト提案 0.74
IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5):1259–1272, 2017. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5):1259–1272, 2017 0.91
1 [11] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. 1 11] X. Chen、H. Ma、J. Wan、B. Li、T. Xia。 0.85
Multi-view 3d object detection network for autonomous driving. 自律運転のための多視点3次元物体検出ネットワーク 0.72
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1907–1915, 2017. コンピュータビジョンとパターン認識に関するIEEE会議の進行の中で、ページ1907-1915、2017。 0.76
1, 7 [12] Y. Chen, S. Liu, X. Shen, and J. Jia. 1, 7 12] Y. Chen、S. Liu、X. Shen、J. Jia。 0.85
Fast point r-cnn. In Proceedings of the IEEE International Conference on Computer Vision, pages 9775–9784, 2019. 高速r-cnn。 In Proceedings of the IEEE International Conference on Computer Vision, page 9775–9784, 2019。 0.78
3 [13] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. 3 13] M. Cordts、M. Omran、S. Ramos、T. Rehfeld、M. Enzweiler、R. Benenson、U. Franke、S. Roth、B. Schiele。 0.85
The cityscapes dataset for semantic urban scene understanding. セマンティックな都市シーン理解のための都市景観データセット。 0.67
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016. IEEE Conference on Computer Vision and Pattern Recognition, 2016 に参加して 0.73
6 [14] D. Eigen, C. Puhrsch, and R. Fergus. 6 14] D. Eigen、C. Puhrsch、R. Fergus。 0.80
Depth map prediction In from a single image using a multi-scale deep network. マルチスケール深層ネットワークを用いた単一画像からの深度マップ予測 0.74
Advances in Neural Information Processing Systems, pages 2366–2374, 2014. Neural Information Processing Systems, pages 2366–2374, 2014 0.72
1, 2 [15] M. Engelcke, D. Rao, D. Z. Wang, C. H. Tong, and I. Posner. 1, 2 15] M. Engelcke、D. Rao、D. Z. Wang、C. H. Tong、I. Posner。 0.85
Vote3deep: Fast object detection in 3d point clouds using efficient convolutional neural networks. Vote3deep: 効率的な畳み込みニューラルネットワークを用いた3dポイントクラウドでの高速オブジェクト検出。 0.68
In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 1355–1361. 2017年、IEEE International Conference on Robotics and Automation (ICRA)、1355-1361ページ。 0.83
IEEE, 2017. 2017年、IEEE。 0.63
1, 3 [16] A. Foi, M. Trimeche, V. Katkovnik, and K. Egiazarian. 1, 3 16] A. Foi、M. Trimeche、V. Katkovnik、K. Egiazarian。 0.82
Practical poissonian-gaussian noise modeling and fitting for single-image raw-data. 実用的ポアソニアンガウスノイズモデリングと単一画像生データへの適合 0.63
IEEE Transactions on Image Processing, 17(10):1737–1754, 2008. IEEE Transactions on Image Processing, 17(10):1737–1754, 2008 0.93
3 [17] A. Geiger, P. Lenz, and R. Urtasun. 3 17] A. Geiger、P. Lenz、R. Urtasun。 0.81
Are we ready for autonomous driving? 自動運転の準備はできているか? 0.62
the kitti vision benchmark suite. kitti vision benchmarkスイート。 0.57
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3354–3361, 2012. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 3354–3361, 2012 0.82
6 [18] R. Girshick. 6 18] R. Girshick。 0.79
Fast r-cnn. In Proceedings of the IEEE International Conference on Computer Vision, pages 1440–1448, 2015. 高速r-cnn。 In Proceedings of the IEEE International Conference on Computer Vision, page 1440–1448, 2015 0.73
2 [19] R. Girshick, J. Donahue, T. Darrell, and J. Malik. 2 [19] R. Girshick, J. Donahue, T. Darrell, J. Malik 0.87
Rich feature hierarchies for accurate object detection and semantic segmentation. オブジェクト検出とセマンティックセグメンテーションのためのリッチな特徴階層。 0.75
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 580–587, 2014. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 580–587, 2014 0.85
2 [20] C. Godard, O. Mac Aodha, and G. J. Brostow. 2 20] C. Godard、O. Mac Aodha、G. J. Brostow。 0.85
Unsupervised monocular depth estimation with left-right consistency. 左右の整合性を考慮した非監視単眼深度推定 0.60
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017. IEEE Conference on Computer Vision and Pattern Recognition, 2017 に参加して 0.74
1, 2 [21] T. Gruber, F. D. Julca-Aguilar, M. Bijelic, W. Ritter, K. Dietmayer, and F. Heide. 1, 2 T. Gruber, F. D. Julca-Aguilar, M. Bijelic, W. Ritter, K. Dietmayer, F. Heide 0.85
Gated2depth: Real-time dense lidar from gated images. Gated2depth: ゲート画像からのリアルタイム高密度ライダー。 0.61
CoRR, abs/1902.04997, 2019. CoRR, abs/1902.04997, 2019。 0.72
1, 2, 3, 6, 7 1, 2, 3, 6, 7 0.85
[22] M. Hansard, S. Lee, O. Choi, and R. P. Horaud. 22] M. Hansard、S. Lee、O. Choi、R.P. Horaud。 0.86
Timeof-flight cameras: principles, methods and applications. 飛行時間のカメラ:原則、方法および適用。 0.79
Springer Science & Business Media, 2012. Springer Science & Business Media、2012年。 0.85
1 [23] R. Hartley and A. Zisserman. 1 23] R. HartleyとA. Zisserman。 0.87
Multiple view geometry in computer vision. 多重ビュー幾何学 コンピュータビジョン。 0.72
Cambridge university press, 2003. ケンブリッジ大学出版局、2003年。 0.66
2 [24] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick. 2 [24] K. He, G. Gkioxari, P. Doll ́ar, R. Girshick. 0.86
Mask r-cnn. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2980–2988, 2017. マスクr-cnn。 2017年IEEE International Conference on Computer Vision (ICCV)、ページ2980-2988、2017。 0.67
3, 4 [25] P. Heckman and R. T. Hodgson. 3, 4 25] P. HeckmanとR. T. Hodgson。 0.89
Underwater optical range IEEE Journal of Quantum Electronics, 3(11):445– 地下光学範囲 IEEE Journal of Quantum Electronics, 3(11):445– 0.88
gating. 448, 1967. ゲーティング 448, 1967. 0.58
1 [26] L. Huang, Y. Yang, Y. Deng, and Y. Yu. 1 [26]L. Huang, Y. Yang, Y. Deng, Y. Yu 0.87
Densebox: Unifying landmark localization with end to end object detection. Densebox: エンドツーエンドのオブジェクト検出でランドマークのローカリゼーションを統一する。 0.72
arXiv preprint arXiv:1509.04874, 2015. arXiv preprint arXiv:1509.04874, 2015 0.80
2 [27] A. Kendall, H. Martirosyan, S. Dasgupta, P. Henry, R. Kennedy, A. Bachrach, and A. Bry. 2 27] A. Kendall、H. Martirosyan、S. Dasgupta、P. Henry、R. Kennedy、A. Bachrach、A. Bry。 0.86
End-to-end learning of geometry and context for deep stereo regression. 深部ステレオ回帰のための幾何学と文脈のエンドツーエンド学習 0.62
In Proceedings of the IEEE International Conference on Computer Vision, 2017. IEEE International Conference on Computer Vision, 2017 に参加して 0.73
1 [28] J. J. Koenderink and A. J. 1 [28] J. J. KoenderinkとA. J。 0.85
Van Doorn. Affine structure from motion. Van Doorn 動きからのアフィン構造。 0.65
Journal of the Optical Society of America A, 8(2):377–385, Feb 1991. Journal of the Optical Society of America A, 8(2):377–385, 1991年2月。 0.87
2 [29] A. Kolb, E. Barth, R. Koch, and R. Larsen. 2 [29] A. Kolb、E. Barth、R. Koch、R. Larsen。 0.85
Time-offlight cameras in computer graphics. コンピュータグラフィックスのタイムオフカメラ。 0.79
In Computer Graphics Forum, volume 29, pages 141–159. コンピュータグラフィックスフォーラムでは、29巻、141-159ページ。 0.74
Wiley Online Library, 2010. ウィリー・オンライン・ライブラリー、2010年。 0.46
1 [30] J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander. 1 30] J. Ku、M. Mozifian、J. Lee、A. Harakeh、S. L. Waslander。 0.88
Joint 3d proposal generation and object detection from view aggregation. ビューアグリゲーションからの共同3次元提案生成とオブジェクト検出。 0.83
In IEEE/RSJ Int. IEEE/RSJ Int。 0.90
Conf. on Intelligent Robots and Systems, pages 1–8. Conf In Intelligent Robots and Systems, page 1-8。 0.69
IEEE, 2018. IEEE、2018年。 0.88
1 [31] Y. Kuznietsov, J. St¨uckler, and B. Leibe. 1 [31]Y. Kuznietsov, J. St suckler, B. Leibe 0.84
Semi-supervised deep learning for monocular depth map prediction. 単眼深度マップ予測のための半教師付き深層学習 0.68
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2215–2223, 2017. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、2017年215-2223ページ。 0.78
2 2 0.85
英語(論文から抽出)日本語訳スコア
[32] A. H. Lang, S. Vora, H. Caesar, L. Zhou, J. Yang, and O. Beijbom. A. H. Lang, S. Vora, H. Caesar, L. Zhou, J. Yang, O. Beijbom. 0.86
Pointpillars: Fast encoders for object detection from point clouds. pointpillars: ポイントクラウドからのオブジェクト検出のための高速エンコーダ。 0.79
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12697– 12705, 2019. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 12697–12705, 2019。 0.85
1, 3, 7 [33] R. Lange. 1, 3, 7 33] R.ランゲ。 0.72
3D time-of-flight distance measurement with custom solid-state image sensors in CMOS/CCD-technology. CMOS/CCD-Technologyにおけるカスタムソリッドステートイメージセンサによる3次元飛行距離計測 0.76
2000. 1 [46] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. 2000. 1 46] J. Redmon、S. Divvala、R. Girshick、A. Farhadi。 0.84
You only look once: Unified, real-time object detection. 一度だけ見えます: 統一されたリアルタイムオブジェクト検出。 0.70
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 779–788, 2016. コンピュータビジョンとパターン認識に関するIEEE会議の進行の中で、ページ779-788、2016。 0.78
2, 3 [47] S. Ren, K. He, R. Girshick, and J. 2, 3 [47]S. Ren, K. He, R. Girshick, J. 0.87
Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. 太陽。 Faster r-cnn: リージョン提案ネットワークによるリアルタイムオブジェクト検出を目指す。 0.70
In Advances in Neural Information Processing Systems, pages 91–99, 2015. In Advances in Neural Information Processing Systems, page 91–99, 2015 0.88
2 [34] B. Li. 2 [34] B. Li。 0.87
3d fully convolutional network for vehicle detection in point cloud. ポイントクラウドにおける車両検出のための3次元完全畳み込みネットワーク 0.73
In IEEE/RSJ Int. IEEE/RSJ Int。 0.90
Conf. on Intelligent Robots and Systems, pages 1513–1518. Conf In Intelligent Robots and Systems, page 1513–1518. 0.73
IEEE, 2017. 2017年、IEEE。 0.63
1 [48] A. Saxena, S. H. Chung, and A. Y. Ng. 1 [48] A. Saxena, S. H. Chung, A. Y. Ng. 0.88
Learning depth from single monocular images. 単一単眼画像から深度を学習する。 0.74
In Advances in Neural Information Processing Systems, pages 1161–1168, 2006. In Advances in Neural Information Processing Systems, page 1161–1168, 2006 0.86
2 [35] P. Li, X. Chen, and S. Shen. 2 35] P. Li、X. Chen、S. Shen。 0.81
Stereo r-cnn based 3d object detection for autonomous driving. 自動運転のためのステレオr-cnnベースの3Dオブジェクト検出。 0.63
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019 0.76
1, 2, 3, 7 1, 2, 3, 7 0.85
[36] T. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and S. Belongie. [36]T. Lin, P. Doll ́ar, R. Girshick, K. He, B. Hariharan, S. Belongie。 0.83
Feature pyramid networks for object detection. オブジェクト検出のための特徴ピラミッドネットワーク。 0.83
In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 936–944, 2017. 2017年、IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、ページ936–944、2017。 0.88
4 [37] T.-Y. 4 [37]T-Y。 0.80
Lin, P. Goyal, R. Girshick, K. He, and P. Doll´ar. Lin, P. Goyal, R. Girshick, K. He, P. Doll ́ar 0.88
Focal loss for dense object detection. 密度物体検出のための焦点損失 0.79
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2980–2988, 2017. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 2980–2988, 2017 0.85
2, 3 [38] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.Y. 2, 3 W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.Y。 0.88
Fu, and A. C. Berg. Fu、およびA.C. Berg。 0.86
Ssd: Single shot multibox detector. Ssd:シングルショットマルチボックス検出器。 0.63
In Proceedings of the IEEE European Conf. In Proceedings of the IEEE European Conf 0.69
on Computer Vision, pages 21–37. コンピュータビジョン』21-37頁。 0.74
Springer, 2016. スプリンガー、2016年。 0.60
2 [39] J. Long, E. Shelhamer, and T. Darrell. 2 [39]J。 Long、E. Shelhamer、T. Darrell。 0.80
Fully convolutional networks for semantic segmentation. 意味セグメンテーションのための完全畳み込みネットワーク。 0.65
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3431–3440, 2015. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、ページ3431-3440、2015。 0.71
2 [40] W. Luo, B. Yang, and R. Urtasun. 2 40] W. Luo、B. Yang、R. Urtasun。 0.81
Fast and furious: Real time end-to-end 3d detection, tracking and motion forecasting with a single convolutional net. fast and furious: コンボリューションネットによるリアルタイムのエンドツーエンド3d検出、トラッキング、モーション予測。 0.72
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3569–3577, 2018. コンピュータビジョンとパターン認識に関するIEEE会議の進行の中で、ページ3569-3577、2018。 0.73
3 [41] X. Ma, S. Liu, Z. Xia, H. Zhang, X. Zeng, and W. Ouyang. 3 [41] X. Ma, S. Liu, Z. Xia, H. Zhang, X. Zeng, W. Ouyang 0.91
arXiv preprint arXiv プレプリント 0.83
Rethinking pseudo-lidar representation. 擬似ライダー表現の再考。 0.40
arXiv:2008.04582, 2020. arXiv:2008.04582, 2020 0.70
3, 7 [42] X. Ma, Z. Wang, H. Li, P. Zhang, W. Ouyang, and X. 3, 7 [42] X. Ma, Z. Wang, H. Li, P. Zhang, W. Ouyang, X。 0.90
Fan. Accurate monocular 3d object detection via color-embedded 3d reconstruction for autonomous driving. ファン。 カラー埋め込み3次元再構成による自動運転用モノクロ3次元物体の高精度検出 0.68
In Proceedings of the IEEE International Conference on Computer Vision, pages 6851–6860, 2019. IEEE International Conference on Computer Vision (英語) Proceedings of the IEEE International Conference on Computer Vision, page 6851–6860, 2019 0.68
3 [43] A. Pilzer, D. Xu, M. Puscas, E. Ricci, and N. Sebe. 3 43] A. Pilzer, D. Xu, M. Puscas, E. Ricci, N. Sebe 0.86
Unsupervised adversarial depth estimation using cycled generative networks. 周期生成ネットワークを用いた教師なし対向深度推定 0.72
In International Conference on 3D Vision (3DV), pages 587–595, 2018. 国際3Dビジョン会議(3DV)にて、2018年587-595頁。 0.79
2 [44] C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas. 2 44] C. R. Qi、W. Liu、C. Wu、H. Su、L. J. Guibas。 0.83
Frustum pointnets for 3d object detection from rgb-d data. rgb-dデータからの3次元物体検出のためのフラスタムポイントネット 0.76
pages 918– 927, 2018. ページ918 - 927、2018。 0.73
4, 7 [45] M. Quigley, K. Conley, B. Gerkey, J. Faust, T. Foote, J. Leibs, R. Wheeler, and A. Y. Ng. 4, 7 M. Quigley, K. Conley, B. Gerkey, J. Faust, T. Foote, J. Leibs, R. Wheeler, A. Y. Ng. 0.89
Ros: an open-source robot operating system. Ros: オープンソースのロボットオペレーティングシステム。 0.84
In IEEE International Conference on Robotics and Automation, volume 3, page 5. IEEE International Conference on Robotics and Automationにおいて、第3巻第5ページ。 0.88
Kobe, Japan, 2009. 神戸、日本、2009年。 0.67
6 [49] M. Schober, A. Adam, O. Yair, S. Mazor, and S. Nowozin. 6 49] M. Schober、A. Adam、O. Yair、S. Mazor、S. Nowozin。 0.86
Dynamic time-of-flight. ダイナミックな飛行時間。 0.60
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6109–6118, 2017. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、2017年6109-6118ページ。 0.77
1 [50] B. Schwarz. 1 B.シュワルツ (B. Schwarz)。 0.68
Lidar: Mapping the world in 3D. Lidar: 世界を3Dでマッピングします。 0.74
Nature Pho- tonics, 4(7):429, 2010. 自然法- tonics, 4(7):429, 2010 である。 0.68
1, 2 [51] S. M. Seitz, B. Curless, J. Diebel, D. Scharstein, and R. Szeliski. 1, 2 51] S. M. Seitz, B. Curless, J. Diebel, D. Scharstein, R. Szeliski。 0.89
A comparison and evaluation of multi-view stereo reconstruction algorithms. 多視点ステレオ再構成アルゴリズムの比較と評価 0.70
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 519–528, 2006. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 519–528, 2006。 0.91
2 [52] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. 2 [52]P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, Y. LeCun. 0.89
Overfeat: Integrated recognition, localization and detection using convolutional networks. overfeat:畳み込みネットワークを用いた統合認識、局所化、検出。 0.76
arXiv preprint arXiv:1312.6229, 2013. arXiv preprint arXiv:1312.6229, 2013 0.81
2 [53] S. Shi, C. Guo, L. Jiang, Z. Wang, J. Shi, X. Wang, and H. Li. 2 [53]S. Shi, C. Guo, L. Jiang, Z. Wang, J. Shi, X. Wang, H. Li。 0.87
Pv-rcnn: Point-voxel feature set abstraction for 3d object detection. Pv-rcnn: 3dオブジェクト検出のためのポイントボクセル機能セット抽象化。 0.64
arXiv preprint arXiv:1912.13192, 2019. arXiv preprint arXiv:1912.13192, 2019 0.81
3 [54] A. Simonelli, S. R. R. Bul`o, L. Porzi, M. L´opez-Antequera, and P. Kontschieder. 3 A. Simonelli, S. R. R. Bul`o, L. Porzi, M. L ́opez-Antequera, P. Kontschieder. 0.83
Disentangling monocular 3d object detection. 異種単眼3D物体検出。 0.70
arXiv preprint arXiv:1905.12365, 2019. arXiv preprint arXiv: 1905.12365, 2019 0.80
1, 3, 7 [55] S. Song and J. Xiao. 1, 3, 7 [55] S. SongとJ. Xiao。 0.89
Sliding shapes for 3d object detection in depth images. 深度画像の3次元物体検出のためのスライド形状。 0.76
In Proceedings of the IEEE European Conf. In Proceedings of the IEEE European Conf 0.69
on Computer Vision, pages 634–651. コンピュータビジョン, ページ 634-651。 0.80
Springer, 2014. 1 [56] S. Song and J. Xiao. 2014年春。 1 [56] S. SongとJ. Xiao。 0.77
Deep sliding shapes for amodal 3d object detection in rgb-d images. rgb-d画像におけるamodal 3dオブジェクト検出のための深いスライディング形状 0.74
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 808–816, 2016. コンピュータビジョンとパターン認識に関するIEEE会議の進行の中で、ページ808-816、2016。 0.78
1 [57] P. H. Torr and A. Zisserman. 1 57] P.H.TorrとA.Zisserman。 0.86
Feature based methods for structure and motion estimation. 構造と動き推定のための特徴量に基づく手法 0.78
In International workshop on vision algorithms, pages 278–294. ビジョンアルゴリズムに関する国際ワークショップ』278-294頁。 0.73
Springer, 1999. 1999年、スプリンガー。 0.59
2 [58] B. Ummenhofer, H. Zhou, J. Uhrig, N. Mayer, E. Ilg, A. Dosovitskiy, and T. Brox. 2 [58]B. Ummenhofer, H. Zhou, J. Uhrig, N. Mayer, E. Ilg, A. Dosovitskiy, T. Brox。 0.87
DeMoN: Depth and motion network for learning monocular stereo. DeMoN:モノクラーステレオ学習のための深さと運動ネットワーク。 0.78
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017. IEEE Conference on Computer Vision and Pattern Recognition, 2017 に参加して 0.74
2 [59] D. Z. Wang and I. Posner. 2 59] D. Z. Wang と I. Posner。 0.89
Voting for voting in online point In Robotics: Science and Systems, ロボティクス:科学とシステム、オンラインポイントでの投票に投票します。 0.73
cloud object detection. クラウドオブジェクト検出。 0.69
volume 1, pages 10–15607, 2015. 巻1, 10-15607, 2015 0.61
1, 3 [60] Y. Wang, W.-L. Chao, D. Garg, B. Hariharan, M. Campbell, and K. Q. Weinberger. 1, 3 Y. Wang, W.-L. Chao, D. Garg, B. Hariharan, M. Campbell, K. Q. Weinberger. 0.86
Pseudo-lidar from visual depth estimation: Bridging the gap in 3d object detection for autonomous driving. 視覚深度推定からの擬似ライダー:自動運転のための3次元物体検出のギャップを埋める。 0.77
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8445– 8453, 2019. IEEE Conference on Computer Vision and Pattern RecognitionのProceedingsで、ページ8445– 8453、2019。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して pages 8445 – 8453 , 2019 .
0.82
1, 3, 7 1, 3, 7 0.85
英語(論文から抽出)日本語訳スコア
[61] X. Weng and K. Kitani. 61] X. WengとK. Kitani。 0.84
Monocular 3d object detection with pseudo-lidar point cloud. pseudo-lidar point cloudによる単眼3次元物体検出 0.74
In Proceedings of the IEEE International Conference on Computer Vision Workshops, pages 0–0, 2019. In Proceedings of the IEEE International Conference on Computer Vision Workshops, page 0–0, 2019。 0.90
3 [62] W. Xinwei, L. Youfu, and Z. Yan. 3 62] W. Xinwei、L. Youfu、Z. Yan。 0.82
Triangular-range-int ensity profile spatial-correlation method for 3D super-resolution range-gated imaging. 3次元超解像レンジゲートイメージングのための三角形レンジ強度プロファイル空間相関法 0.50
Applied Optics, 52(30):7399–406, 2013. Applied Optics, 52(30):7399–406, 2013 0.94
1 [63] B. Yang, W. Luo, and R. Urtasun. 1 63] B. Yang、W. Luo、R. Urtasun。 0.81
Pixor: Real-time 3d object detection from point clouds. Pixor: ポイントクラウドからのリアルタイム3Dオブジェクト検出。 0.79
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7652–7660, 2018. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 7652–7660, 2018 0.72
1, 3, 6 [64] Y. 1, 3, 6 [64]Y。 0.80
You, Y. Wang, W.-L. Chao, D. Garg, G. Pleiss, B. Hariharan, M. Campbell, and K. Q. Weinberger. You, Y. Wang, W.-L. Chao, D. Garg, G. Pleiss, B. Hariharan, M. Campbell, K. Q. Weinberger。 0.84
Pseudo-lidar++: Accurate depth for 3d object detection in autonomous driving. pseudo-lidar++: 自動運転における3dオブジェクト検出の正確な深さ。 0.60
arXiv preprint arXiv:1906.06310, 2019. arXiv preprint arXiv:1906.06310, 2019 0.81
3, 7 [65] F. Yu, W. Xian, Y. Chen, F. Liu, M. Liao, V. Madhavan, and T. Darrell. 3, 7 F. Yu, W. Xian, Y. Chen, F. Liu, M. Liao, V. Madhavan, T. Darrell. 0.87
Bdd100k: A diverse driving video database with scalable annotation tooling. Bdd100k: スケーラブルなアノテーションツールを備えた多様な駆動ビデオデータベース。 0.68
arXiv preprint arXiv:1805.04687, 2018. arXiv preprint arXiv:1805.04687, 2018 0.78
6 [66] T. Zhou, M. Brown, N. Snavely, and D. G. Lowe. 6 66] T. Zhou、M. Brown、N. Snavely、D. G. Lowe。 0.86
Unsupervised learning of depth and ego-motion from video. 映像からの深度とエゴモーションの教師なし学習 0.65
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017. IEEE Conference on Computer Vision and Pattern Recognition, 2017 に参加して 0.74
2 [67] Y. Zhou and O. Tuzel. 2 [67]Y.ZhouとO.Tuzel。 0.72
Voxelnet: End-to-end learning for point cloud based 3d object detection. voxelnet: ポイントクラウドベースの3dオブジェクト検出のためのエンドツーエンド学習。 0.72
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4490–4499, 2018. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 4490–4499, 2018
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 4490-4499頁、2018年。
0.82
1, 3 1, 3 0.85
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。