論文の概要: 3D Object Positioning Using Differentiable Multimodal Learning
- arxiv url: http://arxiv.org/abs/2309.03177v1
- Date: Wed, 6 Sep 2023 17:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-09-07 14:25:18.432157
- Title: 3D Object Positioning Using Differentiable Multimodal Learning
- Title(参考訳): 微分可能マルチモーダル学習を用いた3次元物体位置決め
- Authors: Sean Zanyk-McLean, Krishna Kumar, Paul Navratil
- Abstract要約: 本稿では,レーダデータを用いたマルチモーダル手法について述べる。
本稿では、自動運転車の訓練に使用される複数の種類のデータのシミュレーション手法を提案する。
- 参考スコア(独自算出の注目度): 1.8231854497751137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article describes a multi-modal method using simulated Lidar data via
ray tracing and image pixel loss with differentiable rendering to optimize an
object's position with respect to an observer or some referential objects in a
computer graphics scene. Object position optimization is completed using
gradient descent with the loss function being influenced by both modalities.
Typical object placement optimization is done using image pixel loss with
differentiable rendering only, this work shows the use of a second modality
(Lidar) leads to faster convergence. This method of fusing sensor input
presents a potential usefulness for autonomous vehicles, as these methods can
be used to establish the locations of multiple actors in a scene. This article
also presents a method for the simulation of multiple types of data to be used
in the training of autonomous vehicles.
- Abstract(参考訳): 本稿では,コンピュータグラフィックスシーンにおける観察者や参照対象に対するオブジェクトの位置を最適化するために,レイトレーシングと画像画素ロスによるシミュレーションLidarデータを用いたマルチモーダル手法について述べる。
オブジェクトの位置最適化は勾配降下を用いて完了し、損失関数は両方のモードに影響される。
典型的なオブジェクト配置最適化は、画像画素の損失を微分可能レンダリングのみで行い、この研究は、第2のモダリティ(Lidar)の使用がより高速な収束をもたらすことを示している。
このセンサ入力の融合方法は、シーン内の複数のアクターの位置を確立するために使用できるため、自動運転車に潜在的な有用性を示す。
本稿では、自動運転車の訓練に使用する複数の種類のデータのシミュレーション手法についても紹介する。
関連論文リスト
- Locally Orderless Images for Optimization in Differentiable Rendering [80.09571356394574]
そこで我々は,各画素が局所的な変化を保った強度のヒストグラムにマッピングする,局所的な秩序のない画像を利用する手法を提案する。
合成データと実データの両方を用いて,様々な逆問題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-27T19:17:58Z) - Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - 3D Video Object Detection with Learnable Object-Centric Global
Optimization [65.68977894460222]
対応性に基づく最適化は3次元シーン再構成の基盤となるが、3次元ビデオオブジェクト検出では研究されていない。
オブジェクト中心の時間対応学習と特徴量付きオブジェクトバンドル調整を備えた、エンドツーエンドで最適化可能なオブジェクト検出器であるBA-Detを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:39:39Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Multi-View Object Pose Refinement With Differentiable Renderer [22.040014384283378]
本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。
これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。
合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を報告した。
論文 参考訳(メタデータ) (2022-07-06T17:02:22Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - Differentiable Rendering with Perturbed Optimizers [85.66675707599782]
2Dイメージプロジェクションから3Dシーンを推論することは、コンピュータビジョンにおける中核的な問題の一つだ。
我々の研究は、よく知られた微分可能な定式化とランダムなスムーズなレンダリングの関連性を強調している。
提案手法を3次元シーン再構成に適用し,その利点を6次元ポーズ推定と3次元メッシュ再構成の課題に適用した。
論文 参考訳(メタデータ) (2021-10-18T08:56:23Z) - Monocular Camera Localization for Automated Vehicles Using Image
Retrieval [8.594652891734288]
本研究では,1台のカメラを用いて,自動運転車の現在位置と方向角をリアルタイムで検出する問題に対処する。
リアルタイムにLiDARと高精細3Dマップを必要とする手法と比較して,提案手法はスケーラブルで計算効率がよい。
論文 参考訳(メタデータ) (2021-09-13T20:12:42Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。