論文の概要: Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D
Panoramic Color Images from LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2302.07661v3
- Date: Thu, 16 Nov 2023 09:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 23:00:16.244843
- Title: Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D
Panoramic Color Images from LiDAR Point Clouds
- Title(参考訳): 奥行きとセマンティクスを考慮したマルチモーダル領域翻訳:lidar点雲からの3次元パノラマカラー画像の生成
- Authors: Tiago Cortinhal, Eren Erdal Aksoy
- Abstract要約: 本研究は,LiDARとカメラセンサのマルチモーダル構成によるクロスドメイン画像・画像変換のための条件生成モデルであるTITAN-Nextを提案する。
我々は、これがこの種の最初のフレームワークであり、フェールセーフなメカニズムを提供し、ターゲット画像領域で利用可能なデータを増強するなど、自動運転車に実践的な応用があると主張している。
- 参考スコア(独自算出の注目度): 0.8547032097715571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a new depth- and semantics-aware conditional generative
model, named TITAN-Next, for cross-domain image-to-image translation in a
multi-modal setup between LiDAR and camera sensors. The proposed model
leverages scene semantics as a mid-level representation and is able to
translate raw LiDAR point clouds to RGB-D camera images by solely relying on
semantic scene segments. We claim that this is the first framework of its kind
and it has practical applications in autonomous vehicles such as providing a
fail-safe mechanism and augmenting available data in the target image domain.
The proposed model is evaluated on the large-scale and challenging
Semantic-KITTI dataset, and experimental findings show that it considerably
outperforms the original TITAN-Net and other strong baselines by 23.7$\%$
margin in terms of IoU.
- Abstract(参考訳): 本研究は,LiDARとカメラセンサのマルチモーダル構成によるクロスドメイン画像・画像変換のための,深度とセマンティックスを考慮した新しい条件生成モデルTITAN-Nextを提案する。
提案モデルでは,シーンセマンティクスを中間レベル表現として活用し,シーンセグメントのみに依存して生のLiDAR点雲をRGB-Dカメラ画像に変換する。
我々は、これがこの種の最初のフレームワークであり、フェールセーフなメカニズムを提供し、ターゲット画像領域で利用可能なデータを増やすなど、自動運転車に実践的な応用があると主張している。
提案モデルは,大規模かつ挑戦的なセマンティック・キティデータセットに基づいて評価され,実験結果から,元のTITAN-Netや他の強力なベースラインよりも23.7$\%のマージンをかなり上回ることがわかった。
関連論文リスト
- Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文 参考訳(メタデータ) (2024-04-06T09:01:19Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - LadleNet: A Two-Stage UNet for Infrared Image to Visible Image Translation Guided by Semantic Segmentation [5.125530969984795]
本稿では,LadleNetと呼ばれるU-netに基づく画像翻訳アルゴリズムを提案する。
LadleNet+は、LadleNetのHandleモジュールをトレーニング済みのDeepLabv3+ネットワークに置き換える。
従来の方法と比較して、LadleNetとLadleNet+は平均12.4%、SSIMは15.2%、MS-SSIMは37.9%、MS-SSIMは50.6%だった。
論文 参考訳(メタデータ) (2023-08-12T16:14:44Z) - StawGAN: Structural-Aware Generative Adversarial Networks for Infrared
Image Translation [7.098759778181621]
本稿では,単に色を着色することなく,ターゲット生成の品質向上に焦点をあてた新しいモデルを提案する。
我々は、RGB-IRペア画像を含むDroneVeichleデータセットの空中画像上で、我々のモデルを検証した。
論文 参考訳(メタデータ) (2023-05-18T11:22:33Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Semantics-aware Multi-modal Domain Translation:From LiDAR Point Clouds
to Panoramic Color Images [0.0]
我々のフレームワークは、与えられたフル3次元LiDAR点雲からパノラマカラー画像を合成することができる。
我々はSemanticKittiデータセットの詳細な定量的評価を行い、提案するフレームワークが他の強力なベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T08:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。