Fugu-MT 論文翻訳(概要): Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D Panoramic Color Images from LiDAR Point Clouds

論文の概要: Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D Panoramic Color Images from LiDAR Point Clouds

arxiv url: http://arxiv.org/abs/2302.07661v3
Date: Thu, 16 Nov 2023 09:14:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 23:00:16.244843
Title: Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D Panoramic Color Images from LiDAR Point Clouds
Title（参考訳）: 奥行きとセマンティクスを考慮したマルチモーダル領域翻訳:lidar点雲からの3次元パノラマカラー画像の生成
Authors: Tiago Cortinhal, Eren Erdal Aksoy
Abstract要約: 本研究は,LiDARとカメラセンサのマルチモーダル構成によるクロスドメイン画像・画像変換のための条件生成モデルであるTITAN-Nextを提案する。我々は、これがこの種の最初のフレームワークであり、フェールセーフなメカニズムを提供し、ターゲット画像領域で利用可能なデータを増強するなど、自動運転車に実践的な応用があると主張している。
参考スコア（独自算出の注目度）: 0.8547032097715571
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work presents a new depth- and semantics-aware conditional generative model, named TITAN-Next, for cross-domain image-to-image translation in a multi-modal setup between LiDAR and camera sensors. The proposed model leverages scene semantics as a mid-level representation and is able to translate raw LiDAR point clouds to RGB-D camera images by solely relying on semantic scene segments. We claim that this is the first framework of its kind and it has practical applications in autonomous vehicles such as providing a fail-safe mechanism and augmenting available data in the target image domain. The proposed model is evaluated on the large-scale and challenging Semantic-KITTI dataset, and experimental findings show that it considerably outperforms the original TITAN-Net and other strong baselines by 23.7$\%$ margin in terms of IoU.
Abstract（参考訳）: 本研究は,LiDARとカメラセンサのマルチモーダル構成によるクロスドメイン画像・画像変換のための,深度とセマンティックスを考慮した新しい条件生成モデルTITAN-Nextを提案する。提案モデルでは,シーンセマンティクスを中間レベル表現として活用し,シーンセグメントのみに依存して生のLiDAR点雲をRGB-Dカメラ画像に変換する。我々は、これがこの種の最初のフレームワークであり、フェールセーフなメカニズムを提供し、ターゲット画像領域で利用可能なデータを増やすなど、自動運転車に実践的な応用があると主張している。提案モデルは,大規模かつ挑戦的なセマンティック・キティデータセットに基づいて評価され,実験結果から,元のTITAN-Netや他の強力なベースラインよりも23.7$\%のマージンをかなり上回ることがわかった。

関連論文リスト

LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文参考訳（メタデータ） (2024-07-10T08:46:29Z)
DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文参考訳（メタデータ） (2024-05-17T07:31:20Z)
Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文参考訳（メタデータ） (2024-04-06T09:01:19Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
LadleNet: A Two-Stage UNet for Infrared Image to Visible Image Translation Guided by Semantic Segmentation [5.125530969984795]
本稿では,LadleNetと呼ばれるU-netに基づく画像翻訳アルゴリズムを提案する。 LadleNet+は、LadleNetのHandleモジュールをトレーニング済みのDeepLabv3+ネットワークに置き換える。従来の方法と比較して、LadleNetとLadleNet+は平均12.4%、SSIMは15.2%、MS-SSIMは37.9%、MS-SSIMは50.6%だった。
論文参考訳（メタデータ） (2023-08-12T16:14:44Z)
StawGAN: Structural-Aware Generative Adversarial Networks for Infrared Image Translation [7.098759778181621]
本稿では,単に色を着色することなく,ターゲット生成の品質向上に焦点をあてた新しいモデルを提案する。我々は、RGB-IRペア画像を含むDroneVeichleデータセットの空中画像上で、我々のモデルを検証した。
論文参考訳（メタデータ） (2023-05-18T11:22:33Z)
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文参考訳（メタデータ） (2022-08-22T16:55:04Z)
Unifying Voxel-based Representation with Transformer for 3D Object Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。 UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文参考訳（メタデータ） (2022-06-01T17:02:40Z)
Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文参考訳（メタデータ） (2022-04-06T17:54:46Z)
Semantics-aware Multi-modal Domain Translation:From LiDAR Point Clouds to Panoramic Color Images [0.0]
我々のフレームワークは、与えられたフル3次元LiDAR点雲からパノラマカラー画像を合成することができる。我々はSemanticKittiデータセットの詳細な定量的評価を行い、提案するフレームワークが他の強力なベースラインモデルより優れていることを示す。
論文参考訳（メタデータ） (2021-06-26T08:52:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。