論文の概要: Semantics-aware Multi-modal Domain Translation:From LiDAR Point Clouds
to Panoramic Color Images
- arxiv url: http://arxiv.org/abs/2106.13974v1
- Date: Sat, 26 Jun 2021 08:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 09:57:56.790556
- Title: Semantics-aware Multi-modal Domain Translation:From LiDAR Point Clouds
to Panoramic Color Images
- Title(参考訳): セマンティックス対応マルチモーダルドメイン翻訳:パノラマカラー画像へのLiDAR点雲の形成
- Authors: Tiago Cortinhal, Fatih Kurnaz, Eren Aksoy
- Abstract要約: 我々のフレームワークは、与えられたフル3次元LiDAR点雲からパノラマカラー画像を合成することができる。
我々はSemanticKittiデータセットの詳細な定量的評価を行い、提案するフレームワークが他の強力なベースラインモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present a simple yet effective framework to address the
domain translation problem between different sensor modalities with unique data
formats. By relying only on the semantics of the scene, our modular generative
framework can, for the first time, synthesize a panoramic color image from a
given full 3D LiDAR point cloud. The framework starts with semantic
segmentation of the point cloud, which is initially projected onto a spherical
surface. The same semantic segmentation is applied to the corresponding camera
image. Next, our new conditional generative model adversarially learns to
translate the predicted LiDAR segment maps to the camera image counterparts.
Finally, generated image segments are processed to render the panoramic scene
images. We provide a thorough quantitative evaluation on the SemanticKitti
dataset and show that our proposed framework outperforms other strong baseline
models.
Our source code is available at
https://github.com/halmstad-University/TITAN-NET
- Abstract(参考訳): 本研究では,センサの異なるモダリティ間のドメイン変換問題に一意なデータ形式で対処する,シンプルかつ効果的なフレームワークを提案する。
シーンのセマンティクスにのみ依存することで、モジュラー生成フレームワークは、与えられたフル3D LiDAR点雲からパノラマカラー画像を初めて合成することができる。
このフレームワークは、最初に球面に投影されたポイントクラウドのセマンティックセグメンテーションから始まる。
対応するカメラ画像に同じ意味セグメンテーションを適用する。
次に,新たな条件生成モデルを用いて,予測したlidarセグメントマップをカメラ画像対応マップに変換する。
そして、生成された画像セグメントを処理してパノラマシーン画像を描画する。
SemanticKittiデータセットの詳細な定量的評価を行い、提案するフレームワークが他の強力なベースラインモデルより優れていることを示す。
ソースコードはhttps://github.com/halmstad-University/TITAN-NETで公開されています。
関連論文リスト
- TextPSG: Panoptic Scene Graph Generation from Textual Descriptions [78.1140391134517]
我々は、純文記述(Caption-to-PSG)によるパノプティカルシーングラフ生成の新たな課題について検討する。
鍵となるアイデアは、Web上の大量の無料画像キャプチャーデータを活用して、パノラマシーングラフを生成することである。
本研究では,4つのモジュール,すなわちリージョングルーパー,エンティティグルーパー,セグメントマージ,ラベルジェネレータからなる新しいフレームワークであるTextPSGを提案する。
論文 参考訳(メタデータ) (2023-10-10T22:36:15Z) - LadleNet: A Two-Stage UNet for Infrared Image to Visible Image Translation Guided by Semantic Segmentation [5.125530969984795]
本稿では,LadleNetと呼ばれるU-netに基づく画像翻訳アルゴリズムを提案する。
LadleNet+は、LadleNetのHandleモジュールをトレーニング済みのDeepLabv3+ネットワークに置き換える。
従来の方法と比較して、LadleNetとLadleNet+は平均12.4%、SSIMは15.2%、MS-SSIMは37.9%、MS-SSIMは50.6%だった。
論文 参考訳(メタデータ) (2023-08-12T16:14:44Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D Panoramic Color Images from LiDAR Point Clouds [0.7234862895932991]
本研究は,LiDARとカメラセンサのマルチモーダル構成によるクロスドメイン画像・画像変換のための条件生成モデルであるTITAN-Nextを提案する。
我々は、これがこの種の最初のフレームワークであり、フェールセーフなメカニズムを提供し、ターゲット画像領域で利用可能なデータを増強するなど、自動運転車に実践的な応用があると主張している。
論文 参考訳(メタデータ) (2023-02-15T13:48:10Z) - Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via
Cross-modal Distillation [32.33170182669095]
本研究は,自動車が収集した生の非キュレートデータからのみ,手動のアノテーションを使わずに,都市景観における画素単位のセマンティックイメージのセマンティックセマンティックセマンティクスの学習について検討する。
本稿では,同期化LiDARと画像データを利用した意味的イメージセグメンテーションのクロスモーダルな教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T17:35:46Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Improving Semantic Image Segmentation via Label Fusion in Semantically
Textured Meshes [10.645137380835994]
ビデオシーケンスのセマンティックなピクセルラベルを教師なしで改善できるラベル融合フレームワークを提案する。
環境の3Dメッシュ表現を使用し、異なるフレームの予測をセマンティックメッシュテクスチャを用いた一貫した表現に融合する。
我々は,最先端セグメンテーションネットワークESANetが生成するアノテーションを52.05 %から58.25 %のピクセル精度で改善するScannetデータセット上で評価した。
論文 参考訳(メタデータ) (2021-11-22T10:47:32Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。
本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。
提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文 参考訳(メタデータ) (2020-07-16T15:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。