論文の概要: Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via
Cross-modal Distillation
- arxiv url: http://arxiv.org/abs/2203.11160v2
- Date: Wed, 21 Feb 2024 16:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:56:44.116036
- Title: Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via
Cross-modal Distillation
- Title(参考訳): drive&segment:クロスモーダル蒸留による都市景観の教師なし意味セグメンテーション
- Authors: Antonin Vobecky, David Hurych, Oriane Sim\'eoni, Spyros Gidaris,
Andrei Bursuc, Patrick P\'erez, Josef Sivic
- Abstract要約: 本研究は,自動車が収集した生の非キュレートデータからのみ,手動のアノテーションを使わずに,都市景観における画素単位のセマンティックイメージのセマンティックセマンティックセマンティクスの学習について検討する。
本稿では,同期化LiDARと画像データを利用した意味的イメージセグメンテーションのクロスモーダルな教師なし学習手法を提案する。
- 参考スコア(独自算出の注目度): 32.33170182669095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates learning pixel-wise semantic image segmentation in
urban scenes without any manual annotation, just from the raw non-curated data
collected by cars which, equipped with cameras and LiDAR sensors, drive around
a city. Our contributions are threefold. First, we propose a novel method for
cross-modal unsupervised learning of semantic image segmentation by leveraging
synchronized LiDAR and image data. The key ingredient of our method is the use
of an object proposal module that analyzes the LiDAR point cloud to obtain
proposals for spatially consistent objects. Second, we show that these 3D
object proposals can be aligned with the input images and reliably clustered
into semantically meaningful pseudo-classes. Finally, we develop a cross-modal
distillation approach that leverages image data partially annotated with the
resulting pseudo-classes to train a transformer-based model for image semantic
segmentation. We show the generalization capabilities of our method by testing
on four different testing datasets (Cityscapes, Dark Zurich, Nighttime Driving
and ACDC) without any finetuning, and demonstrate significant improvements
compared to the current state of the art on this problem. See project webpage
https://vobecant.github.io/DriveAndSegment/ for the code and more.
- Abstract(参考訳): 本研究は、カメラとLiDARセンサーを搭載した車両が収集した生の非計算データから、手動のアノテーションを使わずに、都市景観における画素単位のセマンティックイメージセグメンテーションを学習する。
私たちの貢献は3倍です。
まず,同期化LiDARと画像データを利用した意味的イメージセグメンテーションのクロスモーダルな教師なし学習手法を提案する。
提案手法の主な要素は,LiDAR点雲を解析して空間的に一貫したオブジェクトの提案を得るオブジェクト提案モジュールの利用である。
第二に、これらの3Dオブジェクトの提案は入力画像と一致し、セマンティックに意味のある擬似クラスに確実にクラスタ化可能であることを示す。
最後に, 擬似クラスに部分的にアノテートされた画像データを利用して, 画像意味セマンティクスセグメンテーションのためのトランスフォーマモデルを訓練するクロスモーダル蒸留法を開発した。
筆者らは,4つのテストデータセット(Cityscapes, Dark Zurich, Nighttime Driving, ACDC)を微調整せずにテストすることで,本手法の一般化能力を示すとともに,この問題に関する現在の技術状況と比較して,大幅な改善を示す。
project webpage https://vobecant.github.io/driveandsegment/ コードなどを参照。
関連論文リスト
- Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Learning 3D Semantic Segmentation with only 2D Image Supervision [18.785840615548473]
多視点融合を用いた2次元意味画像分割から派生した擬似ラベルから3次元モデルを訓練する。
提案するネットワークアーキテクチャである2D3DNetは,5大陸20都市で撮影されたライダーと画像を備えた新しい都市データセットの実験において,ベースラインよりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-10-21T17:56:28Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - SemanticVoxels: Sequential Fusion for 3D Pedestrian Detection using
LiDAR Point Cloud and Semantic Segmentation [4.350338899049983]
我々は、異なるレベルで融合を適用できるように、PointPaintingの一般化を提案する。
本研究では,セマンティックボクセルが3次元および鳥の視線歩行者検出ベンチマークにおいて,最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-09-25T14:52:32Z) - Semantic sensor fusion: from camera to sparse lidar information [7.489722641968593]
本稿では,異なる感覚情報,光検出・ランキング(ライダー)スキャン,カメラ画像の融合手法を提案する。
ラベル付き画像とライダー点雲間の意味情報の転送を4ステップで行う。
論文 参考訳(メタデータ) (2020-03-04T03:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。