論文の概要: LVIC: Multi-modality segmentation by Lifting Visual Info as Cue
- arxiv url: http://arxiv.org/abs/2403.05159v1
- Date: Fri, 8 Mar 2024 08:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:28:58.052846
- Title: LVIC: Multi-modality segmentation by Lifting Visual Info as Cue
- Title(参考訳): LVIC:ビジュアル情報をキューとしてリフティングするマルチモーダリティセグメンテーション
- Authors: Zichao Dong and Bowen Pang and Xufeng Huang and Hang Ji and Xin Zhan
and Junbo Chen
- Abstract要約: ポイントペインティングは、直接LiDARポイントと視覚情報とを結合するストレートフォワード方式である。
本稿では,多モード融合を著しく促進する深度認識点塗装機構を提案する。
Visual InformationをCueとしてリフティングすることで、LVICはnuScenes LiDARセマンティックセマンティックセグメンテーションベンチマークで1位にランクインする。
- 参考スコア(独自算出の注目度): 5.162612833040741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality fusion is proven an effective method for 3d perception for
autonomous driving. However, most current multi-modality fusion pipelines for
LiDAR semantic segmentation have complicated fusion mechanisms. Point painting
is a quite straight forward method which directly bind LiDAR points with visual
information. Unfortunately, previous point painting like methods suffer from
projection error between camera and LiDAR. In our experiments, we find that
this projection error is the devil in point painting. As a result of that, we
propose a depth aware point painting mechanism, which significantly boosts the
multi-modality fusion. Apart from that, we take a deeper look at the desired
visual feature for LiDAR to operate semantic segmentation. By Lifting Visual
Information as Cue, LVIC ranks 1st on nuScenes LiDAR semantic segmentation
benchmark. Our experiments show the robustness and effectiveness. Codes would
be make publicly available soon.
- Abstract(参考訳): マルチモダリティ融合は、自律運転のための3次元知覚に有効な方法であることが証明されている。
しかし、LiDARセマンティックセグメンテーションのための現在の多モード融合パイプラインの多くは複雑な融合機構を持っている。
ポイントペインティングは、視覚情報と直接LiDARポイントを結合する非常に直線的なフォワード方式である。
残念ながら、カメラとLiDARの間の投影誤差に悩まされている。
実験では、この投影誤差がポイントペインティングの悪魔であることが分かりました。
その結果,多モード融合を著しく促進する深度認識点塗装機構が提案されている。
それとは別に、LiDARがセマンティックセグメンテーションを操作するために望まれる視覚的特徴を詳しく見ていきます。
Visual InformationをCueとしてリフティングすることで、LVICはnuScenes LiDARセマンティックセグメンテーションベンチマークで1位にランクインする。
我々の実験は頑健さと有効性を示している。
コードは近々公開される予定だ。
関連論文リスト
- TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation [80.13343299606146]
そこで本稿では, 時系列LiDARアグリゲーション・蒸留(TLAD)アルゴリズムを提案する。
時間画像のフル活用を目的として,カメラFOVを大幅に拡張できるTIAFモジュールを設計した。
また,静的移動スイッチ拡張(SMSA)アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替える。
論文 参考訳(メタデータ) (2024-07-13T03:00:16Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - Efficient Spatial-Temporal Information Fusion for LiDAR-Based 3D Moving
Object Segmentation [23.666607237164186]
本稿では,LiDAR-MOSの性能向上のために,空間時空間情報とLiDARスキャンの異なる表現モダリティを併用した新しいディープニューラルネットワークを提案する。
具体的には、まず、空間情報と時間情報とを別々に扱うために、レンジ画像に基づくデュアルブランチ構造を用いる。
また、3次元スパース畳み込みによるポイントリファインメントモジュールを使用して、LiDAR範囲の画像とポイントクラウド表現の両方からの情報を融合する。
論文 参考訳(メタデータ) (2022-07-05T17:59:17Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via
Cross-modal Distillation [32.33170182669095]
本研究は,自動車が収集した生の非キュレートデータからのみ,手動のアノテーションを使わずに,都市景観における画素単位のセマンティックイメージのセマンティックセマンティックセマンティクスの学習について検討する。
本稿では,同期化LiDARと画像データを利用した意味的イメージセグメンテーションのクロスモーダルな教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T17:35:46Z) - SemanticVoxels: Sequential Fusion for 3D Pedestrian Detection using
LiDAR Point Cloud and Semantic Segmentation [4.350338899049983]
我々は、異なるレベルで融合を適用できるように、PointPaintingの一般化を提案する。
本研究では,セマンティックボクセルが3次元および鳥の視線歩行者検出ベンチマークにおいて,最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-09-25T14:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。