論文の概要: Feasibility of Indoor Frame-Wise Lidar Semantic Segmentation via Distillation from Visual Foundation Model
- arxiv url: http://arxiv.org/abs/2604.18831v1
- Date: Mon, 20 Apr 2026 20:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.485548
- Title: Feasibility of Indoor Frame-Wise Lidar Semantic Segmentation via Distillation from Visual Foundation Model
- Title(参考訳): 視覚基礎モデルからの蒸留による室内フレームワイズライダーセマンティックセマンティックセグメンテーションの可能性
- Authors: Haiyang Wu, Juan J. Gonzales Torres, George Vosselman, Ville Lehtola,
- Abstract要約: 室内ライダースキャンのフレームワイズセマンティックセグメンテーションは,高レベルな3次元シーン理解とマッピングアプリケーションに向けた基本的なステップである。
この課題は、画像フレームをセグメント化するVisual Foundation Models(VFM)によって、主に解決されている。
同じVFMは、2Dから3Dの蒸留パイプラインを介してライダースキャンフレームセグメンテーションモデルを訓練するために使用することができる。
そこで本研究では,各ライダースキャンとVFM処理カメラ画像とを結合させて,フレームワイド蒸留方式で室内シーンでこの成功を繰り返す可能性について検討した。
- 参考スコア(独自算出の注目度): 4.3442456903491316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frame-wise semantic segmentation of indoor lidar scans is a fundamental step toward higher-level 3D scene understanding and mapping applications. However, acquiring frame-wise ground truth for training deep learning models is costly and time-consuming. This challenge is largely addressed, for imagery, by Visual Foundation Models (VFMs) which segment image frames. The same VFMs may be used to train a lidar scan frame segmentation model via a 2D-to-3D distillation pipeline. The success of such distillation has been shown for autonomous driving scenes, but not yet for indoor scenes. Here, we study the feasibility of repeating this success for indoor scenes, in a frame-wise distillation manner by coupling each lidar scan with a VFM-processed camera image. The evaluation is done using indoor SLAM datasets, where pseudo-labels are used for downstream evaluation. Also, a small manually annotated lidar dataset is provided for validation, as there are no other lidar frame-wise indoor datasets with semantics. Results show that the distilled model achieves up to 56% mIoU under pseudo-label evaluation and around 36% mIoU with real-label, demonstrating the feasibility of cross-modal distillation for indoor lidar semantic segmentation without manual annotations.
- Abstract(参考訳): 室内ライダースキャンのフレームワイズセマンティックセグメンテーションは,高レベルな3次元シーン理解とマッピングアプリケーションに向けた基本的なステップである。
しかし、深層学習モデルの訓練には、フレームワイドの真理を取得するのが費用がかかり、時間がかかる。
この課題は、画像フレームをセグメント化するVisual Foundation Models(VFM)によって、主に解決されている。
同じVFMは、2Dから3Dの蒸留パイプラインを介してライダースキャンフレームセグメンテーションモデルを訓練するために使用することができる。
このような蒸留の成功は、自律運転シーンでは証明されているが、まだ屋内シーンでは示されていない。
そこで本研究では,各ライダースキャンとVFM処理カメラ画像とを結合させて,フレームワイド蒸留方式で室内シーンでこの成功を繰り返す可能性について検討した。
評価は、下流評価に擬似ラベルを用いる屋内SLAMデータセットを用いて行われる。
また、セマンティクスを備えたライダーフレームワイド屋内データセットが他に存在しないため、小さな手動で注釈付きライダーデータセットがバリデーションのために提供される。
その結果, 擬似ラベル評価では56% mIoU, 実版では36% mIoUとなり, 手作業によるアノテーションを伴わない屋内ライダーセマンティックセマンティックセグメンテーションにおけるクロスモーダル蒸留の可能性を示した。
関連論文リスト
- MagicSeg: Open-World Segmentation Pretraining via Counterfactural Diffusion-Based Auto-Generation [89.19760796832765]
MagicSeg"は、オープンワールドセマンティックセグメンテーションのニーズに合わせて自動的にデータセットを生成するパイプラインである。
PASCAL VOC, PASCAL Context, COCOを用いて, 62.9%, 26.7%, 40.2%の性能でSOTAを達成した。
論文 参考訳(メタデータ) (2026-03-20T02:37:38Z) - Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex
Real-World Scenes [80.59831861186227]
本論文では,複雑な現実世界のシーンに対して,NeRFを用いたオブジェクトセグメンテーションのための自己教師型学習の探索を行う。
我々のフレームワークは、NeRF(NeRF with Self-supervised Object NeRF-SOS)と呼ばれ、NeRFモデルがコンパクトな幾何認識セグメンテーションクラスタを蒸留することを奨励している。
他の2Dベースの自己教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。
論文 参考訳(メタデータ) (2022-09-19T06:03:17Z) - Multi-View Object Pose Refinement With Differentiable Renderer [22.040014384283378]
本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。
これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。
合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を報告した。
論文 参考訳(メタデータ) (2022-07-06T17:02:22Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via
Cross-modal Distillation [32.33170182669095]
本研究は,自動車が収集した生の非キュレートデータからのみ,手動のアノテーションを使わずに,都市景観における画素単位のセマンティックイメージのセマンティックセマンティックセマンティクスの学習について検討する。
本稿では,同期化LiDARと画像データを利用した意味的イメージセグメンテーションのクロスモーダルな教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T17:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。