論文の概要: LOSC: LiDAR Open-voc Segmentation Consolidator
- arxiv url: http://arxiv.org/abs/2507.07605v1
- Date: Thu, 10 Jul 2025 10:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.355547
- Title: LOSC: LiDAR Open-voc Segmentation Consolidator
- Title(参考訳): LOSC: LiDAR Open-voc Segmentation Consolidator
- Authors: Nermin Samet, Gilles Puy, Renaud Marlet,
- Abstract要約: 運転環境におけるライダースキャンの開語彙セグメンテーションにおける画像ベース視覚言語モデル(VLM)の利用について検討した。
- 参考スコア(独自算出の注目度): 15.046470253884694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the use of image-based Vision-Language Models (VLMs) for open-vocabulary segmentation of lidar scans in driving settings. Classically, image semantics can be back-projected onto 3D point clouds. Yet, resulting point labels are noisy and sparse. We consolidate these labels to enforce both spatio-temporal consistency and robustness to image-level augmentations. We then train a 3D network based on these refined labels. This simple method, called LOSC, outperforms the SOTA of zero-shot open-vocabulary semantic and panoptic segmentation on both nuScenes and SemanticKITTI, with significant margins.
- Abstract(参考訳): 運転環境におけるライダースキャンの開語彙セグメンテーションにおける画像ベース視覚言語モデル(VLM)の利用について検討した。
古典的には、イメージセマンティクスは3Dポイントクラウドにバックプロジェクションできる。
しかし、結果として生じるポイントラベルは騒々しくスパースである。
これらのラベルを統合して、時空間の一貫性と、画像レベルの拡張に対する堅牢性の両方を強制する。
そして、これらの洗練されたラベルに基づいて3Dネットワークをトレーニングします。
LOSCと呼ばれるこの単純な手法は、noScenes と SemanticKITTI の両方でゼロショットのオープン語彙セマンティクスとパン光学セマンティクスのSOTAよりも優れており、その差は大きい。
関連論文リスト
- PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。
我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。
第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-30T08:13:07Z) - Self-Supervised and Generalizable Tokenization for CLIP-Based 3D Understanding [87.68271178167373]
凍結したCLIPバックボーンを用いたスケール不変表現学習のためのユニバーサル3Dトークン化器を提案する。
S4Tokenは、シーンスケールに関係なくセマンティックインフォームドトークンを生成するトークン化パイプラインである。
論文 参考訳(メタデータ) (2025-05-24T18:26:30Z) - Label-Efficient LiDAR Panoptic Segmentation [22.440065488051047]
Limited-Label LiDAR Panoptic (L3PS)
我々は,アノテート画像からパノプティカルな擬似ラベルを生成するラベル効率のよい2Dネットワークを開発した。
次に、点雲の幾何学的性質を生かした新しい3Dリファインメントモジュールを導入する。
論文 参考訳(メタデータ) (2025-03-04T07:58:15Z) - 3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation [20.7179907935644]
3D-AVSは3Dポイントクラウドのオートボキャブラリの手法で、ボキャブラリが未知であり、実行時に各入力に対して自動生成される。
3D-AVSはまずイメージまたはポイントクラウドデータからセマンティックエンティティを認識し、次に自動的に生成された語彙ですべてのポイントをセグメンテーションする。
本手法は、画像ベースと点ベースの両方の認識を取り入れ、難解な照明条件下で頑健さを向上する。
論文 参考訳(メタデータ) (2024-06-13T13:59:47Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - Box2Seg: Learning Semantics of 3D Point Clouds with Box-Level
Supervision [65.19589997822155]
我々は3Dポイントクラウドのポイントレベルのセマンティクスをバウンディングボックスレベルの監視で学習するために,Box2Segと呼ばれるニューラルアーキテクチャを導入する。
提案するネットワークは,安価な,あるいは既定のバウンディングボックスレベルのアノテーションやサブクラウドレベルのタグでトレーニング可能であることを示す。
論文 参考訳(メタデータ) (2022-01-09T09:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。