論文の概要: 3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2406.09126v3
- Date: Sun, 30 Mar 2025 19:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.57466
- Title: 3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation
- Title(参考訳): 3D-AVS:LiDARをベースとした3Dオートボキャブラリセグメンテーション
- Authors: Weijie Wei, Osman Ülger, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald,
- Abstract要約: 3D-AVSは3Dポイントクラウドのオートボキャブラリの手法で、ボキャブラリが未知であり、実行時に各入力に対して自動生成される。
3D-AVSはまずイメージまたはポイントクラウドデータからセマンティックエンティティを認識し、次に自動的に生成された語彙ですべてのポイントをセグメンテーションする。
本手法は、画像ベースと点ベースの両方の認識を取り入れ、難解な照明条件下で頑健さを向上する。
- 参考スコア(独自算出の注目度): 20.7179907935644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Vocabulary Segmentation (OVS) methods offer promising capabilities in detecting unseen object categories, but the category must be known and needs to be provided by a human, either via a text prompt or pre-labeled datasets, thus limiting their scalability. We propose 3D-AVS, a method for Auto-Vocabulary Segmentation of 3D point clouds for which the vocabulary is unknown and auto-generated for each input at runtime, thus eliminating the human in the loop and typically providing a substantially larger vocabulary for richer annotations. 3D-AVS first recognizes semantic entities from image or point cloud data and then segments all points with the automatically generated vocabulary. Our method incorporates both image-based and point-based recognition, enhancing robustness under challenging lighting conditions where geometric information from LiDAR is especially valuable. Our point-based recognition features a Sparse Masked Attention Pooling (SMAP) module to enrich the diversity of recognized objects. To address the challenges of evaluating unknown vocabularies and avoid annotation biases from label synonyms, hierarchies, or semantic overlaps, we introduce the annotation-free Text-Point Semantic Similarity (TPSS) metric for assessing generated vocabulary quality. Our evaluations on nuScenes and ScanNet200 demonstrate 3D-AVS's ability to generate semantic classes with accurate point-wise segmentations. Codes will be released at https://github.com/ozzyou/3D-AVS
- Abstract(参考訳): Open-Vocabulary Segmentation (OVS)メソッドは、未確認のオブジェクトカテゴリを検出するための有望な機能を提供するが、カテゴリは知っていなければならない。
本稿では,3次元点群の自動語彙分割手法である3D-AVSを提案する。
3D-AVSはまずイメージまたはポイントクラウドデータからセマンティックエンティティを認識し、次に自動的に生成された語彙ですべてのポイントをセグメンテーションする。
本手法は画像ベースと点ベースの両方の認識を取り入れ,LiDARの幾何学的情報が特に有用である難解な照明条件下で頑健性を向上させる。
我々のポイントベース認識は、認識対象の多様性を豊かにするスパース・マスケッド・アテンション・プール(SMAP)モジュールを備えている。
未知の語彙の評価とラベルの同義語、階層語、意味的重複からのアノテーションバイアスを避けることの課題に対処するため、生成された語彙の質を評価するために、アノテーションのないテキストポイントセマンティック類似度(TPSS)指標を導入する。
nuScenes と ScanNet200 の評価では, 3D-AVS が正確なポイントワイドセグメンテーションを持つセマンティッククラスを生成する能力を示した。
コードはhttps://github.com/ozzyou/3D-AVSで公開される。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Auto-Vocabulary Semantic Segmentation [13.410217680999462]
textitAuto-Vocabulary Semantics (AVS)を導入する。
本フレームワークは,拡張BLIP埋め込みを用いて,関連クラス名を自律的に識別する。
提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定する。
論文 参考訳(メタデータ) (2023-12-07T18:55:52Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual
Grounding [4.447173454116189]
3Dビジュアルグラウンドティングは、リッチなセマンティックキューを備えた自由形式の自然言語記述によって言及されているポイントクラウド内のオブジェクトを見つけることを目的としている。
文中のテキスト属性を明示的に分離するEDAを提案する。
さらに、オブジェクト名を含まないオブジェクトを位置決めする新しい視覚的接地タスクを導入し、モデルの高密度アライメント能力を徹底的に評価する。
論文 参考訳(メタデータ) (2022-09-29T17:00:22Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - Box2Seg: Learning Semantics of 3D Point Clouds with Box-Level
Supervision [65.19589997822155]
我々は3Dポイントクラウドのポイントレベルのセマンティクスをバウンディングボックスレベルの監視で学習するために,Box2Segと呼ばれるニューラルアーキテクチャを導入する。
提案するネットワークは,安価な,あるいは既定のバウンディングボックスレベルのアノテーションやサブクラウドレベルのタグでトレーニング可能であることを示す。
論文 参考訳(メタデータ) (2022-01-09T09:07:48Z) - Learning to Detect Instance-level Salient Objects Using Complementary
Image Labels [55.049347205603304]
本報告では,本問題に対する第1の弱教師付きアプローチを提案する。
本稿では,候補対象の特定にクラス整合性情報を活用するSaliency Detection Branch,オブジェクト境界をデライン化するためにクラス整合性情報を利用するBundary Detection Branch,サブティナイズ情報を用いたCentroid Detection Branchを提案する。
論文 参考訳(メタデータ) (2021-11-19T10:15:22Z) - Video Class Agnostic Segmentation Benchmark for Autonomous Driving [13.312978643938202]
特定の安全クリティカルなロボティクスアプリケーションでは、トレーニング時に未知のものを含むすべてのオブジェクトを分割することが重要です。
自律運転における単眼ビデオシーケンスから未知の物体を考慮に入れたビデオクラスセグメンテーションのタスクを定式化する。
論文 参考訳(メタデータ) (2021-03-19T20:41:40Z) - LRGNet: Learnable Region Growing for Class-Agnostic Point Cloud
Segmentation [19.915593390338337]
本研究は,クラス非依存のクラウドセグメンテーションのための学習可能な領域成長手法を提案する。
提案手法は, 物体の形状や大きさを仮定することなく, 単一の深層ニューラルネットワークを用いて任意のクラスを分割することができる。
論文 参考訳(メタデータ) (2021-03-16T15:58:01Z) - 4D Panoptic LiDAR Segmentation [27.677435778317054]
意味クラスと時間的に一貫性のあるインスタンスIDを3Dポイントのシーケンスに割り当てる4DパノプティカルLiDARセグメンテーションを提案する。
マルチオブジェクトトラッキングのベンチマークの最近の進歩に触発され、タスクのセマンティクスとポイントツーインスタンスの関連を分離する新しい評価指標を採用することを提案する。
論文 参考訳(メタデータ) (2021-02-24T18:56:16Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Few-shot 3D Point Cloud Semantic Segmentation [138.80825169240302]
本稿では,新しい注意型マルチプロトタイプトランスダクティブ・ショットポイント・クラウドセマンティックセマンティック・セマンティクス法を提案する。
提案手法は,雲のセマンティックセマンティックセグメンテーション設定の違いによるベースラインに比べて,顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2020-06-22T08:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。