論文の概要: Towards Learning to Complete Anything in Lidar
- arxiv url: http://arxiv.org/abs/2504.12264v1
- Date: Wed, 16 Apr 2025 17:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:17.844686
- Title: Towards Learning to Complete Anything in Lidar
- Title(参考訳): ライダーのあらゆることを学ぶ
- Authors: Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep,
- Abstract要約: 我々はライダーを用いた形状合成のためのCAL(Complete Anything in Lidar)を提案する。
我々のゼロショットアプローチは、マルチモーダルシーケンスからの時間的コンテキストを利用して、観測対象の形状と意味的特徴をマイニングする。
本稿では,セマンティック・パノプティクス・シーン・コンプリートのための標準ベンチマークを用いて,オブジェクトを(アモーダル)3次元境界ボックスとしてローカライズし,固定クラス語彙を超えたオブジェクトを認識できることを示す。
- 参考スコア(独自算出の注目度): 29.860801105388507
- License:
- Abstract: We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion in-the-wild. This is closely related to Lidar-based semantic/panoptic scene completion. However, contemporary methods can only complete and recognize objects from a closed vocabulary labeled in existing Lidar datasets. Different to that, our zero-shot approach leverages the temporal context from multi-modal sensor sequences to mine object shapes and semantic features of observed objects. These are then distilled into a Lidar-only instance-level completion and recognition model. Although we only mine partial shape completions, we find that our distilled model learns to infer full object shapes from multiple such partial observations across the dataset. We show that our model can be prompted on standard benchmarks for Semantic and Panoptic Scene Completion, localize objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class vocabularies. Our project page is https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar
- Abstract(参考訳): 我々はライダーを用いた形状合成のためのCAL(Complete Anything in Lidar)を提案する。
これはLidarベースのセマンティック/パノプティクスシーンの補完と密接に関連している。
しかし、現代の手法は既存のLidarデータセットにラベル付けされた閉じた語彙からのみオブジェクトを補完し、認識することができる。
それとは異なり、ゼロショットアプローチでは、マルチモーダルセンサシーケンスからの時間的コンテキストを利用して、観測対象の形状と意味的特徴を抽出する。
これらはその後、Lidarのみのインスタンスレベルの補完と認識モデルに蒸留される。
我々は部分的な形状の完成品のみを採掘するが、我々の蒸留されたモデルは、データセット全体にわたる複数の部分的な観察から完全な物体の形状を推測することを学ぶ。
本稿では,Semantic と Panoptic Scene Completion の標準ベンチマークで,オブジェクトを(アモーダルな)3Dバウンディングボックスとしてローカライズし,固定クラスボキャブラリを超えるオブジェクトを認識できることを示す。
私たちのプロジェクトページはhttps://research.nvidia.com/labs/dvl/projects/complete-anything-lidarです。
関連論文リスト
- Better Call SAL: Towards Learning to Segment Anything in Lidar [63.9984147657437]
本稿では,Lidar内の任意のオブジェクトをセグメント化,分類するためのテキストプロンプト可能なゼロショットモデルを提案する。
擬似ラベルを用いて2次元視覚基盤モデルを用いて3次元の3次元監督を無償で生成する。
我々のモデルは、クラスに依存しない点では91%、ゼロショットのLidar Panopticonでは54%である。
論文 参考訳(メタデータ) (2024-03-19T19:58:54Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Point-Cloud Completion with Pretrained Text-to-image Diffusion Models [33.41278923611429]
現実世界のアプリケーションで収集されたポイントクラウドデータは、しばしば不完全である。
本稿では,事前学習したテキスト・画像拡散モデルを用いたSDS-Completeという手法について述べる。
一般的なデータセットにないオブジェクトを効果的に再構築する。
論文 参考訳(メタデータ) (2023-06-18T11:51:46Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Templates for 3D Object Pose Estimation Revisited: Generalization to New
Objects and Robustness to Occlusions [79.34847067293649]
本稿では,新しい物体を認識でき,RGB画像の3次元ポーズを部分閉塞下でも推定できる手法を提案する。
ローカルオブジェクト表現を学習するために、トレーニングオブジェクトの小さなセットに依存します。
LINEMOD と Occlusion-LINEMOD のデータセットを再トレーニングせずに一般化を示すのはこれが初めてである。
論文 参考訳(メタデータ) (2022-03-31T17:50:35Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - Semantic Scene Completion using Local Deep Implicit Functions on LiDAR
Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。
この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。
実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文 参考訳(メタデータ) (2020-11-18T07:39:13Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。