論文の概要: Bridging Language and Geometric Primitives for Zero-shot Point Cloud
Segmentation
- arxiv url: http://arxiv.org/abs/2210.09923v2
- Date: Fri, 4 Aug 2023 05:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:29:35.489847
- Title: Bridging Language and Geometric Primitives for Zero-shot Point Cloud
Segmentation
- Title(参考訳): ゼロショットポイントクラウドセグメンテーションのためのブリッジ言語と幾何学的プリミティブ
- Authors: Runnan Chen, Xinge Zhu, Nenglun Chen, Wei Li, Yuexin Ma, Ruigang Yang,
Wenping Wang
- Abstract要約: ゼロショットポイントクラウドセマンティックセマンティックセマンティックセマンティクスについて検討し、そこではネットワークが見えないオブジェクトに対してトレーニングされ、見えないオブジェクトをセマンティクスできる。
本研究では,視覚的および視覚的カテゴリーのオブジェクトで共有される幾何学的プリミティブを学習し,言語と学習された幾何学的プリミティブとの微粒なアライメントを利用する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 63.035488355742594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate transductive zero-shot point cloud semantic segmentation,
where the network is trained on seen objects and able to segment unseen
objects. The 3D geometric elements are essential cues to imply a novel 3D
object type. However, previous methods neglect the fine-grained relationship
between the language and the 3D geometric elements. To this end, we propose a
novel framework to learn the geometric primitives shared in seen and unseen
categories' objects and employ a fine-grained alignment between language and
the learned geometric primitives. Therefore, guided by language, the network
recognizes the novel objects represented with geometric primitives.
Specifically, we formulate a novel point visual representation, the similarity
vector of the point's feature to the learnable prototypes, where the prototypes
automatically encode geometric primitives via back-propagation. Besides, we
propose a novel Unknown-aware InfoNCE Loss to fine-grained align the visual
representation with language. Extensive experiments show that our method
significantly outperforms other state-of-the-art methods in the harmonic
mean-intersection-over-union (hIoU), with the improvement of 17.8\%, 30.4\%,
9.2\% and 7.9\% on S3DIS, ScanNet, SemanticKITTI and nuScenes datasets,
respectively. Codes are available
(https://github.com/runnanchen/Zero-Shot-Point-Cloud-Segmentation)
- Abstract(参考訳): トランスダクティブなゼロショットポイントのクラウドセマンティクスセグメンテーションについて検討し、そこではネットワークが見えないオブジェクトに対してトレーニングされ、見えないオブジェクトをセグメンテーションすることができる。
3d幾何学的要素は、新しい3dオブジェクトタイプを示すために必須の手がかりである。
しかし,従来の手法では言語と3次元幾何学的要素との微粒な関係は無視されていた。
そこで本研究では,視覚的・非視覚的カテゴリのオブジェクトで共有される幾何学的プリミティブを学習し,言語と学習的プリミティブとの微粒なアライメントを利用する新しいフレームワークを提案する。
そのため,ネットワークは幾何学的プリミティブで表現された新しいオブジェクトを認識する。
具体的には,その特徴と学習可能なプロトタイプとの類似性ベクトルである新しい点の視覚表現を定式化し,プロトタイプがバックプロパゲーションによって幾何学的プリミティブを自動的にエンコードする。
また,視覚表現を言語に細分化するための未知認識情報ロスを提案する。
提案手法は, s3dis, scannet, semantickitti, nuscenesデータセット上で, 17.8\%, 30.4\%, 9.2\%, 7.9\%の改善により, 高調波平均断面積法 (hiou) の他の手法を著しく上回っている。
コードは利用可能である(https://github.com/runnanchen/Zero-Shot-Point-Cloud-Segmentation)。
関連論文リスト
- SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding [11.416392706435415]
ゼロショット3Dポイントクラウド理解は2Dビジョンランゲージモデル(VLM)によって達成できる
既存の戦略は、ヴィジュアル・ランゲージ・モデル(Vision-Language Model)をレンダリングまたはキャプチャされた2Dピクセルから3Dポイントにマッピングし、固有かつ表現可能な雲の幾何学構造を見渡す。
本稿では, 点雲の3次元幾何学的構造を利用して, 移動したビジョン・ランゲージモデルの品質を向上させるための, 初となるトレーニングフリーアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T12:30:07Z) - QuadricsNet: Learning Concise Representation for Geometric Primitives in
Point Clouds [39.600071233251704]
本稿では,3次元点雲の精密な幾何学的原始表現を学習するための新しい枠組みを提案する。
私たちは10のパラメータしか持たない多様なプリミティブを表現するために二次的手法を採用しています。
我々は,ポイントクラウドの二次解析を行うために,最初のエンドツーエンド学習ベースのフレームワークであるQuadricsNetを提案する。
論文 参考訳(メタデータ) (2023-09-25T15:18:08Z) - Generalized Few-Shot Point Cloud Segmentation Via Geometric Words [54.32239996417363]
ショットポイントクラウドセグメンテーションアルゴリズムは、ベースクラスのセグメンテーション精度を犠牲にして、新しいクラスに適応するように学習する。
一般化された数ショット点雲のセグメンテーションというより実践的なパラダイムの最初の試みを示す。
基本クラスと新規クラス間で共有される幾何学的要素を表す幾何学的単語を提案し,それらを新しい幾何学的意味表現に組み込む。
論文 参考訳(メタデータ) (2023-09-20T11:24:33Z) - PolarMOT: How Far Can Geometric Relations Take Us in 3D Multi-Object
Tracking? [62.997667081978825]
グラフのノードとして3D検出を符号化し、グラフエッジ上の局所極座標を用いてオブジェクト間の空間的および時間的対関係を符号化する。
これにより、グラフニューラルネットワークは、時間的および空間的相互作用を効果的に符号化することができる。
我々はnuScenesデータセット上に新しい最先端のデータセットを構築し、さらに重要なことに、私たちの手法であるPolarMOTが、異なる場所にわたって驚くほどよく一般化されていることを示す。
論文 参考訳(メタデータ) (2022-08-03T10:06:56Z) - Fitting and recognition of geometric primitives in segmented 3D point
clouds using a localized voting procedure [1.8352113484137629]
投票手順によって各タイプの原始パラメータを初期推定できる点雲処理手法を提案する。
これらの推定値を用いることで、最適解の探索を次元的に還元された空間に局所化し、HT を文献で一般的に見られるものよりもより原始的に拡張することが効率的となる。
論文 参考訳(メタデータ) (2022-05-30T20:47:43Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - Deep Geometric Texture Synthesis [83.9404865744028]
幾何学的テクスチャを合成するための新しい枠組みを提案する。
単一の参照3Dモデルの局所的な近傍からテクスチャ統計を学習する。
我々のネットワークはメッシュ頂点を任意の方向に変位させ、幾何学的テクスチャの合成を可能にする。
論文 参考訳(メタデータ) (2020-06-30T19:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。