Fugu-MT 論文翻訳(概要): 3D Instances as 1D Kernels

論文の概要: 3D Instances as 1D Kernels

arxiv url: http://arxiv.org/abs/2207.07372v1
Date: Fri, 15 Jul 2022 09:38:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-18 14:14:34.217785
Title: 3D Instances as 1D Kernels
Title（参考訳）: 1Dカーネルとしての3Dインスタンス
Authors: Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong
Abstract要約: インスタンスカーネルと呼ばれる3次元のインスタンス表現を導入し、インスタンスを1次元ベクトルで表現する。インスタンスカーネルは、シーン全体にわたって単純にカーネルをスキャンすることで、簡単に推論マスクを可能にする。
参考スコア（独自算出の注目度）: 25.65939139679103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a 3D instance representation, termed instance kernels, where instances are represented by one-dimensional vectors that encode the semantic, positional, and shape information of 3D instances. We show that instance kernels enable easy mask inference by simply scanning kernels over the entire scenes, avoiding the heavy reliance on proposals or heuristic clustering algorithms in standard 3D instance segmentation pipelines. The idea of instance kernel is inspired by recent success of dynamic convolutions in 2D/3D instance segmentation. However, we find it non-trivial to represent 3D instances due to the disordered and unstructured nature of point cloud data, e.g., poor instance localization can significantly degrade instance representation. To remedy this, we construct a novel 3D instance encoding paradigm. First, potential instance centroids are localized as candidates. Then, a candidate merging scheme is devised to simultaneously aggregate duplicated candidates and collect context around the merged centroids to form the instance kernels. Once instance kernels are available, instance masks can be reconstructed via dynamic convolutions whose weights are conditioned on instance kernels. The whole pipeline is instantiated with a dynamic kernel network (DKNet). Results show that DKNet outperforms the state of the arts on both ScanNetV2 and S3DIS datasets with better instance localization. Code is available: https://github.com/W1zheng/DKNet.
Abstract（参考訳）: 3dインスタンスのセマンティクス、位置、形状情報をエンコードした1次元ベクトルでインスタンスを表現した3dインスタンス表現をインスタンスカーネルと呼ぶ。インスタンスカーネルは,通常の3Dインスタンスセグメンテーションパイプラインにおける提案やヒューリスティッククラスタリングアルゴリズムに大きく依存することを避けるために,カーネル全体をスキャンするだけで,マスク推論が容易であることを示す。インスタンスカーネルのアイデアは、2D/3Dインスタンスセグメンテーションにおける動的畳み込みの成功に触発されている。しかし、不適切なインスタンスのローカライゼーションがインスタンス表現を著しく劣化させるなど、ポイントクラウドデータの乱れや非構造化の性質のため、3Dインスタンスを表現するのは簡単ではない。そこで我々は,新しい3Dインスタンスエンコーディングパラダイムを構築した。まず、潜在的なインスタンスcentroidsが候補としてローカライズされる。次に、重複候補を集約し、マージセンタロイド周辺のコンテキストを収集してインスタンスカーネルを形成するように、候補マージスキームを考案する。一度インスタンスカーネルが利用可能になると、インスタンスのカーネルに重みが条件付けられた動的畳み込みを通じてインスタンスマスクを再構築することができる。パイプライン全体が動的カーネルネットワーク(DKNet)でインスタンス化される。その結果,DKNetは,ScanNetV2データセットとS3DISデータセットの両方で,より優れたインスタンスローカライゼーションを実現している。コードはhttps://github.com/w1zheng/dknet。

関連論文リスト

Cues3D: Unleashing the Power of Sole NeRF for Consistent and Unique Instances in Open-Vocabulary 3D Panoptic Segmentation [48.231573110948]
Open-vocabulary 3D panoptic segmentationは、最近重要なトレンドとして現れている。先行連想の代わりにNeural Radiance Field(NeRF)のみに依存するコンパクトなアプローチであるCues3Dを提案する。 ScanNet v2、ScanNet200、ScanNet++、Replicaの3Dインスタンス、パノプティクス、セマンティックセグメンテーションタスクを対象に実験を行った。
論文参考訳（メタデータ） (2025-05-01T08:12:03Z)
PanopticRecon: Leverage Open-vocabulary Instance Segmentation for Zero-shot Panoptic Reconstruction [23.798691661418253]
シーンのRGB-D画像から新たなゼロショットパノビュート再構成手法を提案する。我々は、高密度な一般化特徴の助けを借りて部分ラベルを伝播させることにより、両方の課題に取り組む。本手法は,屋内データセットScanNet V2と屋外データセットKITTI-360の最先端手法より優れている。
論文参考訳（メタデータ） (2024-07-01T15:06:04Z)
Instance Consistency Regularization for Semi-Supervised 3D Instance Segmentation [50.51125319374404]
ラベルのないデータから純粋なインスタンス知識を探索し活用するための,新たな自己学習ネットワークInsTeacher3Dを提案する。複数の大規模データセットの実験結果から、InsTeacher3Dは最先端の半教師付きアプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-06-24T16:35:58Z)
Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。 3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文参考訳（メタデータ） (2023-12-17T10:07:03Z)
SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。 ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2023-12-17T09:05:47Z)
SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文参考訳（メタデータ） (2023-12-13T18:59:58Z)
ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution [14.88505076974645]
ISBNetは、インスタンスをカーネルとして表現し、動的畳み込みを通じてインスタンスマスクをデコードする新しい方法である。我々は,ScanNetV2 (55.9), S3DIS (60.8), S3LS3D (49.2) にAPの条件で新たな最先端結果を設定し,ScanNetV2のシーンあたり237msの高速推論時間を保持する。
論文参考訳（メタデータ） (2023-03-01T06:06:28Z)
Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。 Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。 Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文参考訳（メタデータ） (2022-10-06T17:55:09Z)
Geodesic-Former: a Geodesic-Guided Few-shot 3D Point Cloud Instance Segmenter [6.09170287691728]
3Dポイントクラウドインスタンスセグメンテーションのための最初のジオデシック誘導変換器であるGeodesic-Formerを紹介する。鍵となる考え方は、測地線距離を利用して、LiDAR 3D点雲の密度不均衡に取り組むことである。新しいタスクでGeodesic-Formerを評価するために、ScannetV2とS3DISという2つの一般的な3Dポイントクラウドインスタンスセグメンテーションデータセットの分割を提案する。
論文参考訳（メタデータ） (2022-07-22T03:43:36Z)
Instance and Panoptic Segmentation Using Conditional Convolutions [96.7275593916409]
本稿では,CondInst と呼ばれる,シンプルで効果的な光学的セグメンテーションフレームワークを提案する。我々は、CondInstがインスタンス分割タスクと単眼セグメンテーションタスクの両方において精度と推論速度を向上できることを示す。
論文参考訳（メタデータ） (2021-02-05T06:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。