Fugu-MT 論文翻訳(概要): 3DLatNav: Navigating Generative Latent Spaces for Semantic-Aware 3D Object Manipulation

論文の概要: 3DLatNav: Navigating Generative Latent Spaces for Semantic-Aware 3D Object Manipulation

arxiv url: http://arxiv.org/abs/2211.09770v1
Date: Thu, 17 Nov 2022 18:47:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 16:37:49.594361
Title: 3DLatNav: Navigating Generative Latent Spaces for Semantic-Aware 3D Object Manipulation
Title（参考訳）: 3DLatNav:セマンティックな3Dオブジェクト操作のための生成潜在空間のナビゲーション
Authors: Amaya Dharmasiri, Dinithi Dissanayake, Mohamed Afham, Isuru Dissanayake, Ranga Rodrigo, Kanchana Thilakarathna
Abstract要約: 3D生成モデルは、最近、点雲という形で現実的な3Dオブジェクトを生成することに成功した。ほとんどのモデルは、広範囲なセマンティックラベルや他の参照ポイントクラウドなしでコンポーネントオブジェクトの形状セマンティクスを操作するための制御性を提供していません。本稿では3DLatNavを提案する。3Dオブジェクトの制御部分レベルのセマンティック操作を可能にするために,事前学習された潜在空間をナビゲートする新しいアプローチである。
参考スコア（独自算出の注目度）: 2.8661021832561757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: 3D generative models have been recently successful in generating realistic 3D objects in the form of point clouds. However, most models do not offer controllability to manipulate the shape semantics of component object parts without extensive semantic attribute labels or other reference point clouds. Moreover, beyond the ability to perform simple latent vector arithmetic or interpolations, there is a lack of understanding of how part-level semantics of 3D shapes are encoded in their corresponding generative latent spaces. In this paper, we propose 3DLatNav; a novel approach to navigating pretrained generative latent spaces to enable controlled part-level semantic manipulation of 3D objects. First, we propose a part-level weakly-supervised shape semantics identification mechanism using latent representations of 3D shapes. Then, we transfer that knowledge to a pretrained 3D object generative latent space to unravel disentangled embeddings to represent different shape semantics of component parts of an object in the form of linear subspaces, despite the unavailability of part-level labels during the training. Finally, we utilize those identified subspaces to show that controllable 3D object part manipulation can be achieved by applying the proposed framework to any pretrained 3D generative model. With two novel quantitative metrics to evaluate the consistency and localization accuracy of part-level manipulations, we show that 3DLatNav outperforms existing unsupervised latent disentanglement methods in identifying latent directions that encode part-level shape semantics of 3D objects. With multiple ablation studies and testing on state-of-the-art generative models, we show that 3DLatNav can implement controlled part-level semantic manipulations on an input point cloud while preserving other features and the realistic nature of the object.
Abstract（参考訳）: 3D生成モデルは、最近、点雲という形で現実的な3Dオブジェクトを生成することに成功した。しかし、ほとんどのモデルは、広範なセマンティクス属性ラベルや他の参照ポイントクラウドなしでコンポーネントオブジェクト部分の形状セマンティクスを操作する制御性を提供していない。さらに、単純な潜在ベクトル算術や補間を行う能力の他に、3次元形状の部分レベル意味論が対応する生成潜在空間にエンコードされる方法の理解が欠如している。本稿では,3Dオブジェクトのパートレベルのセマンティック操作を可能にするために,事前学習された生成潜在空間をナビゲートする新しいアプローチである3DLatNavを提案する。まず,3次元形状の潜在表現を用いた部分レベル弱教師付き形状意味認識機構を提案する。そして,その知識を事前学習された3次元オブジェクト生成潜時空間に変換し,学習中に部分レベルラベルが利用できないにもかかわらず,対象の構成要素の異なる形状意味を線形部分空間として表現する。最後に,これら同定された部分空間を用いて,事前学習した3次元生成モデルに適用することにより,制御可能な3次元オブジェクト部分操作を実現する。 3dlatnavは,3dオブジェクトの部分レベルの形状セマンティクスをエンコードする潜在方向を特定する際に,既存の非教師付き潜在性不等角化手法よりも優れていることを示す。複数のアブレーション研究と最先端生成モデルのテストにより、3DLatNavは入力点クラウド上で制御された部分レベルのセマンティック操作を実装でき、他の特徴やオブジェクトの現実的な性質を保存できることを示した。

関連論文リスト

DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation [49.32104127246474]
DriveGENは、トレーニング不要のテキストから画像への拡散生成である。様々なアウト・オブ・ディストリビューション世代にまたがる正確な3D形状のオブジェクトを一貫して保存する。
論文参考訳（メタデータ） (2025-03-14T06:35:38Z)
Chirpy3D: Creative Fine-grained 3D Object Fabrication via Part Sampling [128.23917788822948]
Chirpy3Dは、ゼロショット設定で微細な3Dオブジェクトを生成するための新しいアプローチである。モデルは、可塑性な3D構造を推測し、きめ細かい細部を捉え、新しい物体に一般化する必要がある。我々の実験では、Cirpy3Dは、高品質できめ細かな細部を持つ創造的な3Dオブジェクトを生成する既存の手法を超越していることが示されている。
論文参考訳（メタデータ） (2025-01-07T21:14:11Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
Learning 3D Representations from Procedural 3D Programs [6.915871213703219]
自己教師付き学習は、ラベルのない3Dポイントクラウドから転送可能な3D表現を取得するための有望なアプローチとして登場した。簡単なプリミティブと拡張を使って3次元形状を自動的に生成する手続き型3Dプログラムから3次元表現を学習する。
論文参考訳（メタデータ） (2024-11-25T18:59:57Z)
CUS3D :CLIP-based Unsupervised 3D Segmentation via Object-level Denoise [9.12768731317489]
CUS3Dという新しい蒸留学習フレームワークを提案する。オブジェクトレベルのデノシングプロジェクションモジュールは、ノイズのスクリーニングとより正確な3D機能を保証するように設計されています。得られた特徴に基づき、3D特徴とCLIP意味的特徴空間を整合させる多モード蒸留学習モジュールを設計した。
論文参考訳（メタデータ） (2024-09-21T02:17:35Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
3D Semantic Subspace Traverser: Empowering 3D Generative Model with Shape Editing Capability [13.041974495083197]
従来の3次元形状生成の研究は、意味情報の重要性を考慮せずに、形状の質と構造に焦点を合わせてきた。本稿では,3Dセマンティックサブスペーストラバーサという新しい意味生成モデルを提案する。本手法は,複雑な構造を持つ可塑性形状を生成でき,意味的属性の編集を可能にする。
論文参考訳（メタデータ） (2023-07-26T09:04:27Z)
NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文参考訳（メタデータ） (2023-05-28T16:18:41Z)
Object-level 3D Semantic Mapping using a Network of Smart Edge Sensors [25.393382192511716]
我々は,分散エッジセンサのネットワークとオブジェクトレベルの情報からなる多視点3次元意味マッピングシステムを拡張した。提案手法は,数cm以内でのポーズ推定と,実験室環境におけるセンサネットワークを用いた実環境実験により,Behaveデータセットを用いて評価した。
論文参考訳（メタデータ） (2022-11-21T11:13:08Z)
ConDor: Self-Supervised Canonicalization of 3D Pose for Partial Shapes [55.689763519293464]
ConDorは、完全および部分的な3次元点雲の3次元配向と位置を正準化することを学ぶ自己教師型手法である。推測中,本手法は任意のポーズで完全あるいは部分的な3次元点の雲を抽出し,同変正則のポーズを出力する。
論文参考訳（メタデータ） (2022-01-19T18:57:21Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文参考訳（メタデータ） (2021-08-10T12:19:34Z)
SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文参考訳（メタデータ） (2019-12-26T08:48:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。