論文の概要: Surface-Aware Distilled 3D Semantic Features
- arxiv url: http://arxiv.org/abs/2503.18254v1
- Date: Mon, 24 Mar 2025 00:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:09.314491
- Title: Surface-Aware Distilled 3D Semantic Features
- Title(参考訳): 表面認識型3次元意味的特徴
- Authors: Lukas Uzolas, Elmar Eisemann, Petr Kellnhofer,
- Abstract要約: ポーズアライメント、アニメーション、モーショントランスファー、そして3D再構成といった多くの3Dタスクは、3D形状間の対応を確立することに依存している。
この課題は最近、事前訓練された視覚モデルからのセマンティックな特徴のマッチングによって解決されている。
これらのあいまいさに対して堅牢な表面認識型埋め込み空間を学習する。
- 参考スコア(独自算出の注目度): 10.263762787854862
- License:
- Abstract: Many 3D tasks such as pose alignment, animation, motion transfer, and 3D reconstruction rely on establishing correspondences between 3D shapes. This challenge has recently been approached by matching of semantic features from pre-trained vision models. However, despite their power, these features struggle to differentiate instances of the same semantic class such as "left hand" versus "right hand" which leads to substantial mapping errors. To solve this, we learn a surface-aware embedding space that is robust to these ambiguities. Importantly, our approach is self-supervised and requires only a small number of unpaired training meshes to infer features for new 3D shapes at test time. We achieve this by introducing a contrastive loss that preserves the semantic content of the features distilled from foundational models while disambiguating features located far apart on the shape's surface. We observe superior performance in correspondence matching benchmarks and enable downstream applications including in-part segmentation, pose alignment, and motion transfer. The project site is available at https://lukas.uzolas.com/SurfaceAware3DFeaturesSite.
- Abstract(参考訳): ポーズアライメント、アニメーション、モーショントランスファー、そして3D再構成といった多くの3Dタスクは、3D形状間の対応を確立することに依存している。
この課題は最近、事前訓練された視覚モデルからのセマンティックな特徴のマッチングによって解決されている。
しかし、その能力にもかかわらず、これらの機能は「左手」と「右手」のような同じ意味クラスのインスタンスを区別するのに苦労している。
この問題を解決するために、これらのあいまいさに頑健な曲面認識埋め込み空間を学習する。
重要なことは、我々のアプローチは自己教師型であり、テスト時に新しい3D形状の機能を推測するためには、少数の未ペアのトレーニングメッシュしか必要としないということです。
これを実現するために, 基礎モデルから抽出した特徴のセマンティックな内容を保存するとともに, 形状面から遠く離れた特徴を曖昧にすることで, 対照的な損失を生じさせる。
対応マッチングベンチマークにおいて優れた性能を示し,部分分割,ポーズアライメント,移動移動を含む下流アプリケーションを実現する。
プロジェクトサイトはhttps://lukas.uzolas.com/SurfaceAware3DFeaturesSiteで公開されている。
関連論文リスト
- Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning [10.51523800391153]
我々は、VTベースのモデルの3次元認識を評価し、強化する。
本稿では,3次元対応に基づく簡易かつ効果的なファインタニング戦略を提案する。
論文 参考訳(メタデータ) (2024-11-29T04:02:11Z) - Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。
本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文 参考訳(メタデータ) (2024-10-30T14:06:51Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning
of 3D Pose [10.028521796737314]
本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習の課題について検討する。
我々の主な貢献は学習フレームワークであるニューラルビュー合成とマッチングであり、3Dポーズアノテーションをラベル付けされたラベル付き画像から、確実に非ラベル付き画像に転送することができる。
論文 参考訳(メタデータ) (2021-10-27T06:53:53Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。