論文の概要: From Extrinsic to Intrinsic: Geodesic-Guided Representation Learning for 3D Geometric Data
- arxiv url: http://arxiv.org/abs/2606.02268v1
- Date: Mon, 01 Jun 2026 13:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.185011
- Title: From Extrinsic to Intrinsic: Geodesic-Guided Representation Learning for 3D Geometric Data
- Title(参考訳): 外部から内在へ:3次元幾何データのための測地誘導表現学習
- Authors: Yuming Zhao, Junhui Hou, Qijian Zhang, Jia Qin, Ying He,
- Abstract要約: 我々は,textbfPreトレーニングのための新しい3D表現学習パラダイムであるtextbfPRISMを紹介した。
PRISMは textbfIntrinsic textbfSurface geodesic textbfMetric を検索して埋め込みを学習する。
提案手法は測地線距離予測において, 良好な精度, 堅牢性, 高効率性を示す。
- 参考スコア(独自算出の注目度): 56.41479248637621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric analysis fundamentally distinguishes between \textit{extrinsic} and \textit{intrinsic} perspectives. The dominant paradigm in current 3D representation learning relies on either extrinsic spatial structures or high-level semantics, struggling to capture the essence of shape identity and underlying manifold topology. To bridge this gap, we introduce a novel 3D representation learning paradigm, namely \textbf{PRISM}, for \textbf{P}re-training, which learns isometric embeddings by \textbf{R}ecovering the \textbf{I}ntrinsic \textbf{S}urface geodesic \textbf{M}etric. PRISM incorporates a topology-enforcing objective that explicitly constrains the structure of latent space, alongside a specialized two-stage training recipe mitigating sample imbalance inherent in the distribution of geodesic distances. Experiments demonstrate that our approach shows satisfactory accuracy, robustness, and high efficiency in geodesic distance prediction and achieves superior performance across diverse downstream tasks, including shape recognition, surface parameterization, and non-rigid correspondence. The code will be publicly available at https://github.com/AidenZhao/PRISM.
- Abstract(参考訳): 幾何学的解析は、基本的に \textit{extrinsic} と \textit{intrinsic} の観点を区別する。
現在の3次元表現学習における支配的なパラダイムは、外在的な空間構造または高レベルの意味論に依存し、形状のアイデンティティと基礎となる多様体トポロジーの本質を捉えるのに苦労している。
このギャップを埋めるために、新しい3D表現学習パラダイム、すなわち \textbf{P}re-training を導入し、 \textbf{R}ecovering the \textbf{I}ntrinsic \textbf{S}urface geodesic \textbf{M}etric.。
PRISMは、測地線距離の分布に固有のサンプル不均衡を緩和する特別な2段階のトレーニングレシピとともに、潜伏空間の構造を明示的に制約するトポロジー強化の目的を取り入れている。
実験により,提案手法は測地距離予測において良好な精度,堅牢性,高効率を示し,形状認識,表面パラメータ化,非剛性対応など様々な下流タスクにおいて優れた性能を発揮することが示された。
コードはhttps://github.com/AidenZhao/PRISM.comで公開される。
関連論文リスト
- Curvature-Aware Captioning:Leveraging Geodesic Attention for 3D Scene Understanding [26.656996180165795]
ユークリッド埋め込み空間を適用する既存のアプローチは、きめ細かい局所幾何学的詳細を同時に保存するのに苦労している。
我々は,新しい非ユークリッド測地的注意機構を統合したtextbftextscCurvature-Aware Captioningフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-09T08:54:42Z) - OpenGaFF: Open-Vocabulary Gaussian Feature Field with Codebook Attention [80.51557267896938]
オープンな3Dシーン理解のための新しいフレームワークであるOpenGaFFについて述べる。
我々の手法の中核はガウス的特徴場であり、ガウス幾何学と外見の連続関数として意味論をモデル化する。
オブジェクトレベルのセマンティック一貫性をさらに強化するために、共有セマンティックプリミティブのセットとして機能する構造化コードブックを導入する。
論文 参考訳(メタデータ) (2026-05-07T12:10:07Z) - Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - GeoGuide: Hierarchical Geometric Guidance for Open-Vocabulary 3D Semantic Segmentation [38.12499404546835]
オープンな3次元セグメンテーションのための階層的幾何-セマンティック整合性を統合するフレームワークであるGeoGuideを提案する。
具体的には,不確実性に基づくスーパーポイント蒸留モジュールを導入し,幾何学的特徴と意味的特徴を融合させる。
ScanNet v2、Matterport3D、nuScenesに関する実験は、GeoGuideの優れた性能を示している。
論文 参考訳(メタデータ) (2026-03-27T10:29:19Z) - Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving [18.345382058484166]
3Dセマンティック占有予測は自律運転知覚に不可欠である。
我々は,奥行きと地域誘導による占領予測の枠組みであるOcc博士を提案する。
我々は,Occ博士がBEVDet4Dを7.43% mIoU,3.09% IoUに改良したことを示す。
論文 参考訳(メタデータ) (2026-03-01T09:22:15Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。