論文の概要: Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification
- arxiv url: http://arxiv.org/abs/2509.14958v2
- Date: Sun, 21 Sep 2025 04:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 12:27:33.504442
- Title: Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification
- Title(参考訳): 2次元レンズを通して3Dを見る:3D Few-Shotクラスインクリメンタルラーニング
- Authors: Tuo Xiang, Xuemiao Xu, Bangzhen Liu, Jinyi Li, Yong Li, Shengfeng He,
- Abstract要約: 本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
- 参考スコア(独自算出の注目度): 59.17489431187807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of 3D digital content necessitates expandable recognition systems for open-world scenarios. However, existing 3D class-incremental learning methods struggle under extreme data scarcity due to geometric misalignment and texture bias. While recent approaches integrate 3D data with 2D foundation models (e.g., CLIP), they suffer from semantic blurring caused by texture-biased projections and indiscriminate fusion of geometric-textural cues, leading to unstable decision prototypes and catastrophic forgetting. To address these issues, we propose Cross-Modal Geometric Rectification (CMGR), a framework that enhances 3D geometric fidelity by leveraging CLIP's hierarchical spatial semantics. Specifically, we introduce a Structure-Aware Geometric Rectification module that hierarchically aligns 3D part structures with CLIP's intermediate spatial priors through attention-driven geometric fusion. Additionally, a Texture Amplification Module synthesizes minimal yet discriminative textures to suppress noise and reinforce cross-modal consistency. To further stabilize incremental prototypes, we employ a Base-Novel Discriminator that isolates geometric variations. Extensive experiments demonstrate that our method significantly improves 3D few-shot class-incremental learning, achieving superior geometric coherence and robustness to texture bias across cross-domain and within-domain settings.
- Abstract(参考訳): 3Dデジタルコンテンツの急速な成長は、オープンワールドシナリオのための拡張可能な認識システムを必要とする。
しかし,既存の3次元クラスインクリメンタル学習法は,幾何学的ミスアライメントとテクスチャバイアスにより,データ不足に悩まされている。
最近のアプローチでは2次元基礎モデル(例えばCLIP)と3Dデータを統合するが、テクスチャバイアスの投影による意味的曖昧化や、幾何学的・テクスチャ的手がかりの無差別な融合に悩まされ、不安定な決定プロトタイプや破滅的な忘れが生じる。
このような問題に対処するために,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークであるCross-Modal Geometric Rectification (CMGR)を提案する。
具体的には,3次元構造とCLIPの中間空間前兆を階層的に整列する構造対応幾何整流モジュールを提案する。
さらに、テクスチャ増幅モジュールは、最小でも差別的なテクスチャを合成し、ノイズを抑制し、モーダル間の一貫性を強化する。
インクリメンタルプロトタイプをさらに安定させるために,幾何的変動を分離するBase-Novel Discriminatorを用いる。
広汎な実験により,本手法は3次元クラスインクリメンタル学習を著しく改善し,ドメイン間およびドメイン内設定間のテクスチャバイアスに対する優れた幾何コヒーレンスとロバスト性を実現した。
関連論文リスト
- Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets [90.99212668875971]
Step1X-3Dは、データの不足、アルゴリズムの制限、エコシステムの断片化といった課題に対処するオープンフレームワークである。
拡散型テクスチャ合成モジュールとハイブリッドVAE-DiTジオメトリジェネレータを組み合わせた2段階の3Dネイティブアーキテクチャを提案する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-05-12T16:56:30Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - Shape from Semantics: 3D Shape Generation from Multi-View Semantics [30.969299308083723]
既存の3D再構成手法では, 3次元画像, 3次元点雲, 形状輪郭, 単一意味論などのガイダンスを用いて3次元表面を復元する。
図形や外観が、異なる視点から見ると、与えられたテキストの意味と一致した3Dモデルを作成することを目的として、新しい3Dモデリングタスク「Shape from Semantics'」を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:51:59Z) - Unified Few-shot Crack Segmentation and its Precise 3D Automatic Measurement in Concrete Structures [2.178830801484721]
本研究では, 2次元(2次元)き裂検出, 3次元再構築, 3次元自動き裂計測のためのフレームワークを提案する。
そこで我々は,不慣れなシナリオにまたがって強力な一般化を図り,正確な2次元き裂マスクの生成を可能にするき裂分割法を開発した。
画像とLiDAR-SLAMの両方を活用することで、高密度で彩色された点雲を生成するマルチフレームおよびマルチモーダル融合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-01-15T23:36:05Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - LineGS : 3D Line Segment Representation on 3D Gaussian Splatting [0.0]
LineGSは幾何学誘導型3次元ライン再構成と3次元ガウススプラッティングモデルを組み合わせた新しい手法である。
その結果, ベースライン法と比較して, 幾何精度とモデルコンパクト性に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-11-30T13:29:36Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - Self-supervised Learning for Enhancing Geometrical Modeling in 3D-Aware
Generative Adversarial Network [42.16520614686877]
3D-GANは、メッシュの不完全性や穴などの3D幾何学的モデリングにおいて、アーティファクトを示す。
これらの欠点は、主にアノテーション付き3Dデータの可用性が制限されているためである。
本稿では,任意の3D-GANの補助的損失を補うセルフ・スーパーバイザード・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T04:55:33Z) - Hard Example Generation by Texture Synthesis for Cross-domain Shape
Similarity Learning [97.56893524594703]
画像に基づく3次元形状検索(IBSR)は、与えられた2次元画像の対応する3次元形状を、大きな3次元形状データベースから見つけることを目的としている。
いくつかの適応技法によるメートル法学習は、類似性学習を形作るための自然な解決策のようです。
テクスチャ合成を応用した幾何中心の多視点メトリック学習フレームワークを開発した。
論文 参考訳(メタデータ) (2020-10-23T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。