論文の概要: Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification
- arxiv url: http://arxiv.org/abs/2505.17666v1
- Date: Fri, 23 May 2025 09:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.962885
- Title: Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification
- Title(参考訳): プロトFG3D:プロトタイプに基づく細粒度3次元形状分類
- Authors: Shuxian Ma, Zihao Dong, Runmin Cong, Sam Kwong, Xiuli Shao,
- Abstract要約: 本稿では,3次元形状のきめ細かい分類のためのプロトタイプベースフレームワークProto-FG3Dを提案する。
Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリ表現学習を確立する。
Proto-FG3Dは、精度、透明な予測、そして視覚化によるアドホックな解釈可能性において最先端の手法を超越している。
- 参考スコア(独自算出の注目度): 59.68055837500357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based multi-view coarse-grained 3D shape classification has achieved remarkable success over the past decade, leveraging the powerful feature learning capabilities of CNN-based and ViT-based backbones. However, as a challenging research area critical for detailed shape understanding, fine-grained 3D classification remains understudied due to the limited discriminative information captured during multi-view feature aggregation, particularly for subtle inter-class variations, class imbalance, and inherent interpretability limitations of parametric model. To address these problems, we propose the first prototype-based framework named Proto-FG3D for fine-grained 3D shape classification, achieving a paradigm shift from parametric softmax to non-parametric prototype learning. Firstly, Proto-FG3D establishes joint multi-view and multi-category representation learning via Prototype Association. Secondly, prototypes are refined via Online Clustering, improving both the robustness of multi-view feature allocation and inter-subclass balance. Finally, prototype-guided supervised learning is established to enhance fine-grained discrimination via prototype-view correlation analysis and enables ad-hoc interpretability through transparent case-based reasoning. Experiments on FG3D and ModelNet40 show Proto-FG3D surpasses state-of-the-art methods in accuracy, transparent predictions, and ad-hoc interpretability with visualizations, challenging conventional fine-grained 3D recognition approaches.
- Abstract(参考訳): 深層学習に基づくマルチビューの粗粒度3D形状分類は、CNNベースとViTベースのバックボーンの強力な機能学習機能を活用することで、過去10年間で大きな成功を収めている。
しかし、詳細な形状理解に重要な課題として、特に微妙なクラス間変異、クラス不均衡、パラメトリックモデルの固有解釈可能性制限など、多視点特徴集約において得られた識別情報の限定により、きめ細かい3次元分類が検討されている。
これらの問題に対処するため,Parametric Softmax から Non-parametric prototype learning へのパラダイムシフトを実現するために,Proto-FG3D というプロトタイプベースのフレームワークを提案する。
まず、Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリの表現学習を確立する。
第二に、プロトタイプはオンラインクラスタリングによって洗練され、マルチビューフィーチャアロケーションの堅牢性とサブクラス間バランスの両方を改善している。
最後に,プロトタイプ誘導型教師あり学習が確立され,プロトタイプビュー相関分析によるきめ細かい識別が向上し,透明なケースベース推論によるアドホック解釈が可能となった。
FG3DとModelNet40の実験では、Proto-FG3Dは精度、透明な予測、可視化によるアドホックな解釈可能性において最先端の手法を超越し、従来の微細な3D認識アプローチに挑戦している。
関連論文リスト
- Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning [43.7594705101778]
CLAPと呼ばれる画像と点雲の教師なし微分レンダリングに基づく事前学習手法を提案する。
本手法は、事前学習のためのより情報性の高い点/画素を選択するために、曲率サンプリングによる計算ハードルを克服する。
CLAPは従来のSOTA事前学習法と比較して最大100%性能向上を達成した。
論文 参考訳(メタデータ) (2024-12-04T06:26:12Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。