Fugu-MT 論文翻訳(概要): Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification

論文の概要: Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification

arxiv url: http://arxiv.org/abs/2505.17666v1
Date: Fri, 23 May 2025 09:31:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.962885
Title: Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification
Title（参考訳）: プロトFG3D:プロトタイプに基づく細粒度3次元形状分類
Authors: Shuxian Ma, Zihao Dong, Runmin Cong, Sam Kwong, Xiuli Shao,
Abstract要約: 本稿では,3次元形状のきめ細かい分類のためのプロトタイプベースフレームワークProto-FG3Dを提案する。 Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリ表現学習を確立する。 Proto-FG3Dは、精度、透明な予測、そして視覚化によるアドホックな解釈可能性において最先端の手法を超越している。
参考スコア（独自算出の注目度）: 59.68055837500357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning-based multi-view coarse-grained 3D shape classification has achieved remarkable success over the past decade, leveraging the powerful feature learning capabilities of CNN-based and ViT-based backbones. However, as a challenging research area critical for detailed shape understanding, fine-grained 3D classification remains understudied due to the limited discriminative information captured during multi-view feature aggregation, particularly for subtle inter-class variations, class imbalance, and inherent interpretability limitations of parametric model. To address these problems, we propose the first prototype-based framework named Proto-FG3D for fine-grained 3D shape classification, achieving a paradigm shift from parametric softmax to non-parametric prototype learning. Firstly, Proto-FG3D establishes joint multi-view and multi-category representation learning via Prototype Association. Secondly, prototypes are refined via Online Clustering, improving both the robustness of multi-view feature allocation and inter-subclass balance. Finally, prototype-guided supervised learning is established to enhance fine-grained discrimination via prototype-view correlation analysis and enables ad-hoc interpretability through transparent case-based reasoning. Experiments on FG3D and ModelNet40 show Proto-FG3D surpasses state-of-the-art methods in accuracy, transparent predictions, and ad-hoc interpretability with visualizations, challenging conventional fine-grained 3D recognition approaches.
Abstract（参考訳）: 深層学習に基づくマルチビューの粗粒度3D形状分類は、CNNベースとViTベースのバックボーンの強力な機能学習機能を活用することで、過去10年間で大きな成功を収めている。しかし、詳細な形状理解に重要な課題として、特に微妙なクラス間変異、クラス不均衡、パラメトリックモデルの固有解釈可能性制限など、多視点特徴集約において得られた識別情報の限定により、きめ細かい3次元分類が検討されている。これらの問題に対処するため,Parametric Softmax から Non-parametric prototype learning へのパラダイムシフトを実現するために,Proto-FG3D というプロトタイプベースのフレームワークを提案する。まず、Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリの表現学習を確立する。第二に、プロトタイプはオンラインクラスタリングによって洗練され、マルチビューフィーチャアロケーションの堅牢性とサブクラス間バランスの両方を改善している。最後に,プロトタイプ誘導型教師あり学習が確立され,プロトタイプビュー相関分析によるきめ細かい識別が向上し,透明なケースベース推論によるアドホック解釈が可能となった。 FG3DとModelNet40の実験では、Proto-FG3Dは精度、透明な予測、可視化によるアドホックな解釈可能性において最先端の手法を超越し、従来の微細な3D認識アプローチに挑戦している。

関連論文リスト

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。 UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文参考訳（メタデータ） (2025-06-11T17:23:21Z)
Pts3D-LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models [9.658828841170472]
本研究は,3次元トークン構造に関する厳密な研究であり,映像ベースおよび点ベース表現を体系的に比較する。本稿では,ソナタで事前学習したポイントトランスフォーマーV3エンコーダの3Dポイントクラウド機能を組み込むことで,視覚トークンを充実させる手法を提案する。
論文参考訳（メタデータ） (2025-06-06T02:35:26Z)
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文参考訳（メタデータ） (2025-03-20T20:58:48Z)
CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning [43.7594705101778]
CLAPと呼ばれる画像と点雲の教師なし微分レンダリングに基づく事前学習手法を提案する。本手法は、事前学習のためのより情報性の高い点/画素を選択するために、曲率サンプリングによる計算ハードルを克服する。 CLAPは従来のSOTA事前学習法と比較して最大100%性能向上を達成した。
論文参考訳（メタデータ） (2024-12-04T06:26:12Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。 KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-09-02T12:36:38Z)
Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文参考訳（メタデータ） (2023-07-13T08:27:09Z)
Number-Adaptive Prototype Learning for 3D Point Cloud Semantic Segmentation [46.610620464184926]
セマンティッククラス内の異なる点パターンを動的に記述するために,適応的なプロトタイプ数を提案する。本手法は,ポイントワイド分類パラダイムに基づくベースラインモデルよりも2.3%mIoUの改善を実現する。
論文参考訳（メタデータ） (2022-10-18T15:57:20Z)
Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。提案手法は,KITTIベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2022-03-21T14:36:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。