論文の概要: FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.17051v2
- Date: Wed, 08 Jan 2025 05:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:53:37.953182
- Title: FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models
- Title(参考訳): FILP-3D:事前学習型視覚言語モデルによる3次元Few-shotクラスインクリメンタルラーニングの実現
- Authors: Wan Xu, Tianyu Huang, Tianyu Qu, Guanglei Yang, Yiwen Guo, Wangmeng Zuo,
- Abstract要約: クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 59.13757801286343
- License:
- Abstract: Few-shot class-incremental learning (FSCIL) aims to mitigate the catastrophic forgetting issue when a model is incrementally trained on limited data. However, many of these works lack effective exploration of prior knowledge, rendering them unable to effectively address the domain gap issue in the context of 3D FSCIL, thereby leading to catastrophic forgetting. The Contrastive Vision-Language Pre-Training (CLIP) model serves as a highly suitable backbone for addressing the challenges of 3D FSCIL due to its abundant shape-related prior knowledge. Unfortunately, its direct application to 3D FSCIL still faces the incompatibility between 3D data representation and the 2D features, primarily manifested as feature space misalignment and significant noise. To address the above challenges, we introduce the FILP-3D framework with two novel components: the Redundant Feature Eliminator (RFE) for feature space misalignment and the Spatial Noise Compensator (SNC) for significant noise. RFE aligns the feature spaces of input point clouds and their embeddings by performing a unique dimensionality reduction on the feature space of pre-trained models (PTMs), effectively eliminating redundant information without compromising semantic integrity. On the other hand, SNC is a graph-based 3D model designed to capture robust geometric information within point clouds, thereby augmenting the knowledge lost due to projection, particularly when processing real-world scanned data. Moreover, traditional accuracy metrics are proven to be biased due to the imbalance in existing 3D datasets. Therefore we propose 3D FSCIL benchmark FSCIL3D-XL and novel evaluation metrics that offer a more nuanced assessment of a 3D FSCIL model. Experimental results on both established and our proposed benchmarks demonstrate that our approach significantly outperforms existing state-of-the-art methods.
- Abstract(参考訳): FSCIL(Few-shot class-incremental Learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
しかし、これらの研究の多くは事前知識の効果的な探索に欠けており、3D FSCILの文脈でドメインギャップの問題に効果的に対処できなかったため、破滅的な忘れを招いた。
Contrastive Vision-Language Pre-Training (CLIP) モデルは、形状に関する事前知識が豊富にあるため、3D FSCILの課題に対処するための非常に適切なバックボーンとして機能する。
残念なことに、その3D FSCILへの直接的な適用は、3Dデータ表現と2D特徴の相容れない部分に直面している。
上記の課題に対処するために,特徴空間の不整合に対する冗長特徴除去器 (RFE) と,大きな雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを用いたFILP-3Dフレームワークを導入する。
RFEは、事前訓練されたモデル(PTM)の特徴空間において、一意の次元的削減を行うことにより、入力点雲とその埋め込みの特徴空間を整列させ、意味的整合性を損なうことなく、効率的に冗長な情報を除去する。
一方、SNCは、点雲内の堅牢な幾何学的情報をキャプチャし、特に実世界のスキャンデータを処理する際に、投影によって失われた知識を増大させるように設計されたグラフベースの3Dモデルである。
さらに、既存の3Dデータセットの不均衡により、従来の精度メトリクスがバイアスがあることが証明されている。
そこで本研究では, 3次元 FSCIL ベンチマーク FSCIL3D-XL と, 3次元 FSCIL モデルのより微妙な評価を行う新しい評価指標を提案する。
確立されたベンチマークと提案したベンチマークによる実験結果から,提案手法が既存の最先端手法を著しく上回っていることが示された。
関連論文リスト
- GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - Learning-based Point Cloud Registration for 6D Object Pose Estimation in
the Real World [55.7340077183072]
我々は、ポイントクラウドデータからオブジェクトの6Dポーズを推定するタスクに取り組む。
この課題に対処する最近の学習ベースのアプローチは、合成データセットにおいて大きな成功を収めている。
これらの障害の原因を分析し、ソースとターゲットポイントの雲の特徴分布の違いに遡る。
論文 参考訳(メタデータ) (2022-03-29T07:55:04Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - I3DOL: Incremental 3D Object Learning without Catastrophic Forgetting [38.7610646073842]
i3dolはまず、3dオブジェクトの新しいクラスを継続的に学習する。
アダプティブジオメトリックセントロイドモジュールは、識別可能な局所幾何学構造を構築するように設計されています。
局所幾何学構造の寄与度を定量化する幾何学的注意メカニズムが開発された。
論文 参考訳(メタデータ) (2020-12-16T15:17:51Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。