論文の概要: FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.17051v1
- Date: Thu, 28 Dec 2023 14:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:49:22.033815
- Title: FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models
- Title(参考訳): filp-3d: 事前学習された視覚言語モデルによる3次元マイナショットクラスインクリメンタル学習の強化
- Authors: Wan Xu, Tianyu Huang, Tianyu Qu, Guanglei Yang, Yiwen Guo, Wangmeng
Zuo
- Abstract要約: クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 62.663113296987085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot class-incremental learning (FSCIL) aims to mitigate the catastrophic
forgetting issue when a model is incrementally trained on limited data. While
the Contrastive Vision-Language Pre-Training (CLIP) model has been effective in
addressing 2D few/zero-shot learning tasks, its direct application to 3D FSCIL
faces limitations. These limitations arise from feature space misalignment and
significant noise in real-world scanned 3D data. To address these challenges,
we introduce two novel components: the Redundant Feature Eliminator (RFE) and
the Spatial Noise Compensator (SNC). RFE aligns the feature spaces of input
point clouds and their embeddings by performing a unique dimensionality
reduction on the feature space of pre-trained models (PTMs), effectively
eliminating redundant information without compromising semantic integrity. On
the other hand, SNC is a graph-based 3D model designed to capture robust
geometric information within point clouds, thereby augmenting the knowledge
lost due to projection, particularly when processing real-world scanned data.
Considering the imbalance in existing 3D datasets, we also propose new
evaluation metrics that offer a more nuanced assessment of a 3D FSCIL model.
Traditional accuracy metrics are proved to be biased; thus, our metrics focus
on the model's proficiency in learning new classes while maintaining the
balance between old and new classes. Experimental results on both established
3D FSCIL benchmarks and our dataset demonstrate that our approach significantly
outperforms existing state-of-the-art methods.
- Abstract(参考訳): FSCIL(Few-shot class-incremental Learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
Contrastive Vision-Language Pre-Training(CLIP)モデルは、2Dの少数/ゼロショット学習タスクに対処する上で有効であるが、3D FSCILへの直接適用には制限がある。
これらの制限は、現実世界のスキャンされた3Dデータにおける特徴空間のずれと大きなノイズから生じる。
これらの課題に対処するために、冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
RFEは、事前訓練されたモデル(PTM)の特徴空間において、一意の次元的削減を行うことにより、入力点雲とその埋め込みの特徴空間を整列させ、意味的整合性を損なうことなく、効率的に冗長な情報を除去する。
一方、SNCはグラフベースの3次元モデルであり、点雲内の堅牢な幾何学的情報をキャプチャし、プロジェクションによって失われた知識を増大させる。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
従来の精度指標は偏りがあることが証明されており、この測定値は、古いクラスと新しいクラスのバランスを維持しながら、新しいクラスを学習するモデルの習熟度に焦点を当てている。
確立された3d fscilベンチマークとデータセットにおける実験結果から,我々のアプローチが既存の最先端手法を大きく上回っていることが分かる。
関連論文リスト
- DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Learning-based Point Cloud Registration for 6D Object Pose Estimation in
the Real World [55.7340077183072]
我々は、ポイントクラウドデータからオブジェクトの6Dポーズを推定するタスクに取り組む。
この課題に対処する最近の学習ベースのアプローチは、合成データセットにおいて大きな成功を収めている。
これらの障害の原因を分析し、ソースとターゲットポイントの雲の特徴分布の違いに遡る。
論文 参考訳(メタデータ) (2022-03-29T07:55:04Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - I3DOL: Incremental 3D Object Learning without Catastrophic Forgetting [38.7610646073842]
i3dolはまず、3dオブジェクトの新しいクラスを継続的に学習する。
アダプティブジオメトリックセントロイドモジュールは、識別可能な局所幾何学構造を構築するように設計されています。
局所幾何学構造の寄与度を定量化する幾何学的注意メカニズムが開発された。
論文 参考訳(メタデータ) (2020-12-16T15:17:51Z) - Procrustean Regression Networks: Learning 3D Structure of Non-Rigid
Objects from 2D Annotations [42.476537776831314]
非剛体物体の3次元情報を学習できるニューラルネットワークの学習フレームワークを提案する。
提案手法は,Human 3.6M,300-VW,SURREALデータセット上での最先端手法よりも優れた再構成性能を示す。
論文 参考訳(メタデータ) (2020-07-21T17:29:20Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。