論文の概要: Adapt-As-You-Walk Through the Clouds: Training-Free Online Test-Time Adaptation of 3D Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2511.15311v1
- Date: Wed, 19 Nov 2025 10:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.753807
- Title: Adapt-As-You-Walk Through the Clouds: Training-Free Online Test-Time Adaptation of 3D Vision-Language Foundation Models
- Title(参考訳): Adapt-As-You-Walk through the clouds: Training-free Online Test-Time Adaptation of 3D Vision-Language Foundation Models
- Authors: Mehran Tamjidi, Hamidreza Dastmalchi, Mohammadreza Alimoradijazi, Ali Cheraghian, Aijun An, Morteza Saberi,
- Abstract要約: 3D Vision-Language Foundation Models (VLFMs) は、オープンワールドのポイントクラウド処理タスクにおいて、強力な一般化とゼロショット認識能力を示している。
動的プロトタイプ学習に基づく3次元VLFMのための新しいトレーニング不要オンラインテスト時間適応戦略であるUni-Adapterを提案する。
- 参考スコア(独自算出の注目度): 4.9608847222581005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Vision-Language Foundation Models (VLFMs) have shown strong generalization and zero-shot recognition capabilities in open-world point cloud processing tasks. However, these models often underperform in practical scenarios where data are noisy, incomplete, or drawn from a different distribution than the training data. To address this, we propose Uni-Adapter, a novel training-free online test-time adaptation (TTA) strategy for 3D VLFMs based on dynamic prototype learning. We define a 3D cache to store class-specific cluster centers as prototypes, which are continuously updated to capture intra-class variability in heterogeneous data distributions. These dynamic prototypes serve as anchors for cache-based logit computation via similarity scoring. Simultaneously, a graph-based label smoothing module captures inter-prototype similarities to enforce label consistency among similar prototypes. Finally, we unify predictions from the original 3D VLFM and the refined 3D cache using entropy-weighted aggregation for reliable adaptation. Without retraining, Uni-Adapter effectively mitigates distribution shifts, achieving state-of-the-art performance on diverse 3D benchmarks over different 3D VLFMs, improving ModelNet-40C by 10.55%, ScanObjectNN-C by 8.26%, and ShapeNet-C by 4.49% over the source 3D VLFMs.
- Abstract(参考訳): 3D Vision-Language Foundation Models (VLFMs) は、オープンワールドのポイントクラウド処理タスクにおいて、強力な一般化とゼロショット認識能力を示している。
しかし、これらのモデルは、データがノイズ、不完全、あるいはトレーニングデータとは異なる分布から引き出されるような実践的なシナリオでは、しばしば性能が劣る。
そこで我々は,動的プロトタイプ学習に基づく3次元VLFMのための新しいトレーニングフリーオンラインテスト時間適応(TTA)戦略であるUni-Adapterを提案する。
我々は,クラス固有のクラスタセンターをプロトタイプとして格納する3Dキャッシュを定義した。
これらの動的なプロトタイプは、類似性スコアリングによるキャッシュベースのロジット計算のアンカーとして機能する。
グラフベースのラベル平滑化モジュールは、類似したプロトタイプ間でラベルの一貫性を強制するために、プロトタイプ間の類似性をキャプチャする。
最後に、エントロピー重み付けアグリゲーションを用いて、元の3D VLFMと改良された3Dキャッシュからの予測を統合する。
再トレーニングなしでは、Uni-Adapterは分散シフトを効果的に軽減し、様々な3D VLFM上で様々な3Dベンチマークで最先端のパフォーマンスを実現し、ModelNet-40Cを10.55%改善し、ScanObjectNN-Cを8.26%改善し、ShapeNet-Cを4.49%改善した。
関連論文リスト
- Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。