論文の概要: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models
- arxiv url: http://arxiv.org/abs/2403.11691v1
- Date: Mon, 18 Mar 2024 11:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:28:10.298065
- Title: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models
- Title(参考訳): TTT-KD:基礎モデルからの知識蒸留による3次元セマンティックセマンティックセグメンテーションの試験時間トレーニング
- Authors: Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla,
- Abstract要約: テストタイムトレーニング(TTT)では、事前トレーニングされたネットワークをオンザフライでのデータ分散を変更することを提案する。
本稿では,基礎モデルから知識蒸留(KD)をモデル化した3次元セマンティックセマンティックセグメンテーションのための最初のTTT手法TTT-KDを提案する。
我々は,OOD試験試料に適用した場合,列車と試験分布が類似している場合,最大13% mIoU (平均7%) ,最大45% (平均20%) を得ることができた。
- 参考スコア(独自算出の注目度): 6.044058032251472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-Time Training (TTT) proposes to adapt a pre-trained network to changing data distributions on-the-fly. In this work, we propose the first TTT method for 3D semantic segmentation, TTT-KD, which models Knowledge Distillation (KD) from foundation models (e.g. DINOv2) as a self-supervised objective for adaptation to distribution shifts at test-time. Given access to paired image-pointcloud (2D-3D) data, we first optimize a 3D segmentation backbone for the main task of semantic segmentation using the pointclouds and the task of 2D $\to$ 3D KD by using an off-the-shelf 2D pre-trained foundation model. At test-time, our TTT-KD updates the 3D segmentation backbone for each test sample, by using the self-supervised task of knowledge distillation, before performing the final prediction. Extensive evaluations on multiple indoor and outdoor 3D segmentation benchmarks show the utility of TTT-KD, as it improves performance for both in-distribution (ID) and out-of-distribution (ODO) test datasets. We achieve a gain of up to 13% mIoU (7% on average) when the train and test distributions are similar and up to 45% (20% on average) when adapting to OOD test samples.
- Abstract(参考訳): テストタイムトレーニング(TTT)では、事前トレーニングされたネットワークをオンザフライでのデータ分散を変更することを提案する。
本研究では, 基礎モデル (eg DINOv2) から知識蒸留 (KD) をモデル化した3次元セマンティックセマンティックセグメンテーションのための最初のTT法TTT-KDを提案する。
ペア画像ポイントクラウド(2D-3D)データへのアクセスを前提として、まず、ポイントクラウドを用いたセマンティックセマンティックセマンティクスのメインタスクのための3Dセマンティクスバックボーンを最適化し、2D$\to$3D KDのタスクをオフザシェルフ2D事前訓練基礎モデルを用いて行う。
TTT-KDは,最終予測を行う前に,知識蒸留の自己指導タスクを用いて,各試験試料の3Dセグメンテーションバックボーンを更新する。
複数の屋内および屋外の3Dセグメンテーションベンチマークに対する広範囲な評価は、TTT-KDの有用性を示し、分散内(ID)およびアウト・オブ・ディストリビューション(ODO)テストデータセットの性能を改善している。
我々は,OOD試験試料に適用した場合,列車と試験分布が類似している場合,最大13% mIoU (平均7%) ,最大45% (平均20%) を得ることができた。
関連論文リスト
- PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via
Foundation Models [53.45712917347696]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する、新しいトレーニングフリーパラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
このアプローチは,ScanNet,ScanNet++,KITTI-360データセット上の13.4$%,11.3$%,12$%のmAPで最先端のスペシャリストモデルを大幅に上回る。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - Less is More: Towards Efficient Few-shot 3D Semantic Segmentation via
Training-free Networks [34.758951766323136]
3Dのスプリットショットセグメンテーション手法はまず、見知らぬクラスのモデルの事前トレーニングを行い、見つからないクラスのモデルのパフォーマンスを評価する。
トレーニング不要なFew-shot 3D netwrok,3D,さらにトレーニングベースの変種である3DTを提案する。
実験では、S3DISとScanNetで従来の最先端手法を+6.93%、+17.96%のmIoUで改善し、トレーニング時間を-90%短縮した。
論文 参考訳(メタデータ) (2023-08-24T17:58:03Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - MATE: Masked Autoencoders are Online 3D Test-Time Learners [63.3907730920114]
MATEは3Dデータ用に設計された最初のTTT(Test-Time-Training)手法である。
テストデータで発生する分散シフトに対して、ポイントクラウド分類のためにトレーニングされたディープネットワークを堅牢にする。
論文 参考訳(メタデータ) (2022-11-21T13:19:08Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - Self-Supervised 3D Monocular Object Detection by Recycling Bounding
Boxes [3.3299316770988625]
本稿では, ランダムウィンドウをプレテキストタスクとしてラベル付けすることで, 自己教師付きバウンディングボックスリサイクルの確立について検討する。
また,mAP 3Dでは2~3%,BEVでは0.9~1.5%,SSLではベースラインスコアでは0.9~1.5%の改善が見られた。
論文 参考訳(メタデータ) (2022-06-25T21:48:43Z) - Delving into the Pre-training Paradigm of Monocular 3D Object Detection [10.07932482761621]
単分子3次元物体検出(M3OD)のための事前学習パラダイムについて検討する。
本稿では,このベースラインをさらに改善するためのいくつかの戦略を提案する。主に,目標とする半深度推定,キーポイント認識2Dオブジェクト検出,クラスレベルの損失調整などである。
開発したすべての技術を組み合わせることで、得られた事前学習フレームワークは、KITTI-3DおよびnuScenesベンチマーク上でM3OD性能を大幅に向上させる事前学習されたバックボーンを生成する。
論文 参考訳(メタデータ) (2022-06-08T03:01:13Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。