Fugu-MT 論文翻訳(概要): TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models

論文の概要: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models

arxiv url: http://arxiv.org/abs/2403.11691v1
Date: Mon, 18 Mar 2024 11:41:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 15:28:10.298065
Title: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models
Title（参考訳）: TTT-KD:基礎モデルからの知識蒸留による3次元セマンティックセマンティックセグメンテーションの試験時間トレーニング
Authors: Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla,
Abstract要約: テストタイムトレーニング(TTT)では、事前トレーニングされたネットワークをオンザフライでのデータ分散を変更することを提案する。本稿では,基礎モデルから知識蒸留(KD)をモデル化した3次元セマンティックセマンティックセグメンテーションのための最初のTTT手法TTT-KDを提案する。我々は,OOD試験試料に適用した場合,列車と試験分布が類似している場合,最大13% mIoU (平均7%) ,最大45% (平均20%) を得ることができた。
参考スコア（独自算出の注目度）: 6.044058032251472
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-Time Training (TTT) proposes to adapt a pre-trained network to changing data distributions on-the-fly. In this work, we propose the first TTT method for 3D semantic segmentation, TTT-KD, which models Knowledge Distillation (KD) from foundation models (e.g. DINOv2) as a self-supervised objective for adaptation to distribution shifts at test-time. Given access to paired image-pointcloud (2D-3D) data, we first optimize a 3D segmentation backbone for the main task of semantic segmentation using the pointclouds and the task of 2D $\to$ 3D KD by using an off-the-shelf 2D pre-trained foundation model. At test-time, our TTT-KD updates the 3D segmentation backbone for each test sample, by using the self-supervised task of knowledge distillation, before performing the final prediction. Extensive evaluations on multiple indoor and outdoor 3D segmentation benchmarks show the utility of TTT-KD, as it improves performance for both in-distribution (ID) and out-of-distribution (ODO) test datasets. We achieve a gain of up to 13% mIoU (7% on average) when the train and test distributions are similar and up to 45% (20% on average) when adapting to OOD test samples.
Abstract（参考訳）: テストタイムトレーニング(TTT)では、事前トレーニングされたネットワークをオンザフライでのデータ分散を変更することを提案する。本研究では, 基礎モデル (eg DINOv2) から知識蒸留 (KD) をモデル化した3次元セマンティックセマンティックセグメンテーションのための最初のTT法TTT-KDを提案する。ペア画像ポイントクラウド(2D-3D)データへのアクセスを前提として、まず、ポイントクラウドを用いたセマンティックセマンティックセマンティクスのメインタスクのための3Dセマンティクスバックボーンを最適化し、2D$\to$3D KDのタスクをオフザシェルフ2D事前訓練基礎モデルを用いて行う。 TTT-KDは,最終予測を行う前に,知識蒸留の自己指導タスクを用いて,各試験試料の3Dセグメンテーションバックボーンを更新する。複数の屋内および屋外の3Dセグメンテーションベンチマークに対する広範囲な評価は、TTT-KDの有用性を示し、分散内(ID)およびアウト・オブ・ディストリビューション(ODO)テストデータセットの性能を改善している。我々は,OOD試験試料に適用した場合,列車と試験分布が類似している場合,最大13% mIoU (平均7%) ,最大45% (平均20%) を得ることができた。

関連論文リスト

TeDA: Boosting Vision-Lanuage Models for Zero-Shot 3D Object Retrieval via Testing-time Distribution Alignment [14.535056813802527]
テスト時間分布アライメント(TeDA)は、テスト時に未知の3次元オブジェクトの検索に事前訓練された2次元視覚言語モデルCLIPを適用する新しいフレームワークである。 TeDAは3Dオブジェクトをマルチビューイメージに投影し、CLIPを使って機能を抽出し、3Dクエリの埋め込みを洗練する。 4つのオープンセットの3Dオブジェクト検索ベンチマークの実験により、TeDAは最先端の手法を大幅に上回ることを示した。
論文参考訳（メタデータ） (2025-05-05T02:47:07Z)
SAM-Guided Masked Token Prediction for 3D Scene Understanding [20.257222696422215]
ファンデーションモデルは2Dタスクのパフォーマンスを大幅に向上させており、Bridge3Dのような最近の研究はこれらのモデルを用いて3Dシーン理解を改善している。しかし、3次元データセットにおける2次元と3次元の表現の不一致や長期分布といった課題は、知識蒸留の有効性を制限している。本稿では,3次元変圧器構造と地域レベルの知識蒸留をシームレスに整合させる新しいSAM誘導トークン化手法を提案する。
論文参考訳（メタデータ） (2024-10-16T01:38:59Z)
Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文参考訳（メタデータ） (2024-09-12T14:54:31Z)
Enhancing Single-Slice Segmentation with 3D-to-2D Unpaired Scan Distillation [21.69523493833432]
本研究では, 事前学習した3次元モデルを用いて, 2次元単一スライスセグメンテーションを向上する新しい3D-to-2D蒸留フレームワークを提案する。同じデータ入力を必要とする従来の知識蒸留法とは異なり、我々のアプローチでは、2次元の学生モデルをガイドするために、コントラストのない3次元CTスキャンを採用しています。
論文参考訳（メタデータ） (2024-06-18T04:06:02Z)
3D Annotation-Free Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving [17.42913935045091]
2D textbf Open-textbfVocabulary セグメンテーションモデルを用いた新しい3D textbf Annotation-textbfFree フレームワーク AFOV を提案する。第一段階では、2次元オープン語彙モデルの高品質テキストと画像の特徴を革新的に統合し、TMP(Tri-Modal contrastive Pre-training)を提案する。第2段階では、点雲と画像の間の空間マッピングを利用して擬似ラベルを生成し、交差を可能にする。
論文参考訳（メタデータ） (2024-05-24T07:18:09Z)
PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。 PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。 ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-03-11T03:28:20Z)
3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。対象を逆向きに変形させるベクトルの集合を学習する。本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文参考訳（メタデータ） (2023-08-29T17:58:55Z)
Less is More: Towards Efficient Few-shot 3D Semantic Segmentation via Training-free Networks [34.758951766323136]
3Dのスプリットショットセグメンテーション手法はまず、見知らぬクラスのモデルの事前トレーニングを行い、見つからないクラスのモデルのパフォーマンスを評価する。トレーニング不要なFew-shot 3D netwrok,3D,さらにトレーニングベースの変種である3DTを提案する。実験では、S3DISとScanNetで従来の最先端手法を+6.93%、+17.96%のmIoUで改善し、トレーニング時間を-90%短縮した。
論文参考訳（メタデータ） (2023-08-24T17:58:03Z)
CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文参考訳（メタデータ） (2023-01-12T10:42:39Z)
MATE: Masked Autoencoders are Online 3D Test-Time Learners [63.3907730920114]
MATEは3Dデータ用に設計された最初のTTT(Test-Time-Training)手法である。テストデータで発生する分散シフトに対して、ポイントクラウド分類のためにトレーニングされたディープネットワークを堅牢にする。
論文参考訳（メタデータ） (2022-11-21T13:19:08Z)
TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2022-09-23T07:47:33Z)
Delving into the Pre-training Paradigm of Monocular 3D Object Detection [10.07932482761621]
単分子3次元物体検出(M3OD)のための事前学習パラダイムについて検討する。本稿では,このベースラインをさらに改善するためのいくつかの戦略を提案する。主に,目標とする半深度推定,キーポイント認識2Dオブジェクト検出,クラスレベルの損失調整などである。開発したすべての技術を組み合わせることで、得られた事前学習フレームワークは、KITTI-3DおよびnuScenesベンチマーク上でM3OD性能を大幅に向上させる事前学習されたバックボーンを生成する。
論文参考訳（メタデータ） (2022-06-08T03:01:13Z)
ST3D: Self-training for Unsupervised Domain Adaptation on 3D ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文参考訳（メタデータ） (2021-03-09T10:51:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。