論文の概要: DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers
- arxiv url: http://arxiv.org/abs/2503.14405v2
- Date: Mon, 24 Mar 2025 14:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:55.360772
- Title: DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers
- Title(参考訳): DUNE:不均一な2Dと3Dの教師からユニバーサルエンコーダを蒸留
- Authors: Mert Bulent Sariyildiz, Philippe Weinzaepfel, Thomas Lucas, Pau de Jorge, Diane Larlus, Yannis Kalantidis,
- Abstract要約: 本稿では,2次元視覚,3次元理解,3次元知覚に優れた単一エンコーダであるDUNEを紹介する。
我々のモデルは、より大きな教師に匹敵するパフォーマンスを達成し、時には、それぞれのタスクにおいて彼らよりも優れています。
- 参考スコア(独自算出の注目度): 28.915709453330383
- License:
- Abstract: Recent multi-teacher distillation methods have unified the encoders of multiple foundation models into a single encoder, achieving competitive performance on core vision tasks like classification, segmentation, and depth estimation. This led us to ask: Could similar success be achieved when the pool of teachers also includes vision models specialized in diverse tasks across both 2D and 3D perception? In this paper, we define and investigate the problem of heterogeneous teacher distillation, or co-distillation, a challenging multi-teacher distillation scenario where teacher models vary significantly in both (a) their design objectives and (b) the data they were trained on. We explore data-sharing strategies and teacher-specific encoding, and introduce DUNE, a single encoder excelling in 2D vision, 3D understanding, and 3D human perception. Our model achieves performance comparable to that of its larger teachers, sometimes even outperforming them, on their respective tasks. Notably, DUNE surpasses MASt3R in Map-free Visual Relocalization with a much smaller encoder.
- Abstract(参考訳): 近年のマルチティーチンガー蒸留法では,複数の基礎モデルのエンコーダを単一エンコーダに統一し,分類,セグメンテーション,深さ推定といったコアビジョンタスクにおける競合性能を実現している。
教師のプールには、2Dと3Dの両方の知覚にまたがる様々なタスクに特化した視覚モデルも含まれています。
本稿では, 教師モデルが大きく異なる多教師蒸留の課題である, 不均質な教員蒸留, 共蒸留の問題を定義し, 検討する。
a) 設計上の目的と
b) トレーニングされたデータ。
データ共有戦略と教師固有のエンコーディングについて検討し,2次元視覚,3次元理解,3次元人間の知覚に優れた単一エンコーダであるDUNEを紹介する。
我々のモデルは、それぞれのタスクにおいて、より大きな教師のそれと同等のパフォーマンスを達成し、時には彼らよりも優れています。
特に、DUNEはMap-free Visual RelocalizationにおいてMASt3Rをはるかに上回り、エンコーダはずっと小さい。
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Dual-Teacher Ensemble Models with Double-Copy-Paste for 3D Semi-Supervised Medical Image Segmentation [31.460549289419923]
半教師付き学習(SSL)技術は、3次元医用画像セグメンテーションの高ラベリングコストに対処する。
本稿では,サンプルの特性に基づいて異なるアンサンブル法を選択するSSE(Staged Selective Ensemble)モジュールを提案する。
3次元医用画像分割作業における提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-10-15T11:23:15Z) - Diffusion Time-step Curriculum for One Image to 3D Generation [91.07638345953016]
テキストバッフル画像から3Dオブジェクトを再構成する際の見知らぬ視点の欠如を克服するために,スコア蒸留サンプリング(SDS)が広く採用されている。
最適化中の拡散時間ステップの無差別な処理方法として,クルックスが見過ごされていることが判明した。
本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline (DTC123)を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:03:18Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - X$^3$KD: Knowledge Distillation Across Modalities, Tasks and Stages for
Multi-Camera 3D Object Detection [45.32989526953387]
本稿では,X$3$KDについて紹介する。X$3$KDはマルチカメラ3DODのための様々なモダリティ,タスク,ステージにまたがる総合的な知識蒸留フレームワークである。
変換後,マルチカメラ特徴の3次元世界表現を改善するために,クロスモーダルな特徴蒸留 (X-FD) と対角訓練 (X-AT) を適用した。
最終的なX$3$KDモデルは、nuScenesとデータセットに関する従来の最先端アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-03-03T20:29:49Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。