論文の概要: Distill3R: A Pipeline for Democratizing 3D Foundation Models on Commodity Hardware
- arxiv url: http://arxiv.org/abs/2602.00865v1
- Date: Sat, 31 Jan 2026 18:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.44057
- Title: Distill3R: A Pipeline for Democratizing 3D Foundation Models on Commodity Hardware
- Title(参考訳): Distill3R:コモディティハードウェア上での3Dファウンデーションモデルを民主化するためのパイプライン
- Authors: Brandon Leblanc, Charalambos Poullis,
- Abstract要約: Distill3Rは、3D基礎モデルの幾何学的推論を1台のワークステーションで完全に訓練可能なコンパクトな学生に蒸留するために設計されたフレームワークである。
提案手法は,(1)教師の重度推論を訓練ループから圧縮した監視信号で分離するオフラインキャッシュパイプライン,(2)教師の不確実性を活用して,コモディティハードウェア上でのトレーニングを可能にする信頼度の高い蒸留損失の2つの主要なイノベーションに焦点を当てた。
- 参考スコア(独自算出の注目度): 2.676349883103404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multi-view 3D reconstruction has shifted toward large-scale foundation models capable of inferring globally consistent geometry, their reliance on massive computational clusters for training has created a significant barrier to entry for most academic laboratories. To bridge this compute divide, we introduce Distill3R, a framework designed to distill the geometric reasoning of 3D foundation models into compact students fully trainable on a single workstation. Our methodology centers on two primary innovations: (1) an offline caching pipeline that decouples heavy teacher inference from the training loop through compressed supervision signals, and (2) a confidence-aware distillation loss that leverages teacher uncertainty to enable training on commodity hardware. We propose a 72M-parameter student model which achieves a 9x reduction in parameters and a 5x inference speedup compared to its 650M-parameter teacher. The student is fully trainable in under 3 days on a single workstation, whereas its teacher requires massive GPU clusters for up to a week. We demonstrate that the student preserves the structural consistency and qualitative geometric understanding required for functional 3D awareness. By providing a reproducible, single-workstation training recipe, Distill3R serves as an exploratory entry point for democratized 3D vision research and efficient edge deployment. This work is not intended to compete with state-of-the-art foundation models, but to provide an accessible research baseline for laboratories without access to large-scale compute to train and specialize models on their own domain-specific data at minimal cost.
- Abstract(参考訳): 多視点3D再構成は、グローバルに一貫した幾何学を推定できる大規模な基礎モデルへと移行してきたが、訓練のための大規模な計算クラスタへの依存は、ほとんどの学術研究所にとって大きな障壁となっている。
この計算分割を橋渡しするために、3次元基礎モデルの幾何学的推論を1台のワークステーションで完全に訓練可能なコンパクトな学生に蒸留するフレームワークであるDistill3Rを導入する。
提案手法は,(1)教師の重度推論を訓練ループから圧縮した監視信号で分離するオフラインキャッシュパイプライン,(2)教師の不確実性を活用して,コモディティハードウェア上でのトレーニングを可能にする信頼度の高い蒸留損失の2つの主要なイノベーションに焦点を当てた。
本研究では,パラメータの9倍の削減と5倍の推論高速化を実現する72Mパラメータ学生モデルを提案する。
学生は1つのワークステーションで3日以内に完全にトレーニングできるが、教師は最大1週間、大量のGPUクラスタを必要とする。
機能的3次元認識に必要な構造的一貫性と定性的幾何学的理解を学生が保持していることが実証された。
再現可能な単一ワークステーションのトレーニングレシピを提供することで、Distill3Rは3D視覚研究の民主化と効率的なエッジ展開のための探索的なエントリポイントとして機能する。
この研究は、最先端の基盤モデルと競合することを目的としていないが、大規模な計算にアクセスせずに、最小限のコストで自身のドメイン固有データ上でモデルを訓練し、専門化するための実験室向けのアクセス可能な研究ベースラインを提供することを目的としている。
関連論文リスト
- TAP-CT: 3D Task-Agnostic Pretraining of Computed Tomography Foundation Models [39.00742360251856]
医療領域における既存の基礎モデル(FM)は、広範囲の微調整を必要とする場合や、リソース集約型デコーダの訓練に頼っている場合が多い。
我々は,CT基盤モデル(TAP-CT)のタスクに依存しない事前学習スイートを紹介する。
提案手法では,埋め込み,位置エンコーディング,ボリューム拡張のパッチ修正を対象とし,アーキテクチャの奥行きを認識している。
論文 参考訳(メタデータ) (2025-11-30T12:43:15Z) - Multimodal Robust Prompt Distillation for 3D Point Cloud Models [16.319048523015773]
アドリアックは、学習ベースの3Dポイントクラウドモデルに重大な脅威をもたらす。
頑健な3次元点雲を蒸留するためのMRPD (Multimodal Robust Prompt Distillation) を提案する。
学生ポイントクラウドモデルの機能を、3つの異なる教師の堅牢な埋め込みと整合させることで、軽量なプロンプトを学ぶ。
論文 参考訳(メタデータ) (2025-11-26T16:49:38Z) - Foundry: Distilling 3D Foundation Models for the Edge [15.177160184417575]
Foundation Model Distillation (FMD)は、大規模なSSLモデルをコンパクトプロキシに圧縮するための新しいパラダイムである。
3DポイントクラウドのためのFMDの最初の実装であるFoundryを紹介します。
論文 参考訳(メタデータ) (2025-11-25T07:53:56Z) - cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning [55.16668009268005]
3つの入力モードを同時に処理するマルチモーダルCAD再構成モデルを提案する。
大規模プロシージャ生成データに対する教師付き微調整(SFT)と,オンラインフィードバックを用いた強化学習(RL)の2段階パイプラインをプログラム的に取得した。
DeepCADベンチマークでは、SFTモデルは3つの入力モードすべてにおいて既存の単一モードアプローチを同時に上回ります。
論文 参考訳(メタデータ) (2025-05-28T22:32:31Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [20.379104447051155]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - Towards Efficient 3D Object Detection with Knowledge Distillation [38.89710768280703]
効率的な3次元物体検出器開発のための知識蒸留の可能性を探る。
私たちの最高のパフォーマンスモデルは、65.75%$2 mAPHに達し、教師モデルを超え、わずか44%の教師フロップしか必要としない。
私たちの最も効率的なモデルは、NVIDIA A100上で51 FPSで動作します。
論文 参考訳(メタデータ) (2022-05-30T15:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。