論文の概要: Foundry: Distilling 3D Foundation Models for the Edge
- arxiv url: http://arxiv.org/abs/2511.20721v1
- Date: Tue, 25 Nov 2025 07:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.789552
- Title: Foundry: Distilling 3D Foundation Models for the Edge
- Title(参考訳): Foundry: エッジ用の3Dファンデーションモデルを蒸留する
- Authors: Guillaume Letellier, Siddharth Srivastava, Frédéric Jurie, Gaurav Sharma,
- Abstract要約: Foundation Model Distillation (FMD)は、大規模なSSLモデルをコンパクトプロキシに圧縮するための新しいパラダイムである。
3DポイントクラウドのためのFMDの最初の実装であるFoundryを紹介します。
- 参考スコア(独自算出の注目度): 15.177160184417575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models pre-trained with self-supervised learning (SSL) on large-scale datasets have become powerful general-purpose feature extractors. However, their immense size and computational cost make them prohibitive for deployment on edge devices such as robots and AR/VR headsets. Existing compression techniques like standard knowledge distillation create efficient 'specialist' models but sacrifice the crucial, downstream-agnostic generality that makes foundation models so valuable. In this paper, we introduce Foundation Model Distillation (FMD), a new paradigm for compressing large SSL models into compact, efficient, and faithful proxies that retain their general-purpose representational power. We present Foundry, the first implementation of FMD for 3D point clouds. Our approach, Foundry, trains a student to learn a compressed set of SuperTokens that reconstruct the teacher's token-level representations, capturing a compact basis of its latent space. A single distilled model maintains strong transferability across diverse downstream tasks-classification, part segmentation, and few-shot scenarios-approaching full foundation-model performance while using significantly fewer tokens and FLOPs, making such models more practical for deployment on resourceconstrained hardware.
- Abstract(参考訳): 大規模データセット上の自己教師付き学習(SSL)で事前訓練されたファンデーションモデルは、強力な汎用的特徴抽出器となっている。
しかし、その巨大なサイズと計算コストは、ロボットやAR/VRヘッドセットのようなエッジデバイスへの展開を禁止している。
標準的な知識蒸留のような既存の圧縮技術は効率的な「特殊主義者」モデルを生み出すが、基礎モデルに価値をもたらす重要な下流に依存しない一般性を犠牲にする。
本稿では,大規模なSSLモデルを汎用表現力を保持するコンパクトで効率的で忠実なプロキシに圧縮するための新しいパラダイムであるFoundation Model Distillation (FMD)を紹介する。
3DポイントクラウドのためのFMDの最初の実装であるFoundryを紹介します。
私たちのアプローチであるFoundryは、教師のトークンレベルの表現を再構築する、圧縮されたSuperTokenセットを学ぶように、学生に訓練します。
単一の蒸留モデルでは、さまざまな下流タスクの分類、部分セグメンテーション、少数ショットシナリオに対する強力な転送可能性を維持しながら、トークンやFLOPを著しく少なくし、リソース制約のあるハードウェアへの展開をより実用的なものにしている。
関連論文リスト
- Revealing the Power of Post-Training for Small Language Models via Knowledge Distillation [43.68215777330875]
我々は,小型モデルの精度を効果的に向上する,系統的な後学習パイプラインを導入する。
結果として得られた命令調整モデルにより、最先端のパフォーマンスが達成される。
この研究は、Ascendエッジデバイス上で高性能言語モデルを開発するための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-30T16:40:55Z) - FedPromo: Federated Lightweight Proxy Models at the Edge Bring New Domains to Foundation Models [16.83959862897466]
Federated Learning(FL)は、分散データ上でディープラーニングモデルをトレーニングするための確立したパラダイムである。
我々はFedPromoを紹介した。FedPromoは、中央サーバに格納された大規模基盤モデルの、リモートクライアントのみにのみ遭遇する新しいドメインへの効率的な適応を可能にする新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T12:00:49Z) - KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model [63.13906424204078]
本稿では, 汎用的でコンパクトな埋め込みモデルである KaLM-Embedding-V2 を提案する。
モデルアーキテクチャでは、0.5Bのコンパクトなサイズでモデルを実装し、固定長の埋め込みを生成する。
トレーニングデータでは, プレトレーニング用20種, 微調整用100種, コントラスト蒸留用100種をキュレートする。
論文 参考訳(メタデータ) (2025-06-26T01:09:44Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、専門的な深層モデルから汎用的な基礎モデルへと進化してきた。
LLMは、ローカルデータセットの微調整と、ネットワークエッジ上のデプロイメントのためのかなりのメモリを必要とする。
LLMは、画像、オーディオ、ビデオ、マルチモーダルコンテンツを作成するために、テキスト生成を超えて拡張されている。
LLMの持続的成長を支援するため,モデル微調整およびモデル圧縮技術が開発されている。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Generic-to-Specific Distillation of Masked Autoencoders [119.21281960831651]
マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。
G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
論文 参考訳(メタデータ) (2023-02-28T17:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。