論文の概要: AMoE: Agglomerative Mixture-of-Experts Vision Foundation Model
- arxiv url: http://arxiv.org/abs/2512.20157v1
- Date: Tue, 23 Dec 2025 08:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.800672
- Title: AMoE: Agglomerative Mixture-of-Experts Vision Foundation Model
- Title(参考訳): AMoE:Agglomerative Mixture-of-Experts Vision Foundation Model
- Authors: Sofian Chaybouti, Sanath Narayan, Yasser Dahou, Phúc H. Lê Khac, Ankit Singh, Ngoc Dung Huynh, Wamiq Reyaz Para, Hilde Kuehne, Hakim Hacid,
- Abstract要約: 本研究では,視覚基礎モデルの多教師蒸留について検討し,計算コストの低いトレーニングを可能にする重要な要因を同定する。
本稿では,SigLIP2 と DINOv3 から知識を同時に抽出する AMOE (Agglomerative Mixture-of-Experts Vision Foundation Models) について紹介する。
非対称な関係知識蒸留損失は,教師の幾何学的特性を保ちながら,効果的な知識伝達を可能にしていることを示す。
- 参考スコア(独自算出の注目度): 23.785186661138734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision foundation models trained via multi-teacher distillation offer a promising path toward unified visual representations, yet the learning dynamics and data efficiency of such approaches remain underexplored. In this paper, we systematically study multi-teacher distillation for vision foundation models and identify key factors that enable training at lower computational cost. We introduce Agglomerative Mixture-of-Experts Vision Foundation Models (AMoE), which distill knowledge from SigLIP2 and DINOv3 simultaneously into a Mixture-of-Experts student. We show that (1) our Asymmetric Relation-Knowledge Distillation loss preserves the geometric properties of each teacher while enabling effective knowledge transfer, (2) token-balanced batching that packs varying-resolution images into sequences with uniform token budgets stabilizes representation learning across resolutions without sacrificing performance, and (3) hierarchical clustering and sampling of training data--typically reserved for self-supervised learning--substantially improves sample efficiency over random sampling for multi-teacher distillation. By combining these findings, we curate OpenLVD200M, a 200M-image corpus that demonstrates superior efficiency for multi-teacher distillation. Instantiated in a Mixture-of-Experts. We release OpenLVD200M and distilled models.
- Abstract(参考訳): マルチティーチンガー蒸留により訓練された視覚基礎モデルは、統一された視覚表現への有望な道を提供するが、そのようなアプローチの学習力学とデータ効率は未解明のままである。
本稿では,視覚基礎モデルのマルチティーチンガー蒸留を体系的に研究し,計算コストの低いトレーニングを可能にする重要な要因を同定する。
本稿では,SigLIP2 と DINOv3 から知識を同時に抽出する AMOE (Agglomerative Mixture-of-Experts Vision Foundation Models) について紹介する。
筆者らの非対称関係知識蒸留損失は, 効果的な知識伝達を可能とし, 教師の幾何学的特性を保ちつつ, 種々の解像度の画像を均一なトークン予算を持つシーケンスにまとめるトークンバランスのバッチ化は, 性能を損なうことなく, 解像度間での表現学習を安定化させ, 学習データの階層的クラスタリングとサンプリングを行い, 自己教師付き学習に特化して予約される。
これらの知見を組み合わせることで,マルチティーチングラー蒸留において優れた効率を示す200M画像コーパスであるOpenLVD200Mをキュレートする。
Mixture-of-Experts の略。
我々はOpenLVD200Mと蒸留モデルをリリースする。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。
評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T08:31:30Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Self-Supervised Monocular Depth Estimation with Self-Reference
Distillation and Disparity Offset Refinement [15.012694052674899]
自己教師付き単分子深度推定を改善するための2つの新しいアイデアを提案する。
我々は,教師が訓練の時期に合わせて更新したパラメータ最適化モデルを用いて,さらなる指導を行う。
我々は,高次特徴量と低次特徴量とのコンテキスト整合性を利用して,マルチスケールの相違オフセットを得る。
論文 参考訳(メタデータ) (2023-02-20T06:28:52Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。