論文の概要: Mixture of Experts in Image Classification: What's the Sweet Spot?
- arxiv url: http://arxiv.org/abs/2411.18322v2
- Date: Fri, 24 Oct 2025 17:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.771261
- Title: Mixture of Experts in Image Classification: What's the Sweet Spot?
- Title(参考訳): 画像分類のエキスパートの混在:スイートスポットとは?
- Authors: Mathurin Videau, Alessandro Leite, Marc Schoenauer, Olivier Teytaud,
- Abstract要約: オープンデータセットを用いた画像分類アーキテクチャにおけるMoE層の統合について検討する。
サンプルあたりの中間パラメータのアクティベーションは、パフォーマンスと効率の最良のトレードオフを提供します。
MoE層は、小型・中型モデルが最も効果的に強化され、大容量ネットワークではテーパーオフになる。
- 参考スコア(独自算出の注目度): 41.72573567802606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models have shown promising potential for parameter-efficient scaling across domains. However, their application to image classification remains limited, often requiring billion-scale datasets to be competitive. In this work, we explore the integration of MoE layers into image classification architectures using open datasets. We conduct a systematic analysis across different MoE configurations and model scales. We find that moderate parameter activation per sample provides the best trade-off between performance and efficiency. However, as the number of activated parameters increases, the benefits of MoE diminish. Our analysis yields several practical insights for vision MoE design. First, MoE layers most effectively strengthen tiny and mid-sized models, while gains taper off for large-capacity networks and do not redefine state-of-the-art ImageNet performance. Second, a Last-2 placement heuristic offers the most robust cross-architecture choice, with Every-2 slightly better for Vision Transform (ViT), and both remaining effective as data and model scale increase. Third, larger datasets (e.g., ImageNet-21k) allow more experts, up to 16, for ConvNeXt to be utilized effectively without changing placement, as increased data reduces overfitting and promotes broader expert specialization. Finally, a simple linear router performs best, suggesting that additional routing complexity yields no consistent benefit.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、ドメイン間のパラメータ効率のスケーリングに有望な可能性を示している。
しかし、画像分類へのその応用は限定的であり、何十億ものデータセットを競合させる必要がしばしばある。
本研究では,オープンデータセットを用いた画像分類アーキテクチャへのMoE層の統合について検討する。
異なるMOE構成とモデルスケールの体系的な分析を行う。
サンプルあたりの中間パラメータのアクティベーションは、パフォーマンスと効率の最良のトレードオフを提供します。
しかし、活性化パラメータの数が増加するにつれて、MoEの利点は減少する。
この分析により,視覚型MoE設計の実践的知見が得られた。
第一に、MoE層は小さなモデルと中規模のモデルを効果的に強化する一方、大容量ネットワークではテーパーを外し、最先端のImageNetのパフォーマンスを再定義しない。
第2に、Last-2配置ヒューリスティックは最も堅牢なアーキテクチャ選択を提供し、Every-2はVision Transform(ViT)にわずかに優れている。
第3に、より大きなデータセット(例えばImageNet-21k)により、より多くの専門家が、ConvNeXtが配置を変更することなく効果的に利用できるようになる。
最後に、単純な線形ルータが最善を尽くし、追加のルーティングの複雑さが一貫した利益をもたらすことはないことを示唆する。
関連論文リスト
- MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness [12.059149430757863]
Mix-of-Experts (MoE) はLarge Language Models (LLM) のメインフォームとなった。
MoQaは、複数の分析段階におけるMoEのデータモデル分布の複雑さを分離する。
実験の結果、MoQaは言語モデリングタスクの1.692.18パープレキシティ低下と、ゼロショット推論タスクの1.58%8.91%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-03-27T03:52:25Z) - Multi-Scale and Multimodal Species Distribution Modeling [4.022195138381868]
種分布モデル (SDM) は, 発生データと環境変数の分布を予測することを目的としている。
SDMへのディープラーニングの最近の応用は、特に空間データを含む新しい道を可能にしている。
我々はSDMのモジュール構造を開発し、シングルスケールとマルチスケールの両方でスケールの効果をテストする。
GeoLifeCLEF 2023ベンチマークの結果は、マルチモーダルデータとマルチスケール表現の学習を考えると、より正確なモデルが得られることを示している。
論文 参考訳(メタデータ) (2024-11-06T15:57:20Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis [0.7751705157998379]
十分に注釈付けされた医療データセットの不足は、ImageNetのような広範なデータセットやCLIPのような事前訓練されたモデルからの移行学習を活用する必要がある。
モデルスープは、In-Domain(ID)タスクのパフォーマンスを改善し、out-of-Distribution(OOD)データセットに対する堅牢性を高めることを目的とした、複数の微調整されたモデルの平均である。
本稿では,様々なレベルのモデルの局所的および大域的集約を伴う階層的統合手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T06:48:48Z) - The Importance of Downstream Networks in Digital Pathology Foundation Models [1.689369173057502]
162のアグリゲーションモデル構成を持つ3つの異なるデータセットにまたがる7つの特徴抽出モデルを評価する。
多くの特徴抽出器モデルの性能は顕著に類似していることが判明した。
論文 参考訳(メタデータ) (2023-11-29T16:54:25Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z) - Oops I Took A Gradient: Scalable Sampling for Discrete Distributions [53.3142984019796]
このアプローチは、多くの困難な設定において、ジェネリックサンプリングよりも優れていることを示す。
また,高次元離散データを用いた深部エネルギーモデルトレーニングのための改良型サンプリング器についても実演した。
論文 参考訳(メタデータ) (2021-02-08T20:08:50Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。