論文の概要: Design and Behavior of Sparse Mixture-of-Experts Layers in CNN-based Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2604.13761v1
- Date: Wed, 15 Apr 2026 11:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.515236
- Title: Design and Behavior of Sparse Mixture-of-Experts Layers in CNN-based Semantic Segmentation
- Title(参考訳): CNNを用いたセマンティックセグメンテーションにおけるスパース混合層の設計と挙動
- Authors: Svetlana Pavlitska, Haixi Fan, Konstantin Ditschuneit, J. Marius Zöllner,
- Abstract要約: Sparse Mixed-of-Experts (MoE) 層は, 計算コストの比例的な増加を伴わずに, モデルキャパシティを大幅に向上することが示されている。
スパースMoE層を畳み込みニューラルネットワーク(CNN)に統合することは相容れない。
本研究では,セマンティックセグメンテーションのためのスパースMoE層の粗いパッチワイドな定式化について検討する。
- 参考スコア(独自算出の注目度): 10.912224105652044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse mixture-of-experts (MoE) layers have been shown to substantially increase model capacity without a proportional increase in computational cost and are widely used in transformer architectures, where they typically replace feed-forward network blocks. In contrast, integrating sparse MoE layers into convolutional neural networks (CNNs) remains inconsistent, with most prior work focusing on fine-grained MoEs operating at the filter or channel levels. In this work, we investigate a coarser, patch-wise formulation of sparse MoE layers for semantic segmentation, where local regions are routed to a small subset of convolutional experts. Through experiments on the Cityscapes and BDD100K datasets using encoder-decoder and backbone-based CNNs, we conduct a design analysis to assess how architectural choices affect routing dynamics and expert specialization. Our results demonstrate consistent, architecture-dependent improvements (up to +3.9 mIoU) with little computational overhead, while revealing strong design sensitivity. Our work provides empirical insights into the design and internal dynamics of sparse MoE layers in CNN-based dense prediction. Our code is available at https://github.com/KASTEL-MobilityLab/moe-layers/.
- Abstract(参考訳): Sparse Mixed-of-Experts (MoE) 層は計算コストの比例的な増加なしにモデル容量を大幅に増加させることが示されており、トランスフォーマーアーキテクチャで広く使われている。
対照的に、スパースMoE層を畳み込みニューラルネットワーク(CNN)に統合することは相容れない。
本研究では,局所領域を少数の畳み込み専門家にルーティングするセマンティックセグメンテーションのための,スパースMoE層の粗いパッチワイドな定式化について検討する。
エンコーダデコーダとバックボーンベースのCNNを用いたCityscapesとBDD100Kデータセットの実験を通じて、アーキテクチャ選択がルーティングダイナミクスや専門家の専門性にどのように影響するかを評価する設計分析を行う。
その結果, 計算オーバーヘッドが少なく, アーキテクチャに依存した一貫した改善(+3.9 mIoUまで)を示し, 高い設計感度を示した。
我々の研究は、CNNに基づく密度予測におけるスパースMoE層の設計と内部ダイナミクスに関する実証的な知見を提供する。
私たちのコードはhttps://github.com/KASTEL-MobilityLab/moe-layers/で利用可能です。
関連論文リスト
- ASNN: Learning to Suggest Neural Architectures from Performance Distributions [0.0]
ニューラルネットワーク(NN)のアーキテクチャは、その性能を決定する上で重要な役割を果たす。
ネットワーク構造と精度をマッピングする一般閉形式関数は存在しない。
NNアーキテクチャとテスト精度の関係を学習するためのモデルであるアーキテクチャ提案ネットワーク(ASNN)を提案する。
論文 参考訳(メタデータ) (2025-07-27T07:39:33Z) - AMBER: Adaptive Mesh Generation by Iterative Mesh Resolution Prediction [48.72179728638418]
本稿では,メッシュ適応のための教師あり学習手法であるAMBER(Adaptive Meshing By Expert Reconstruction)を提案する。
AMBERは、サイズフィールドを反復的に予測し、この予測を使用して、アウト・オブ・ザ・ボックスメッシュジェネレータを使用して、新しい中間メッシュを生成する。
AMBERを2次元および3次元の幾何学、古典物理学問題を含むデータセット、機械部品、人間の専門家メッシュを用いた実世界の産業デザインで評価する。
論文 参考訳(メタデータ) (2025-05-29T17:10:44Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Adaptive Growth: Real-time CNN Layer Expansion [0.0]
本研究では,データ入力に基づいて,畳み込みニューラルネットワーク(CNN)の畳み込み層を動的に進化させるアルゴリズムを提案する。
厳密なアーキテクチャの代わりに、我々のアプローチはカーネルを畳み込み層に反復的に導入し、様々なデータに対してリアルタイムに応答する。
興味深いことに、我々の教師なしの手法は、さまざまなデータセットにまたがって教師なしの手法を上回った。
論文 参考訳(メタデータ) (2023-09-06T14:43:58Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - Rethinking Depthwise Separable Convolutions: How Intra-Kernel
Correlations Lead to Improved MobileNets [6.09170287691728]
CNNのための高効率なビルディングブロックとして,ブループリント分離型畳み込み(BSConv)を導入する。
それらは、訓練されたモデルからカーネル特性の定量的解析によって動機付けられている。
我々のアプローチは、深く分離可能な畳み込みの適用のために、完全な理論的導出、解釈、正当化を提供する。
論文 参考訳(メタデータ) (2020-03-30T15:23:27Z) - Inferring Convolutional Neural Networks' accuracies from their
architectural characterizations [0.0]
CNNのアーキテクチャと性能の関係について検討する。
本稿では,2つのコンピュータビジョンに基づく物理問題において,その特性がネットワークの性能を予測できることを示す。
我々は機械学習モデルを用いて、トレーニング前にネットワークが一定のしきい値精度よりも優れた性能を発揮できるかどうかを予測する。
論文 参考訳(メタデータ) (2020-01-07T16:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。