Fugu-MT 論文翻訳(概要): Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability

論文の概要: Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability

arxiv url: http://arxiv.org/abs/2204.10598v3
Date: Thu, 27 Apr 2023 07:02:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 17:33:18.492825
Title: Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability
Title（参考訳）: CNN解釈性のための疎ゲート混合層
Authors: Svetlana Pavlitska, Christian Hubschneider, Lukas Struppek and J. Marius Z\"ollner
Abstract要約: 小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
参考スコア（独自算出の注目度）: 3.021134753248103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sparsely-gated Mixture of Expert (MoE) layers have been recently successfully applied for scaling large transformers, especially for language modeling tasks. An intriguing side effect of sparse MoE layers is that they convey inherent interpretability to a model via natural expert specialization. In this work, we apply sparse MoE layers to CNNs for computer vision tasks and analyze the resulting effect on model interpretability. To stabilize MoE training, we present both soft and hard constraint-based approaches. With hard constraints, the weights of certain experts are allowed to become zero, while soft constraints balance the contribution of experts with an additional auxiliary loss. As a result, soft constraints handle expert utilization better and support the expert specialization process, while hard constraints maintain more generalized experts and increase overall model performance. Our findings demonstrate that experts can implicitly focus on individual sub-domains of the input space. For example, experts trained for CIFAR-100 image classification specialize in recognizing different domains such as flowers or animals without previous data clustering. Experiments with RetinaNet and the COCO dataset further indicate that object detection experts can also specialize in detecting objects of distinct sizes.
Abstract（参考訳）: スパースゲートのMixture of Expert (MoE)層は、特に言語モデリングタスクにおいて、大規模トランスフォーマーのスケーリングに成功している。スパースMoE層の興味深い副作用は、自然専門家の専門化を通じてモデルに固有の解釈可能性を伝えることである。本研究では,コンピュータビジョンタスクのcnnに疎moe層を適用し,モデル解釈性への影響を分析する。 moeトレーニングを安定させるために,ソフトおよびハード制約に基づくアプローチを提案する。厳しい制約により、特定の専門家の重みはゼロになり、ソフトな制約は専門家の貢献と追加の補助損失のバランスをとる。結果として、ソフト制約は専門家の活用をより良く扱い、専門家の専門化プロセスをサポートし、ハード制約はより一般的な専門家を維持し、全体的なモデルパフォーマンスを向上させる。その結果,専門家は入力空間の個々のサブドメインに暗黙的にフォーカスできることがわかった。例えば、CIFAR-100画像分類の訓練を受けた専門家は、以前のデータクラスタリングなしで花や動物などの異なるドメインを認識することを専門としている。 RetinaNetとCOCOデータセットによる実験は、オブジェクト検出の専門家が、異なるサイズのオブジェクトを検出できることも示している。

関連論文リスト

Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
大規模MOEモデルにおける領域の特殊化と専門的冗長性について検討する。本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。提案手法は,DeepSeek-R1を完全かつ半分のエキスパートで,同じメモリ予算で同等の性能と2.99タイムのスループットを達成できる。
論文参考訳（メタデータ） (2025-04-09T11:34:06Z)
Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。 MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文参考訳（メタデータ） (2025-03-05T06:11:24Z)
Finedeep: Mitigating Sparse Activation in Dense LLMs via Multi-Layer Fine-Grained Experts [82.74439280067492]
ファインディープ(英: Finedeep)は、高密度モデルのための、きめ細かいきめ細かなアーキテクチャである。我々のフレームワークは、従来の高密度モデルのフィードフォワードニューラルネットワーク層を小さな専門家に分割する。各専門家の貢献度を決定するための新しいルーティング機構が提案されている。
論文参考訳（メタデータ） (2025-02-18T15:09:58Z)
Monet: Mixture of Monosemantic Experts for Transformers [33.8311330578753]
トランスフォーマー(Monet)アーキテクチャのためのモノセマンティックエキスパート(Mixture of Monosemantic Experts)を紹介する。 Monetはスパース辞書学習を直接エンドツーエンドのMixture-of-Expertsプリトレーニングに組み込む。本分析は,専門家間の知識の相互排他性を示し,各専門家にカプセル化されたパラメトリック知識を示す。
論文参考訳（メタデータ） (2024-12-05T13:06:03Z)
Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文参考訳（メタデータ） (2024-09-23T21:27:26Z)
Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文参考訳（メタデータ） (2024-09-02T00:39:00Z)
Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測 Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文参考訳（メタデータ） (2024-03-26T05:48:02Z)
Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文参考訳（メタデータ） (2024-02-19T21:20:22Z)
On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。本研究は,専門家の選択に重要な意味を持つ。
論文参考訳（メタデータ） (2024-02-05T12:31:18Z)
Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。ルーティング統計を利用したM-SMoEを提案する。我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文参考訳（メタデータ） (2023-10-02T16:51:32Z)
Spatial Mixture-of-Experts [16.71096722340687]
本稿では、入力領域における空間構造を学習し、専門家をきめ細かいレベルでルーティングし、それを利用する空間混合層を提案する。我々は,多くのタスクにおいてSMoEの強い結果を示し,中距離気象予報と後処理のアンサンブル天気予報の新しい結果を設定した。
論文参考訳（メタデータ） (2022-11-24T09:31:02Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。