論文の概要: CoCoAFusE: Beyond Mixtures of Experts via Model Fusion
- arxiv url: http://arxiv.org/abs/2505.01105v1
- Date: Fri, 02 May 2025 08:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.964957
- Title: CoCoAFusE: Beyond Mixtures of Experts via Model Fusion
- Title(参考訳): CoCoAFusE: モデル融合による専門家の混成を超えて
- Authors: Aurelio Raffa Ugolini, Mara Tanelli, Valentina Breschi,
- Abstract要約: CoCoAFusEはMixtures of Experts(MoEs)の背景にある哲学に基づいている
我々の定式化は、専門家の分布の融合を考えることによって、古典的な専門家の混合を延長する。
この新しいアプローチは、数値的な例を動機付ける一連のスイートと、実際のデータのコレクションで広く紹介されている。
- 参考スコア(独自算出の注目度): 3.501882879116058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many learning problems involve multiple patterns and varying degrees of uncertainty dependent on the covariates. Advances in Deep Learning (DL) have addressed these issues by learning highly nonlinear input-output dependencies. However, model interpretability and Uncertainty Quantification (UQ) have often straggled behind. In this context, we introduce the Competitive/Collaborative Fusion of Experts (CoCoAFusE), a novel, Bayesian Covariates-Dependent Modeling technique. CoCoAFusE builds on the very philosophy behind Mixtures of Experts (MoEs), blending predictions from several simple sub-models (or "experts") to achieve high levels of expressiveness while retaining a substantial degree of local interpretability. Our formulation extends that of a classical Mixture of Experts by contemplating the fusion of the experts' distributions in addition to their more usual mixing (i.e., superimposition). Through this additional feature, CoCoAFusE better accommodates different scenarios for the intermediate behavior between generating mechanisms, resulting in tighter credible bounds on the response variable. Indeed, only resorting to mixing, as in classical MoEs, may lead to multimodality artifacts, especially over smooth transitions. Instead, CoCoAFusE can avoid these artifacts even under the same structure and priors for the experts, leading to greater expressiveness and flexibility in modeling. This new approach is showcased extensively on a suite of motivating numerical examples and a collection of real-data ones, demonstrating its efficacy in tackling complex regression problems where uncertainty is a key quantity of interest.
- Abstract(参考訳): 多くの学習問題は、複数のパターンと、共変量に依存する様々な不確実性を含む。
ディープラーニング(DL)の進歩は、高非線形な入出力依存を学習することでこれらの問題に対処してきた。
しかし、モデル解釈可能性と不確かさの定量化(UQ)は、しばしば遅れを取っている。
そこで本研究では,ベイジアン・コヴァリエート依存モデリング技術であるコンペティティブ・コラボレーティブ・フュージョン・オブ・エキスパートズ(CoCoAFusE)を紹介した。
CoCoAFusEはMixtures of Experts (MoEs)の背景にある哲学に基づいており、いくつかの単純なサブモデル(または"Experts")からの予測をブレンドして、相当な局所的解釈可能性を維持しながら高い表現性を達成する。
我々の定式化は、より通常の混合(すなわち重ね合わせ)に加えて、専門家の分布の融合を考えることによって、古典的な専門家の混合を延長する。
この追加機能を通じて、CoCoAFusEは生成メカニズム間の中間的な振る舞いの異なるシナリオに適合し、その結果、応答変数のより信頼できるバウンダリとなる。
実際、古典的なMoEのように混合にのみ頼れば、特に滑らかな遷移よりも、多重モダリティのアーティファクトにつながる可能性がある。
代わりにCoCoAFusEは、専門家が同じ構造と優先順位の下でもこれらのアーティファクトを避けることができ、モデリングにおける表現力と柔軟性が向上する。
この新しい手法は、数値的な例や実データの収集を動機づけた一連のスイートで広く紹介され、不確実性が重要な関心事である複雑な回帰問題に対処する効果を実証している。
関連論文リスト
- A Unified Virtual Mixture-of-Experts Framework:Enhanced Inference and Hallucination Mitigation in Single-Model System [9.764336669208394]
GPTやBERTのような生成モデルは、テキスト生成や要約といったタスクのパフォーマンスを大幅に改善した。
しかし、「モデルが非現実的または誤解を招くコンテンツを生成する場所」という幻覚は、特に小規模アーキテクチャでは問題となる。
本稿では,単一のQwen 1.5 0.5Bモデルにおいて,推論性能を高め,幻覚を緩和する仮想ミックス・オブ・エクササイズ(MoE)融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-01T11:38:01Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [14.858134039539697]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Mixture of Tokens: Continuous MoE through Cross-Example Aggregation [0.7880651741080428]
エキスパートの混合(MoE)モデルは、言語とビジョンタスクの境界を押し広げています。
MoTは単純で連続的なアーキテクチャであり、スパースMoEモデルと同様にパラメータの数をスケーリングすることができる。
我々の最良のモデルは、言語事前学習における高密度トランスフォーマーモデルよりも3倍のトレーニング速度を達成する。
論文 参考訳(メタデータ) (2023-10-24T16:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。