論文の概要: Fast Model Selection and Stable Optimization for Softmax-Gated Multinomial-Logistic Mixture of Experts Models
- arxiv url: http://arxiv.org/abs/2602.07997v1
- Date: Sun, 08 Feb 2026 14:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.912954
- Title: Fast Model Selection and Stable Optimization for Softmax-Gated Multinomial-Logistic Mixture of Experts Models
- Title(参考訳): ソフトマックス法によるエキスパートモデルの高速モデル選択と安定最適化
- Authors: TrungKhang Tran, TrungTin Nguyen, Md Abul Bashar, Nhat Ho, Richi Nayak, Christopher Drovandi,
- Abstract要約: 我々は,ソフトマックスゲート型マルチミリ波観測用MoEのバッチ最小化最適化アルゴリズムを開発した。
また,条件密度推定とパラメータ回復のための有限サンプル率も証明した。
生物学的タンパク質-タンパク質相互作用予測実験は、完全なパイプラインを検証する。
- 参考スコア(独自算出の注目度): 40.216463162163976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures combine specialized predictors through a learned gate and are effective across regression and classification, but for classification with softmax multinomial-logistic gating, rigorous guarantees for stable maximum-likelihood training and principled model selection remain limited. We address both issues in the full-data (batch) regime. First, we derive a batch minorization-maximization (MM) algorithm for softmax-gated multinomial-logistic MoE using an explicit quadratic minorizer, yielding coordinate-wise closed-form updates that guarantee monotone ascent of the objective and global convergence to a stationary point (in the standard MM sense), avoiding approximate M-steps common in EM-type implementations. Second, we prove finite-sample rates for conditional density estimation and parameter recovery, and we adapt dendrograms of mixing measures to the classification setting to obtain a sweep-free selector of the number of experts that achieves near-parametric optimal rates after merging redundant fitted atoms. Experiments on biological protein--protein interaction prediction validate the full pipeline, delivering improved accuracy and better-calibrated probabilities than strong statistical and machine-learning baselines.
- Abstract(参考訳): Mixture-of-Experts (MoE) アーキテクチャは、学習ゲートを介して特殊予測器を結合し、回帰と分類に有効であるが、ソフトマックスのマルチノミカル・ロジスティック・ゲーティングを用いた分類では、安定な最大自由度トレーニングのための厳密な保証と原則付きモデル選択が制限されている。
フルデータ(バッチ)体制における両問題に対処する。
まず, 定位点への単調な収束と大域収束を保証し, EM型実装に共通する近似的なMステップを回避するために, 定位点への単調な収束を保証した座標次クローズドフォームの更新を行う。
第2に, 条件密度推定とパラメータ回復のための有限サンプルレートを証明し, 混合対策のデンドログラムを分類条件に適応させ, 冗長な原子をマージした後, ほぼパラメトリックの最適速度を達成する専門家数のスイージーフリーセレクタを得る。
生物学的タンパク質-タンパク質相互作用予測実験は、完全なパイプラインを検証し、強力な統計的および機械学習ベースラインよりも精度とキャリブレーションの良好な確率を提供する。
関連論文リスト
- Improving Minimax Estimation Rates for Contaminated Mixture of Multinomial Logistic Experts via Expert Heterogeneity [49.809923981964715]
凍結したエキスパートとして機能する事前訓練されたモデルを、新しいタスクを学ぶためにトレーニング可能なエキスパートとして機能するアダプタモデルに統合するトランスファー学習手法によって、汚染された専門家の混合(MoE)が動機付けられる。
本研究は, 地絡パラメータがサンプルサイズによって異なる困難な条件下で, パラメータを推定するための一様収束率を特徴付ける。
また、対応するミニマックス下限を定め、これらのレートがミニマックス最適であることを保証する。
論文 参考訳(メタデータ) (2026-01-31T23:45:50Z) - Revisiting Incremental Stochastic Majorization-Minimization Algorithms with Applications to Mixture of Experts [10.724240883426617]
本研究では,特殊ケースとしてインクリメンタルEMを一般化するMajorization-Minimization (MM)アルゴリズムの漸進的変種を解析する。
我々のアプローチは、明示的な潜伏表現のような重要なEM要求を緩和する。
我々はこれらの利点を、EMアルゴリズムが利用できない専門家の回帰問題(MoE)のソフトマックス混合で示す。
論文 参考訳(メタデータ) (2026-01-27T17:12:15Z) - Dendrograms of Mixing Measures for Softmax-Gated Gaussian Mixture of Experts: Consistency without Model Sweeps [41.371172458797524]
ゲーティングパラメータの共通翻訳、固有のゲート-エキスパート相互作用、およびタイトな数値-デノミネータ結合までの不特定性に対処する。
モデル選択には, 最適なパラメータ率を得る専門家の数を一貫したスイープフリーセレクタとして, デンドログラム誘導SGMoEを適応させる。
干ばつを識別できるトウモロコシの形質のデータセット上で、私たちのデンドログラム誘導SGMoEは2人の専門家を選別し、明確な混合階層を公開し、確率を早期に安定化し、解釈可能な遺伝子型フェノタイプマップを生成する。
論文 参考訳(メタデータ) (2025-10-14T17:23:44Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - E$^2$M: Double Bounded $α$-Divergence Optimization for Tensor-based Discrete Density Estimation [3.9633191508712398]
本稿では、E$2Mアルゴリズムと呼ばれる予測最大化(EM)アルゴリズムの一般化を提案する。
Kullback-Leibler (KL) の発散に基づく代理対象の最小化に最適化を緩和することでこの問題を回避する。
このアプローチは、CP、Tucker、Trainフォーマットなど、さまざまな低ランク構造に対してフレキシブルなモデリングを提供します。
論文 参考訳(メタデータ) (2024-05-28T14:28:28Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。