論文の概要: Robustness of Mixtures of Experts to Feature Noise
- arxiv url: http://arxiv.org/abs/2601.14792v1
- Date: Wed, 21 Jan 2026 09:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.308886
- Title: Robustness of Mixtures of Experts to Feature Noise
- Title(参考訳): 騒音に対する専門家の混在のロバスト性
- Authors: Dong Sun, Rahul Nittala, Rebekka Burkholz,
- Abstract要約: スパース専門家のアクティベーションがノイズフィルタとして機能することを示す。
スパース専門家のアクティベーションがノイズフィルタとして機能することを示す。
合成データと実世界の言語タスクに関する実証的な結果が理論的洞察を裏付ける。
- 参考スコア(独自算出の注目度): 25.939504714529807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their practical success, it remains unclear why Mixture of Experts (MoE) models can outperform dense networks beyond sheer parameter scaling. We study an iso-parameter regime where inputs exhibit latent modular structure but are corrupted by feature noise, a proxy for noisy internal activations. We show that sparse expert activation acts as a noise filter: compared to a dense estimator, MoEs achieve lower generalization error under feature noise, improved robustness to perturbations, and faster convergence speed. Empirical results on synthetic data and real-world language tasks corroborate the theoretical insights, demonstrating consistent robustness and efficiency gains from sparse modular computation.
- Abstract(参考訳): 実際の成功にもかかわらず、Mixture of Experts (MoE)モデルがパラメータスケーリング以上の高密度ネットワークより優れている理由は不明である。
入力が潜在モジュール構造を示すが,雑音によって劣化する等パラメータ構造について検討する。
本研究では, 高密度推定器と比較して, MoEsは特徴雑音下での一般化誤差の低減, 摂動に対するロバスト性の向上, 収束速度の向上, などのノイズフィルタとして機能することを示す。
合成データと実世界の言語タスクに関する実証的な結果が理論的洞察を裏付け、疎度なモジュラー計算から一貫した堅牢性と効率性を示す。
関連論文リスト
- Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - Noise-Robust Tiny Object Localization with Flows [63.60972031108944]
フレキシブルなエラーモデリングと不確実性誘導最適化に正規化フローを活用するノイズローバストローカライゼーションフレームワークを提案する。
本手法は,フローベース誤差モデルを用いて,複雑な非ガウス予測分布を抽出し,ノイズの多い監視下で頑健な学習を可能にする。
不確実性を考慮した勾配変調機構は、トレーニングを安定化しながら過度な適合を緩和し、高不確実でノイズの強いサンプルからの学習をさらに抑制する。
論文 参考訳(メタデータ) (2026-01-02T09:16:55Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - Noise-Robustness Through Noise: A Framework combining Asymmetric LoRA with Poisoning MoE [19.187321201355747]
ダウンストリームタスクに事前訓練された言語モデルを適用するための現在の微調整手法は、ノイズの多いデータからの干渉に影響を受けやすい。
非対称なロラ中毒専門家(LoPE)によるノイズロバスト適応手法を提案する。
LoPEは、低コストのノイズ注入によって、パフォーマンスとロバスト性を純粋に達成し、データクリーニングの必要性を完全に排除する。
論文 参考訳(メタデータ) (2025-05-29T10:35:07Z) - Triply Laplacian Scale Mixture Modeling for Seismic Data Noise Suppression [51.87076090814921]
ポーラシティに基づくテンソルリカバリ法は, 地震データノイズを抑制する大きな可能性を示している。
本研究では, 3次元ラプラシアンスケール混合(TLSM)による地震波の抑制手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T08:28:01Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Walking Noise: On Layer-Specific Robustness of Neural Architectures against Noisy Computations and Associated Characteristic Learning Dynamics [1.5184189132709105]
本稿では,異なる分類タスクとモデルアーキテクチャに対する加法的,乗法的,混合ノイズの影響について論じる。
本研究では,ロバスト性を測定するため,層固有のノイズを注入するウォーキングノイズ法を提案する。
我々は,この方法論の実践的利用に関する議論をまとめ,ノイズの多い環境での適応型マルチエグゼクティブの活用について論じる。
論文 参考訳(メタデータ) (2022-12-20T17:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。