Fugu-MT 論文翻訳(概要): Excitation: Momentum For Experts

論文の概要: Excitation: Momentum For Experts

arxiv url: http://arxiv.org/abs/2602.21798v1
Date: Wed, 25 Feb 2026 11:22:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.810862
Title: Excitation: Momentum For Experts
Title（参考訳）: 引用:Momentum for Experts
Authors: Sagi Shaier,
Abstract要約: Excitationは、Mixture-of-Experts(MoEs)における学習の促進を目的とした新しいフレームワークである競争力のある更新ダイナミクスを導入し、高度に活用された専門家への更新を増幅し、低ユーティリティな専門家を選択的に抑制することができる。励起は、MoEモデルにおける収束速度と最終的な性能を一貫して改善する。
参考スコア（独自算出の注目度）: 4.18804572788063
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Excitation, a novel optimization framework designed to accelerate learning in sparse architectures such as Mixture-of-Experts (MoEs). Unlike traditional optimizers that treat all parameters uniformly, Excitation dynamically modulates updates using batch-level expert utilization. It introduces a competitive update dynamic that amplifies updates to highly-utilized experts and can selectively suppress low-utilization ones, effectively sharpening routing specialization. Notably, we identify a phenomenon of "structural confusion" in deep MoEs, where standard optimizers fail to establish functional signal paths; Excitation acts as a specialization catalyst, "rescuing" these models and enabling stable training where baselines remain trapped. Excitation is optimizer-, domain-, and model-agnostic, requires minimal integration effort, and introduces neither additional per-parameter optimizer state nor learnable parameters, making it highly viable for memory-constrained settings. Across language and vision tasks, Excitation consistently improves convergence speed and final performance in MoE models, indicating that active update modulation is a key mechanism for effective conditional computation.
Abstract（参考訳）: 本研究では,Mixture-of-Experts (MoEs) などのスパースアーキテクチャにおける学習を高速化する新しい最適化フレームワークであるExcitationを提案する。すべてのパラメータを均一に扱う従来のオプティマイザとは異なり、Excitationはバッチレベルのエキスパート利用を使用して更新を動的に変調する。高度に活用された専門家への更新を増幅し、低ユーティリティな専門家を選択的に抑制し、ルーティングの専門化を効果的に強化する、競争力のある更新ダイナミクスを導入している。特に,標準オプティマイザが機能的信号経路の確立に失敗する深部MoEにおける「構造的混乱」現象を同定し,励起は特殊化触媒として機能し,これらのモデルを「救助」し,ベースラインが閉じ込められている安定した訓練を可能にする。励起はオプティマイザ、ドメイン、モデルに依存しないため、最小限の統合作業が必要であり、パラメータごとのオプティマイザ状態も学習可能なパラメータも導入せず、メモリ制約のある設定で非常に有効である。言語や視覚タスク全体にわたって、ExcitationはMoEモデルにおける収束速度と最終性能を一貫して改善し、アクティブ更新変調が効率的な条件計算の鍵となるメカニズムであることを示す。

関連論文リスト

ExpertWeaver: Unlocking the Inherent MoE in Dense LLMs with GLU Activation Patterns [68.61814799047956]
Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて計算効率を保ちながら、モデル容量を効果的にスケールする。 ExpertWeaverは、ニューロンをアクティベーションパターンに従ってパーティショニングする、トレーニング不要のフレームワークで、共有専門家と特殊なルーティング専門家をレイヤ適応構成で構成する。
論文参考訳（メタデータ） (2026-02-17T11:50:58Z)
Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations [55.047454145941366]
Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。 ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。 ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
論文参考訳（メタデータ） (2026-02-03T08:15:57Z)
Task-free Adaptive Meta Black-box Optimization [55.461814601130044]
対象タスクからのみ最適化データを用いてオンラインパラメータ適応を行うアダプティブメタブラックボックス最適化モデル(ABOM)を提案する。メタトレーニングと最適化フェーズを分離する従来のメタBBOフレームワークとは異なり、ABOMはクローズドループパラメータ学習機構を導入し、パラメータ化された進化演算子を継続的に自己更新する。このパラダイムシフトはゼロショット最適化を可能にする: 合成BBOベンチマークにおけるABOMの競合性能と、手作りのトレーニングタスクを伴わない現実的な無人飛行路計画問題。
論文参考訳（メタデータ） (2026-01-29T09:54:10Z)
High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。 textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文参考訳（メタデータ） (2026-01-12T13:06:17Z)
Relation-Aware Bayesian Optimization of DBMS Configurations Guided by Affinity Scores [2.474203056060563]
データベース管理システム(DBMS)は,大規模および異種データの管理に基本的であり,その性能は構成パラメータの影響を強く受けている。近年の研究では、機械学習を用いた自動構成最適化に焦点が当てられているが、既存のアプローチにはいくつかの重要な制限がある。パラメータ依存をグラフとして表現する新しいフレームワークであるRelTuneを提案し,パフォーマンス関連セマンティクスを符号化したGNNベースの潜伏埋め込みを学習する。
論文参考訳（メタデータ） (2025-10-31T03:46:42Z)
CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling [60.55856973678002]
大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
論文参考訳（メタデータ） (2025-10-05T13:38:31Z)
Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文参考訳（メタデータ） (2025-09-03T18:05:02Z)
Reflection-Enhanced Meta-Optimization Integrating TextGrad-style Prompt Optimization with Memory-Driven Self-Evolution [0.0]
本稿では,メモリ拡張リフレクションRetrievalRAGモジュールと自己適応型メタコントローラを統合するフレームワークを提案する。 REMOは、計算オーバーヘッドの増加にもかかわらず、より安定で堅牢なチューニングを実現する。
論文参考訳（メタデータ） (2025-08-26T07:25:45Z)
MAO: Efficient Model-Agnostic Optimization of Prompt Tuning for Vision-Language Models [37.85176585188362]
即時チューニングのためのモデル非依存最適化(MAO)を提案する。データ駆動型拡張フレームワークを導入し、初期データの分散を最適化する。タスク固有の機能処理パイプラインを強化するために、Alterable Regularizationモジュールを組み込んだ。
論文参考訳（メタデータ） (2025-03-23T17:59:33Z)
Iterate to Accelerate: A Unified Framework for Iterative Reasoning and Feedback Convergence [0.0]
本稿では,Bregmanの発散による非ユークリッド幾何学,高次演算子平均化,適応フィードバック機構を利用した反復推論のための統一的フレームワークを提案する。我々の分析は、軽度な滑らかさと収縮性仮定の下では、ミラー降下や動的プログラミングのような古典的手法を統一するだけでなく、大規模言語モデルにおける現代の連鎖推論過程も捉えることを証明している。
論文参考訳（メタデータ） (2025-02-06T05:24:35Z)
Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文参考訳（メタデータ） (2024-07-01T17:28:59Z)
Multiplicative update rules for accelerating deep learning training and increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文参考訳（メタデータ） (2023-07-14T06:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。