論文の概要: Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models
- arxiv url: http://arxiv.org/abs/2510.14853v1
- Date: Thu, 16 Oct 2025 16:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.948604
- Title: Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models
- Title(参考訳): フライで専門家を振り返る:Mixture-of-Expertモデルにおけるオンライン適応性向上のための連続的なレイアウト
- Authors: Guinan Su, Yanwu Yang, Li Shen, Lu Yin, Shiwei Liu, Jonas Geiping,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、スパース専門家のアクティベーションを通じて効率的なスケーリングを実現するが、デプロイメントの分散シフトによる最適以下のルーティング決定に悩まされることが多い。
我々は、外部の監視やデータなしで、テキスト生成中にMoEルーティング決定を継続的に適用するテキストタデータフリーオンラインテストタイムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.502867924372275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models achieve efficient scaling through sparse expert activation, but often suffer from suboptimal routing decisions due to distribution shifts in deployment. While existing test-time adaptation methods could potentially address these issues, they primarily focus on dense models and require access to external data, limiting their practical applicability to MoE architectures. However, we find that, instead of relying on reference data, we can optimize MoE expert selection on-the-fly based only on input context. As such, we propose \textit{a data-free, online test-time framework} that continuously adapts MoE routing decisions during text generation without external supervision or data. Our method cycles between two phases: During the prefill stage, and later in regular intervals, we optimize the routing decisions of the model using self-supervision based on the already generated sequence. Then, we generate text as normal, maintaining the modified router until the next adaption. We implement this through lightweight additive vectors that only update router logits in selected layers, maintaining computational efficiency while preventing over-adaptation. The experimental results show consistent performance gains on challenging reasoning tasks while maintaining robustness to context shifts. For example, our method achieves a 5.5\% improvement on HumanEval with OLMoE. Furthermore, owing to its plug-and-play property, our method naturally complements existing test-time scaling techniques, e.g., achieving 6\% average gains when incorporated with self-consistency on DeepSeek-V2-Lite.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、スパース専門家のアクティベーションを通じて効率的なスケーリングを実現するが、デプロイメントの分散シフトによる最適以下のルーティング決定に悩まされることが多い。
既存のテスト時間適応手法はこれらの問題に対処する可能性があるが、主に密集したモデルに焦点をあて、外部データへのアクセスを必要とし、実際のMoEアーキテクチャの適用性を制限している。
しかし、参照データに頼る代わりに、入力コンテキストのみに基づいてMoE専門家の選択をオンザフライで最適化できることがわかった。
そこで本研究では、外部の監視やデータなしにテキスト生成中にMoEルーティング決定を継続的に適用する、データフリーのオンラインテストタイムフレームワークである「textit{a」を提案する。
提案手法は2つのフェーズの間を循環する: プリフィルの段階で、そしてその後定期的に、既に生成されたシーケンスに基づいて自己スーパービジョンを用いてモデルのルーティング決定を最適化する。
そして、修正ルータを次の適応まで維持し、通常のテキストを生成する。
我々は,選択した層におけるルータロジットのみを更新し,過度適応を防止しながら計算効率を向上する軽量な加算ベクトルを用いてこれを実装した。
実験結果から,コンテキストシフトに対する堅牢性を維持しながら,課題推論タスクに対して一貫した性能向上が得られた。
例えば,OLMoEを用いたHumanEvalの5.5倍の精度向上を実現している。
さらに,そのプラグアンドプレイ特性から,DeepSeek-V2-Lite上での自己整合性を組み込んだ場合,既存のテスト時間スケーリング技術,例えば平均利得を6倍に向上させる手法を自然に補完する。
関連論文リスト
- ETTA: Efficient Test-Time Adaptation for Vision-Language Models through Dynamic Embedding Updates [5.84817561920117]
Test-Time Adaptationは、新しいドメインでラベル付けされていないテストデータに視覚言語モデルを適用する。
現在のキャッシュベースのTTAモデルは、限られた高信頼のサンプルのみを格納する。
入ってくるすべてのテストサンプルを統合するRecursive Updatingモジュールを提案する。
論文 参考訳(メタデータ) (2025-08-07T23:11:33Z) - Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - MoTE: Mixture of Task-specific Experts for Pre-Trained ModelBased Class-incremental Learning [39.892628170627496]
クラスインクリメンタルラーニング(CIL)では、ストリーミングデータから新たな知識を継続的に取得するために、ディープラーニングモデルが必要である。
プロンプトベースのアプローチはプロンプトオーバーライトに悩まされ、アダプタベースの手法はタスク間の次元的ミスアライメントのような課題に直面している。
本稿では,不整合出力次元による誤判定を効果的に軽減するタスク特化専門家(MoTE)フレームワークの混合を提案する。
論文 参考訳(メタデータ) (2025-05-21T03:06:10Z) - Entropy-Based Adaptive Weighting for Self-Training [15.089334734753677]
自己学習のためのエントロピーに基づく適応重み付け(EAST)を提案する。
EASTは、自己学習中に不確実なデータを優先順位付けするために設計された適応的な重み付け戦略である。
我々はGSM8KおよびMATHベンチマークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-31T10:04:35Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。