論文の概要: Online Mixture of Experts: No-Regret Learning for Optimal Collective Decision-Making
- arxiv url: http://arxiv.org/abs/2510.21788v1
- Date: Sun, 19 Oct 2025 11:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.514219
- Title: Online Mixture of Experts: No-Regret Learning for Optimal Collective Decision-Making
- Title(参考訳): エキスパートのオンライン混合: 最適集団意思決定のための非回帰学習
- Authors: Larkin Liu, Jalal Etesami,
- Abstract要約: 専門家誘導型バンディット学習の活用について検討し、オンライン・ミックス・オブ・エキスパート(OMoE)と呼ぶ。
第1のアルゴリズムは、集計投票と UCB による逐次除去を組み合わせ、最適下探索行動を効率的に決定する。
第二のアルゴリズムはオンラインの重み付き投票機構を採用し、それぞれの専門家の投票力を予測力に比例して活用する。
- 参考スコア(独自算出の注目度): 5.4873584968147275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the use of expert-guided bandit learning, which we refer to as online mixture-of-experts (OMoE). In this setting, given a context, a candidate committee of experts must determine how to aggregate their outputs to achieve optimal results in terms of aggregate accuracy. We propose two algorithms to address this problem. The first algorithm combines aggregate voting with UCB-driven successive elimination, efficiently pruning suboptimal exploration actions. The second algorithm employs an online weighted-majority-voting mechanism, leveraging the respective voting power of each expert proportional to their predictive power. We derive theoretical guarantees for the regret properties in the bandit setting under ideal circumstances, and empirical results are provided accordingly. As a modern study on applications, these methods are applied to the online fine-tuning of a set of expert large language models (LLMs), where after each response, the generative LLM dynamically reweighs its set of experts and/or selects the optimal committee of experts to generate the most accurate response. Our results introduce new methodologies and no-regret guarantees for combining multiple experts to improve on the performance of the an aggregate model overall.
- Abstract(参考訳): 我々は,エキスパート誘導型バンディット学習の利用について検討し,それをオンライン・ミックス・オブ・エキスパート(OMoE)と呼ぶ。
この設定では、状況に応じて、専門家の候補委員会は、集計精度の観点で最適な結果を得るために、アウトプットをどのように集約するかを決定する必要がある。
この問題に対処するアルゴリズムを2つ提案する。
第1のアルゴリズムは、集計投票と UCB による逐次除去を組み合わせ、最適下探索行動を効率的に決定する。
第二のアルゴリズムはオンラインの重み付き投票機構を採用し、それぞれの専門家の投票力を予測力に比例して活用する。
理想的な状況下では,バンディット設定における後悔性に関する理論的保証を導出し,それに応じて実験結果を提供する。
応用に関する最近の研究として、これらの手法を専門家の大規模言語モデル(LLM)のオンライン微調整に適用し、各応答の後、生成LDMはその専門家の集合を動的に振り返り、最も正確な応答を生成するために専門家の最適な委員会を選定する。
本研究は,複数の専門家を組み合わせて総合モデルの性能向上を図るための新しい手法とノンレグレット保証を導入する。
関連論文リスト
- Conformal Set-based Human-AI Complementarity with Multiple Experts [1.1510009152620668]
本研究は、複数の人間専門家のプールからインスタンス固有の専門家を選定することに焦点を当てる。
我々は、共形集合を利用して、インスタンスの分類に使用される専門家予測のサブセットを識別するグリーディアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-08-09T14:17:51Z) - ExpertRAG: Efficient RAG with Mixture of Experts -- Optimizing Context Retrieval for Adaptive LLM Responses [0.0]
ExpertRAGは、Mixture-of-Experts (MoE)アーキテクチャとRetrieval Augmented Generation (RAG)を統合する新しい理論フレームワークである
本稿では,エキスパートルーティングと組み合わせた動的検索ゲーティング機構を提案し,モデルが外部知識ストアを選択的に参照したり,専門的な内部エキスパートに依存したりすることを可能にする。
本稿では,選択検索による計算コストの削減と,スパース専門家の利用によるキャパシティゲインの定量化を行う。
論文 参考訳(メタデータ) (2025-03-23T17:26:23Z) - Evaluating Ensemble Methods for News Recommender Systems [50.90330146667386]
本稿では,Microsoft News データセット (MIND) において,様々な最先端アルゴリズムを組み合わさって優れた結果を得るために,アンサンブル手法をどのように利用できるかを示す。
その結果,NRSアルゴリズムの組み合わせは,基礎学習者が十分に多様であることから,個々のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-23T13:40:50Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Expert-guided Bayesian Optimisation for Human-in-the-loop Experimental
Design of Known Systems [0.0]
我々は,高スループット(バッチ)ベイズ最適化と人類学的決定理論を併用して,ドメインの専門家が最適実験の選択に影響を及ぼすことを可能にする。
我々の方法論は、人間が連続的な選択よりも個別に選択する方が優れているという仮説を利用しており、専門家が重要な早期決定に影響を及ぼすことを可能にする。
論文 参考訳(メタデータ) (2023-12-05T16:09:31Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Optimal Tracking in Prediction with Expert Advice [0.0]
専門家のアドバイス設定を用いて予測を検証し、専門家の集合が生み出す決定を組み合わせて意思決定を行うことを目的とする。
我々は、専門家のアドバイス設定による予測の下で、最小限の動的後悔を達成する。
我々のアルゴリズムは、このような普遍的に最適で適応的で真にオンラインの保証を、事前の知識なしで生成した最初のアルゴリズムです。
論文 参考訳(メタデータ) (2022-08-07T12:29:54Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。