論文の概要: Regret Analysis for Hierarchical Experts Bandit Problem
- arxiv url: http://arxiv.org/abs/2208.05622v1
- Date: Thu, 11 Aug 2022 03:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:22:48.645691
- Title: Regret Analysis for Hierarchical Experts Bandit Problem
- Title(参考訳): 階層的専門家の帯域問題に対する回帰分析
- Authors: Qihan Guo (1), Siwei Wang (1), Jun Zhu (1) ((1) Tsinghua University)
- Abstract要約: 我々は、R層の専門家が存在する標準バンディット問題の拡張について研究する。
学習方針の目標は、この階層的な専門家の設定における全後悔を最小限に抑えることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study an extension of standard bandit problem in which there are R layers
of experts. Multi-layered experts make selections layer by layer and only the
experts in the last layer can play arms. The goal of the learning policy is to
minimize the total regret in this hierarchical experts setting. We first
analyze the case that total regret grows linearly with the number of layers.
Then we focus on the case that all experts are playing Upper Confidence Bound
(UCB) strategy and give several sub-linear upper bounds for different
circumstances. Finally, we design some experiments to help the regret analysis
for the general case of hierarchical UCB structure and show the practical
significance of our theoretical results. This article gives many insights about
reasonable hierarchical decision structure.
- Abstract(参考訳): 我々は、R層の専門家が存在する標準バンディット問題の拡張について研究する。
複数層の専門家は層ごとに選択層を作り、最後の層の専門家だけが腕を組むことができる。
学習方針の目標は、この階層的な専門家の設定における全後悔を最小限にすることである。
まず,全後悔が階層数とともに線形に増大するケースを分析した。
次に,すべての専門家がアッパー信頼境界(UCB)戦略を実践している場合に注目し,異なる状況下でいくつかのサブ線形上限を与える。
最後に, 階層的 UCB 構造の一般的なケースに対する後悔解析を支援する実験を設計し, 理論的結果の実用的意義を示す。
この記事では、合理的な階層的決定構造に関する多くの洞察を提供する。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Information-Theoretic Regret Bounds for Bandits with Fixed Expert Advice [40.32303434592863]
本研究は,専門家が修正され,行動上の既知の分布を把握した場合に,専門家の助言で盗賊の問題を調査するものである。
この設定における後悔は、専門家間の類似度を測定する情報理論量によって制御されていることを示す。
論文 参考訳(メタデータ) (2023-03-14T17:41:31Z) - Towards Understanding Mixture of Experts in Deep Learning [95.27215939891511]
ニューラルネットワーク学習におけるMoE層の性能向上について検討する。
この結果から,基礎となる問題のクラスタ構造と専門家の非線形性は,MoEの成功に欠かせないことが示唆された。
論文 参考訳(メタデータ) (2022-08-04T17:59:10Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Exploring Neural Networks Quantization via Layer-Wise Quantization
Analysis [1.2183405753834562]
量子化は、ディープラーニングモデルの効率的な展開に不可欠なステップです。
量子化の使用が過度の劣化をもたらす故障ケースを解析および修正する方法を示します。
論文 参考訳(メタデータ) (2020-12-15T16:57:53Z) - A Deeper Look at the Hessian Eigenspectrum of Deep Neural Networks and
its Applications to Regularization [16.98526336526696]
各層におけるヘッシアンの固有スペクトルを研究することにより、層状損失のランドスケープを研究する。
特に, 層状ヘッセン幾何学はヘッセン幾何学の全体とほとんど類似していることが示された。
層状ヘッシアンの痕跡に基づく新しい正則化器を提案する。
論文 参考訳(メタデータ) (2020-12-07T15:42:44Z) - Understanding Deep Architectures with Reasoning Layer [60.90906477693774]
本研究では,アルゴリズムの収束,安定性,感度といった特性が,エンドツーエンドモデルの近似と一般化能力と密接に関連していることを示す。
私たちの理論は、深いアーキテクチャを推論層で設計するための有用なガイドラインを提供することができます。
論文 参考訳(メタデータ) (2020-06-24T00:26:35Z) - Prediction with Corrupted Expert Advice [67.67399390910381]
ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
論文 参考訳(メタデータ) (2020-02-24T14:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。