論文の概要: Regret Analysis for Hierarchical Experts Bandit Problem
- arxiv url: http://arxiv.org/abs/2208.05622v1
- Date: Thu, 11 Aug 2022 03:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:22:48.645691
- Title: Regret Analysis for Hierarchical Experts Bandit Problem
- Title(参考訳): 階層的専門家の帯域問題に対する回帰分析
- Authors: Qihan Guo (1), Siwei Wang (1), Jun Zhu (1) ((1) Tsinghua University)
- Abstract要約: 我々は、R層の専門家が存在する標準バンディット問題の拡張について研究する。
学習方針の目標は、この階層的な専門家の設定における全後悔を最小限に抑えることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study an extension of standard bandit problem in which there are R layers
of experts. Multi-layered experts make selections layer by layer and only the
experts in the last layer can play arms. The goal of the learning policy is to
minimize the total regret in this hierarchical experts setting. We first
analyze the case that total regret grows linearly with the number of layers.
Then we focus on the case that all experts are playing Upper Confidence Bound
(UCB) strategy and give several sub-linear upper bounds for different
circumstances. Finally, we design some experiments to help the regret analysis
for the general case of hierarchical UCB structure and show the practical
significance of our theoretical results. This article gives many insights about
reasonable hierarchical decision structure.
- Abstract(参考訳): 我々は、R層の専門家が存在する標準バンディット問題の拡張について研究する。
複数層の専門家は層ごとに選択層を作り、最後の層の専門家だけが腕を組むことができる。
学習方針の目標は、この階層的な専門家の設定における全後悔を最小限にすることである。
まず,全後悔が階層数とともに線形に増大するケースを分析した。
次に,すべての専門家がアッパー信頼境界(UCB)戦略を実践している場合に注目し,異なる状況下でいくつかのサブ線形上限を与える。
最後に, 階層的 UCB 構造の一般的なケースに対する後悔解析を支援する実験を設計し, 理論的結果の実用的意義を示す。
この記事では、合理的な階層的決定構造に関する多くの洞察を提供する。
関連論文リスト
- Hierarchical Upper Confidence Bounds for Constrained Online Learning [4.8951183832371]
階層的制約付き帯域幅(HCB)フレームワークを導入し、コンテキスト的帯域幅問題を拡張して階層的決定構造とマルチレベル制約を組み込む。
我々の理論的解析はHC-UCBのサブ線形後悔境界を確立し、すべての階層レベルでの制約満足度を高い確率で保証する。
論文 参考訳(メタデータ) (2024-10-22T17:41:14Z) - The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
本研究では,オープンウェイトプレトレーニング LLM の一般家庭を対象とした簡易な階層分割戦略について検討する。
レイヤーの大部分が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-03-26T17:20:04Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Information-Theoretic Regret Bounds for Bandits with Fixed Expert Advice [40.32303434592863]
本研究は,専門家が修正され,行動上の既知の分布を把握した場合に,専門家の助言で盗賊の問題を調査するものである。
この設定における後悔は、専門家間の類似度を測定する情報理論量によって制御されていることを示す。
論文 参考訳(メタデータ) (2023-03-14T17:41:31Z) - Towards Understanding Mixture of Experts in Deep Learning [95.27215939891511]
ニューラルネットワーク学習におけるMoE層の性能向上について検討する。
この結果から,基礎となる問題のクラスタ構造と専門家の非線形性は,MoEの成功に欠かせないことが示唆された。
論文 参考訳(メタデータ) (2022-08-04T17:59:10Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Understanding Deep Architectures with Reasoning Layer [60.90906477693774]
本研究では,アルゴリズムの収束,安定性,感度といった特性が,エンドツーエンドモデルの近似と一般化能力と密接に関連していることを示す。
私たちの理論は、深いアーキテクチャを推論層で設計するための有用なガイドラインを提供することができます。
論文 参考訳(メタデータ) (2020-06-24T00:26:35Z) - Prediction with Corrupted Expert Advice [67.67399390910381]
ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
論文 参考訳(メタデータ) (2020-02-24T14:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。