論文の概要: Information-Theoretic Regret Bounds for Bandits with Fixed Expert Advice
- arxiv url: http://arxiv.org/abs/2303.08102v1
- Date: Tue, 14 Mar 2023 17:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:48:00.589332
- Title: Information-Theoretic Regret Bounds for Bandits with Fixed Expert Advice
- Title(参考訳): 固定専門家アドバイザを用いた帯域情報理論レグレクト境界
- Authors: Khaled Eldowa, Nicol\`o Cesa-Bianchi, Alberto Maria Metelli, Marcello
Restelli
- Abstract要約: 本研究は,専門家が修正され,行動上の既知の分布を把握した場合に,専門家の助言で盗賊の問題を調査するものである。
この設定における後悔は、専門家間の類似度を測定する情報理論量によって制御されていることを示す。
- 参考スコア(独自算出の注目度): 40.32303434592863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the problem of bandits with expert advice when the experts are
fixed and known distributions over the actions. Improving on previous analyses,
we show that the regret in this setting is controlled by information-theoretic
quantities that measure the similarity between experts. In some natural special
cases, this allows us to obtain the first regret bound for EXP4 that can get
arbitrarily close to zero if the experts are similar enough. While for a
different algorithm, we provide another bound that describes the similarity
between the experts in terms of the KL-divergence, and we show that this bound
can be smaller than the one of EXP4 in some cases. Additionally, we provide
lower bounds for certain classes of experts showing that the algorithms we
analyzed are nearly optimal in some cases.
- Abstract(参考訳): 我々は,専門家が修正され,行動に関する既知の分布が存在する場合に,専門家のアドバイスにより,バンディットの問題を調査する。
先行分析を改良した結果,後悔は専門家間の類似性を測定する情報理論量によって制御されることがわかった。
いくつかの自然の特殊ケースでは、専門家が十分に類似しているならば、任意に0に近づくことができるEXP4の最初の後悔境界が得られる。
別のアルゴリズムでは、kl-ダイバージェンスの観点から専門家間の類似性を記述する別のバウンドを提供し、ある場合においてこのバウンドが exp4 のバウンドよりも小さいことを示す。
さらに、ある専門家のクラスに対して、分析したアルゴリズムがほぼ最適であることを示す下限を提供する。
関連論文リスト
- Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - Robust Decision Aggregation with Adversarial Experts [4.751372843411884]
我々は、真理と敵の双方の専門家が存在する場合、二項決定集約問題を考える。
最悪の情報構造下では,後悔を最小限に抑える最適なアグリゲータが見つかる。
論文 参考訳(メタデータ) (2024-03-13T03:47:08Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Second Order Regret Bounds Against Generalized Expert Sequences under
Partial Bandit Feedback [0.0]
本稿では,部分帯域フィードバック設定下でのエキスパートアドバイスの問題について検討し,逐次ミニマックス最適アルゴリズムを作成する。
本アルゴリズムは,従来の帯域幅フィードバックとは対照的に,逆向きに損失を明らかにすることのできる,より一般的な部分的監視設定で動作する。
論文 参考訳(メタデータ) (2022-04-13T22:48:12Z) - Fast rates for prediction with limited expert advice [0.0]
本稿では,情報へのアクセスが制限された有限族における最高の専門家予測に関して,過大な一般化誤差を最小化する問題について検討する。
トレーニングフェーズにおけるTラウンド1ラウンドあたりのエキスパートのアドバイスを1人だけ見ることができれば、最悪の場合の過剰リスクはOmega$(1/$sqrt$T)であり、確率は一定値以下であることが示される。
この設定でこの速度を達成するための新しいアルゴリズムを設計し、与えられた一般化誤差の精度を達成するのに必要な訓練ラウンド数とクエリ数に正確にインスタンス依存のバウンダリを与える。
論文 参考訳(メタデータ) (2021-10-27T14:57:36Z) - Bandits with Stochastic Experts: Constant Regret, Empirical Experts and Episodes [36.104981594178525]
エージェントが一連の専門家ポリシーを介し介入できる文脈的帯域幅問題の変種について検討する。
本稿では,D-UCB(Divergence-based Upper Confidence Bound)アルゴリズムを提案する。
また,経験的D-UCB (ED-UCB) アルゴリズムも提案する。
論文 参考訳(メタデータ) (2021-07-07T14:58:14Z) - Nonstochastic Bandits with Infinitely Many Experts [1.7188280334580197]
無限に多くの専門家と非確率的盗賊の問題を考察する。
有限個の専門家に対して、正しい専門家ランキングの推測を可能にするExp4.Pの変種を提案する。
そして、この変種を無限に多くの専門家に作用するメタアルゴリズムに組み込む。
論文 参考訳(メタデータ) (2021-02-09T22:42:36Z) - Prediction with Corrupted Expert Advice [67.67399390910381]
ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
論文 参考訳(メタデータ) (2020-02-24T14:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。