論文の概要: Statistical Consequences of Dueling Bandits
- arxiv url: http://arxiv.org/abs/2111.00870v1
- Date: Sat, 16 Oct 2021 23:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 15:07:54.313759
- Title: Statistical Consequences of Dueling Bandits
- Title(参考訳): デュエルバンドの統計的結果
- Authors: Nayan Saxena, Pan Chen, Emmy Liu
- Abstract要約: マルチアーマッド・バンディットのフレームワークは、しばしば教育介入を評価するために使われてきた。
近年の研究では、学生が嗜好の誘惑を通じて質的なフィードバックを提供する方が有益であることが示されている。
我々は,従来の一様サンプリング法とデュエルバンディットアルゴリズムを比較し,デュエルバンディットアルゴリズムが累積後悔最小化時に良好に動作することを示すが,特定の状況下でのType-I誤差率の増大と消費電力の低減につながる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Armed-Bandit frameworks have often been used by researchers to assess
educational interventions, however, recent work has shown that it is more
beneficial for a student to provide qualitative feedback through preference
elicitation between different alternatives, making a dueling bandits framework
more appropriate. In this paper, we explore the statistical quality of data
under this framework by comparing traditional uniform sampling to a dueling
bandit algorithm and find that dueling bandit algorithms perform well at
cumulative regret minimisation, but lead to inflated Type-I error rates and
reduced power under certain circumstances. Through these results we provide
insight into the challenges and opportunities in using dueling bandit
algorithms to run adaptive experiments.
- Abstract(参考訳): マルチアームバンディットフレームワークは、研究者が教育的介入を評価するためにしばしば用いられてきたが、近年の研究では、学生が異なる選択肢間の選好による質的フィードバックを提供し、デュエル・バンディットフレームワークをより適したものにすることがより有益であることが示されている。
本稿では,従来の一様サンプリング法とデュエルリングバンディット法を比較して,この枠組み下でのデータの統計的品質を考察し,デュリングバンディットアルゴリズムが累積後悔最小化でうまく機能するが,ある種の状況下ではタイプiの誤差率の増大と電力の低減につながることを見出した。
これらの結果を通じて,デュエルバンドアルゴリズムを用いて適応実験を行う際の課題と機会について考察する。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Identifying Copeland Winners in Dueling Bandits with Indifferences [12.96903983663382]
本研究は,3次フィードバックを伴うデュエルバンディット問題において,コペランドの勝者を識別するタスクについて考察する。
我々は,Copeland の勝者を固定誤差確率で求める学習アルゴリズムに対して,サンプルの複雑性を低くする。
我々は,この下界とほぼ一致し,優れた経験的性能を示すサンプル複雑性を持つアルゴリズムPOCOWISTAを提案する。
論文 参考訳(メタデータ) (2023-10-01T17:59:27Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - An empirical evaluation of active inference in multi-armed bandits [0.0]
アクティブ推論フレームワークは、探索と探索のトレードオフを解決するための洗練された戦略によって区別される。
効率的で近似可能なスケーラブルなアクティブ推論アルゴリズムを導き出し、2つの最先端のバンディットアルゴリズムと比較します。
論文 参考訳(メタデータ) (2021-01-21T16:20:06Z) - Lifelong Learning in Multi-Armed Bandits [22.301793734117805]
本研究では,複数台のバンディットフレームワークの問題点を,一連のタスクで発生した後悔を最小化することを目的として検討する。
ほとんどのバンディットアルゴリズムは、最悪のケースの後悔が少ないように設計されていますが、ここでは、以前のディストリビューションから引き出されたバンディットインスタンスに対する平均的な後悔を調べます。
論文 参考訳(メタデータ) (2020-12-28T15:13:31Z) - Reward-Biased Maximum Likelihood Estimation for Linear Stochastic
Bandits [16.042075861624056]
我々は,注文最適性を証明できる新しい指標ポリシーを開発し,最先端のベンチマーク手法と競合する経験的性能を実現することを示す。
新しいポリシーは、線形バンディットに対して1プル当たりの少ない時間でこれを達成し、結果として、好意的な後悔と計算効率の両方をもたらす。
論文 参考訳(メタデータ) (2020-10-08T16:17:53Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Unifying Clustered and Non-stationary Bandits [50.12992652938055]
非定常的盗賊とオンラインの盗賊のクラスタリングは、文脈的盗賊の制約的な仮定を解き放つ。
本研究では,非定常帯域に対する変化検出と,オンライン帯域クラスタリングのためのクラスタ識別をシームレスに行う均質性試験を提案する。
厳密な後悔分析と広範な経験的評価により,提案手法の価値が示された。
論文 参考訳(メタデータ) (2020-09-05T04:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。