論文の概要: A Framework for Fair Evaluation of Variance-Aware Bandit Algorithms
- arxiv url: http://arxiv.org/abs/2510.27001v1
- Date: Thu, 30 Oct 2025 21:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.913679
- Title: A Framework for Fair Evaluation of Variance-Aware Bandit Algorithms
- Title(参考訳): 分散対応帯域幅アルゴリズムの公平な評価のためのフレームワーク
- Authors: Elise Wolf,
- Abstract要約: マルチアームバンディット(MAB)問題は、より複雑な強化学習アルゴリズムの基本的な構成要素として機能する。
MABアルゴリズムの評価と比較は、標準化された条件と複製性がないため、依然として難しい。
本稿では8つの古典的および分散を考慮したMABアルゴリズムを体系的に比較する再現可能な評価法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-armed bandit (MAB) problems serve as a fundamental building block for more complex reinforcement learning algorithms. However, evaluating and comparing MAB algorithms remains challenging due to the lack of standardized conditions and replicability. This is particularly problematic for variance-aware extensions of classical methods like UCB, whose performance can heavily depend on the underlying environment. In this study, we address how performance differences between bandit algorithms can be reliably observed, and under what conditions variance-aware algorithms outperform classical ones. We present a reproducible evaluation designed to systematically compare eight classical and variance-aware MAB algorithms. The evaluation framework, implemented in our Bandit Playground codebase, features clearly defined experimental setups, multiple performance metrics (reward, regret, reward distribution, value-at-risk, and action optimality), and an interactive evaluation interface that supports consistent and transparent analysis. We show that variance-aware algorithms can offer advantages in settings with high uncertainty where the difficulty arises from subtle differences between arm rewards. In contrast, classical algorithms often perform equally well or better in more separable scenarios or if fine-tuned extensively. Our contributions are twofold: (1) a framework for systematic evaluation of MAB algorithms, and (2) insights into the conditions under which variance-aware approaches outperform their classical counterparts.
- Abstract(参考訳): マルチアームバンディット(MAB)問題は、より複雑な強化学習アルゴリズムの基本的な構成要素として機能する。
しかし、MABアルゴリズムの評価と比較は、標準化された条件の欠如と複製性のため、依然として困難である。
これは、基盤となる環境に大きく依存する UCB のような古典的手法の分散を意識した拡張において特に問題となる。
本研究では,バンディットアルゴリズムの性能差を確実に観測し,従来のアルゴリズムよりも優れた条件下での分散認識アルゴリズムについて検討する。
本稿では8つの古典的および分散を考慮したMABアルゴリズムを体系的に比較する再現可能な評価法を提案する。
Bandit Playgroundのコードベースで実装された評価フレームワークは、明確に定義された実験的なセットアップ、複数のパフォーマンスメトリクス(逆、後悔、報酬分布、バリュー・アット・リスク、アクション最適性)、一貫性と透過的な分析をサポートするインタラクティブな評価インターフェースを備えている。
両腕の報酬の微妙な相違から困難が生じるような不確実性の高い設定では,分散認識アルゴリズムが有利であることを示す。
対照的に、古典的アルゴリズムは、より分離可能なシナリオや、広範囲に微調整された場合において、等しく、あるいはより良く機能する。
コントリビューションは,(1)MABアルゴリズムの体系的評価のためのフレームワーク,(2)分散認識アプローチが従来の手法よりも優れている条件に対する洞察である。
関連論文リスト
- Time to Rethink AI for Combinatorial Optimization: Classical Algorithms Remain Tough to Match [36.092099713670414]
先進的なAIにインスパイアされた手法は、最先端の古典的解法であるKaMISによって一貫して性能が向上していることを示す。
LTFT(GNetをベースとする)のような非バックトラックAIメソッドは、最も単純な学位ベースの欲求と同様の推論に終わる。
論文 参考訳(メタデータ) (2025-02-05T23:24:47Z) - Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。
既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。
クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-01T16:38:29Z) - Different Horses for Different Courses: Comparing Bias Mitigation Algorithms in ML [9.579645248339004]
いくつかのアルゴリズムが達成した公正度に有意なばらつきを示し、学習パイプラインが公正度スコアに与える影響を明らかにした。
ほとんどのバイアス軽減技術は同等のパフォーマンスを実現することができると強調する。
私たちの研究は、アルゴリズムの開発ライフサイクルにおける様々な選択が公正性にどのように影響するか、将来の研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-11-17T15:17:08Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Batch Bayesian Optimization for Replicable Experimental Design [56.64902148159355]
多くの実世界の設計問題は、大規模で異質な観測ノイズのため、複数の実験条件を並列に評価し、各条件を複数回再現する。
本稿では,3つのアルゴリズムを含むReplicable Experimental Designフレームワークのバッチトンプソンサンプリングを提案する。
我々は,アルゴリズムの有効性を,精密農業とAutoMLの2つの実世界の応用例で示す。
論文 参考訳(メタデータ) (2023-11-02T12:46:03Z) - HARRIS: Hybrid Ranking and Regression Forests for Algorithm Selection [75.84584400866254]
両アプローチの強みを両アプローチの弱さを緩和しつつ組み合わせ, 特殊林を利用した新しいアルゴリズムセレクタを提案する。
HARRISの決定は、ハイブリッドランキングと回帰損失関数に基づいて最適化された木を作成する森林モデルに基づいている。
論文 参考訳(メタデータ) (2022-10-31T14:06:11Z) - On the Assessment of Benchmark Suites for Algorithm Comparison [7.501426386641256]
BBOBスイートのほとんどのベンチマーク関数は、高い難易度(最適化アルゴリズムと比較)と低い差別性を有することを示す。
我々は、ベンチマークスイートの設計を改善することを含む、ベンチマークにおけるIRTの潜在的な使用について論じる。
論文 参考訳(メタデータ) (2021-04-15T11:20:11Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。