論文の概要: Efficient and Interpretable Bandit Algorithms
- arxiv url: http://arxiv.org/abs/2310.14751v2
- Date: Thu, 8 Feb 2024 22:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:19:38.865104
- Title: Efficient and Interpretable Bandit Algorithms
- Title(参考訳): 効率的かつ解釈可能なバンディットアルゴリズム
- Authors: Subhojyoti Mukherjee, Ruihao Zhu, Branislav Kveton
- Abstract要約: バンドアルゴリズムは、未知のモデルパラメータの不確実性を減少させる目的で探索した場合、解釈可能である。
本稿では,制約付き最適設計に基づく帯域幅アルゴリズムCODEを提案する。
- 参考スコア(独自算出の注目度): 18.99853072645046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the importance of explainability in modern machine learning, we
design bandit algorithms that are efficient and interpretable. A bandit
algorithm is interpretable if it explores with the objective of reducing
uncertainty in the unknown model parameter. To quantify the interpretability,
we introduce a novel metric of model error, which compares the rate reduction
of the mean reward estimates to their actual means among all the plausible
actions. We propose CODE, a bandit algorithm based on a Constrained Optimal
DEsign, that is interpretable and maximally reduces the uncertainty. The key
idea in CODE is to explore among all plausible actions, determined by a
statistical constraint, to achieve interpretability. We implement CODE
efficiently in both multi-armed and linear bandits and derive near-optimal
regret bounds by leveraging the optimality criteria of the approximate optimal
design. CODE can be also viewed as removing phases in conventional phased
elimination, which makes it more practical and general. We demonstrate the
advantage of CODE by numerical experiments on both synthetic and real-world
problems. CODE outperforms other state-of-the-art interpretable designs while
matching the performance of popular but uninterpretable designs, such as upper
confidence bound algorithms.
- Abstract(参考訳): 現代の機械学習における説明可能性の重要性に動機づけられ、効率的かつ解釈可能なバンディットアルゴリズムを設計した。
バンディットアルゴリズムは、未知のモデルパラメータの不確実性を減らす目的で探索するときに解釈可能である。
解釈可能性の定量化を目的として, 平均報酬推定値の削減率と実測値との比較を行ったモデル誤差の新たな指標を提案する。
本稿では,制約付き最適設計に基づく帯域幅アルゴリズムであるCODEを提案する。
CODEの鍵となる考え方は、統計的制約によって決定されるすべての可算的なアクションを探索し、解釈可能性を達成することである。
我々は, 最適設計の最適基準を利用して, マルチアーム・リニアバンドのCODEを効率的に実装し, ほぼ最適後悔境界を導出する。
また、CODEは従来の位相除去の位相を除去するものと見なすことができ、より実用的で一般的なものである。
合成問題と実世界問題の両方において数値実験によりCODEの利点を実証する。
CODEは他の最先端の解釈可能な設計よりも優れており、高い信頼度境界アルゴリズムのような一般的なが解釈不能な設計の性能と一致している。
関連論文リスト
- Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Revisiting and Advancing Fast Adversarial Training Through The Lens of
Bi-Level Optimization [60.72410937614299]
提案手法は,2レベルAT(FAST-BAT)と呼ばれる新しいアルゴリズムセットの設計と解析である。
FAST-BATは、グラデーションサインメソッドや明示的なロバスト正規化を呼ぶことなく、符号ベースの投射降下(PGD)攻撃を防御することができる。
論文 参考訳(メタデータ) (2021-12-23T06:25:36Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - Adaptive Discretization for Model-Based Reinforcement Learning [10.21634042036049]
本稿では,適応離散化手法を導入し,効率的なモデルに基づくエピソード強化学習アルゴリズムを設計する。
我々のアルゴリズムは、空間の適応的な離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
論文 参考訳(メタデータ) (2020-07-01T19:36:46Z) - Interpretable Random Forests via Rule Extraction [0.0]
本稿では,ルールの短時間かつ単純なリストの形式を取り入れた,安定なルール学習アルゴリズムであるSIRUSを紹介する。
当社のR/C++ソフトウェア実装サイラスは、CRANから入手可能です。
論文 参考訳(メタデータ) (2020-04-29T08:13:35Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。