論文の概要: Using Subjective Logic to Estimate Uncertainty in Multi-Armed Bandit
Problems
- arxiv url: http://arxiv.org/abs/2008.07386v1
- Date: Mon, 17 Aug 2020 14:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:08:58.481823
- Title: Using Subjective Logic to Estimate Uncertainty in Multi-Armed Bandit
Problems
- Title(参考訳): 主観的論理を用いた多腕バンディット問題の不確実性推定
- Authors: Fabio Massimo Zennaro, Audun J{\o}sang
- Abstract要約: 我々は、ディリクレ・マルチノミカルモデルを表現する簡潔で表現力のある枠組みである主観的論理の形式主義を主観的意見として考える。
マルチアームバンディット問題に対処するために,主観論理に基づく新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-armed bandit problem is a classical decision-making problem where
an agent has to learn an optimal action balancing exploration and exploitation.
Properly managing this trade-off requires a correct assessment of uncertainty;
in multi-armed bandits, as in other machine learning applications, it is
important to distinguish between stochasticity that is inherent to the system
(aleatoric uncertainty) and stochasticity that derives from the limited
knowledge of the agent (epistemic uncertainty). In this paper we consider the
formalism of subjective logic, a concise and expressive framework to express
Dirichlet-multinomial models as subjective opinions, and we apply it to the
problem of multi-armed bandits. We propose new algorithms grounded in
subjective logic to tackle the multi-armed bandit problem, we compare them
against classical algorithms from the literature, and we analyze the insights
they provide in evaluating the dynamics of uncertainty. Our preliminary results
suggest that subjective logic quantities enable useful assessment of
uncertainty that may be exploited by more refined agents.
- Abstract(参考訳): マルチアームバンディット問題は、エージェントが探索と搾取のバランスをとる最適なアクションを学習しなければならない古典的な意思決定問題である。
このトレードオフを適切に管理するには、適切な不確実性の評価が必要である; マルチアームの盗賊では、他の機械学習アプリケーションと同様に、システム固有の確率性とエージェントの限られた知識に由来する確率とを区別することが重要である。
本稿では,ディリクレ・多項モデルを主観的意見として表現するための簡潔で表現的な枠組みである主観的論理の形式化を考察し,多元的バンディット問題に適用する。
そこで本研究では,多腕バンディット問題に取り組むために主観論理を基礎とした新しいアルゴリズムを提案し,古典的アルゴリズムと比較し,不確かさのダイナミクスを評価する上で得られる知見を分析する。
予備結果は, 主観的論理量はより洗練されたエージェントによって悪用される可能性のある不確実性の有用な評価を可能にすることを示唆する。
関連論文リスト
- Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Concise and interpretable multi-label rule sets [13.416159628299779]
簡単な「if-then」ルールの簡潔な集合として表現できるマルチラベル分類器を開発した。
提案手法は, 正確なマルチラベル分類に繋がる, 関連パターンの小さな集合を見つけることができる。
論文 参考訳(メタデータ) (2022-10-04T11:23:50Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Ensemble-based Uncertainty Quantification: Bayesian versus Credal
Inference [0.0]
我々は、不確実性定量化に対するアンサンブルに基づくアプローチを検討する。
具体的には,いわゆる干潟集合に基づくベイズ的手法とアプローチに着目する。
拒否オプションを用いた分類に関する実証的研究において, 対応する尺度の有効性を評価し, 比較した。
論文 参考訳(メタデータ) (2021-07-21T22:47:24Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - An empirical evaluation of active inference in multi-armed bandits [0.0]
アクティブ推論フレームワークは、探索と探索のトレードオフを解決するための洗練された戦略によって区別される。
効率的で近似可能なスケーラブルなアクティブ推論アルゴリズムを導き出し、2つの最先端のバンディットアルゴリズムと比較します。
論文 参考訳(メタデータ) (2021-01-21T16:20:06Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。