論文の概要: An empirical evaluation of active inference in multi-armed bandits
- arxiv url: http://arxiv.org/abs/2101.08699v2
- Date: Sat, 23 Jan 2021 13:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 13:00:49.976895
- Title: An empirical evaluation of active inference in multi-armed bandits
- Title(参考訳): 多腕包帯における能動推論の実証評価
- Authors: Dimitrije Markovic, Hrvoje Stojic, Sarah Schwoebel, and Stefan J.
Kiebel
- Abstract要約: アクティブ推論フレームワークは、探索と探索のトレードオフを解決するための洗練された戦略によって区別される。
効率的で近似可能なスケーラブルなアクティブ推論アルゴリズムを導き出し、2つの最先端のバンディットアルゴリズムと比較します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key feature of sequential decision making under uncertainty is a need to
balance between exploiting--choosing the best action according to the current
knowledge, and exploring--obtaining information about values of other actions.
The multi-armed bandit problem, a classical task that captures this trade-off,
served as a vehicle in machine learning for developing bandit algorithms that
proved to be useful in numerous industrial applications. The active inference
framework, an approach to sequential decision making recently developed in
neuroscience for understanding human and animal behaviour, is distinguished by
its sophisticated strategy for resolving the exploration-exploitation
trade-off. This makes active inference an exciting alternative to already
established bandit algorithms. Here we derive an efficient and scalable
approximate active inference algorithm and compare it to two state-of-the-art
bandit algorithms: Bayesian upper confidence bound and optimistic Thompson
sampling. This comparison is done on two types of bandit problems: a stationary
and a dynamic switching bandit. Our empirical evaluation shows that the active
inference algorithm does not produce efficient long-term behaviour in
stationary bandits. However, in the more challenging switching bandit problem
active inference performs substantially better than the two state-of-the-art
bandit algorithms. The results open exciting venues for further research in
theoretical and applied machine learning, as well as lend additional
credibility to active inference as a general framework for studying human and
animal behaviour.
- Abstract(参考訳): 不確実性の下でのシーケンシャルな意思決定の重要な特徴は、エクスプロイト — 現在の知識に従って最善の行動を選択すること、他のアクションの価値に関する情報を探索することのバランスを取る必要があることである。
このトレードオフを捉えた古典的なタスクであるマルチアームバンディット問題は、多くの産業用途で有用なバンディットアルゴリズムを開発するための機械学習の手段として機能した。
人間と動物の行動を理解するための神経科学で最近開発されたシーケンシャルな意思決定のアプローチであるアクティブ推論フレームワークは、探索と探索のトレードオフを解決するための洗練された戦略によって区別される。
これにより、アクティブ推論は、既に確立されたbanditアルゴリズムのエキサイティングな代替手段となる。
ここでは、効率的でスケーラブルな近似能動推論アルゴリズムを導出し、最先端のバンディットアルゴリズムであるベイジアン上限値と楽観的なトンプソンサンプリングと比較する。
この比較は固定および動的切替バンディットの2種類のバンドイット問題に対して行われる。
我々の経験的評価は,本アルゴリズムが静止帯の効率的な長期的挙動を生まないことを示している。
しかし、より困難なスイッチングバンディット問題では、アクティブ推論は2つの最先端バンディットアルゴリズムよりもかなり優れている。
結果は、理論と応用機械学習のさらなる研究のためのエキサイティングな会場を開き、人間と動物の行動を研究するための一般的なフレームワークとして、アクティブ推論にさらなる信頼性を与えました。
関連論文リスト
- Some performance considerations when using multi-armed bandit algorithms
in the presence of missing data [1.0499611180329804]
マルチアームのバンディットアルゴリズムを使用する場合、欠落するデータの潜在的な影響は見落とされがちである。
ランダムに報酬が失われていると仮定したシミュレーション研究により,欠落したデータが複数の帯域幅アルゴリズムに与える影響について検討した。
論文 参考訳(メタデータ) (2022-05-08T09:20:10Z) - Efficient Algorithms for Learning to Control Bandits with Unobserved
Contexts [1.370633147306388]
そこで本研究では,不完全なコンテキスト観測を行うバンドに対して,実装可能な後部サンプリングアルゴリズムを提案する。
提案アルゴリズムは,ノイズの多い不完全な観測から学習の効率性を明らかにし,それに応じて行動を取る。
論文 参考訳(メタデータ) (2022-02-02T04:03:19Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Statistical Consequences of Dueling Bandits [0.0]
マルチアーマッド・バンディットのフレームワークは、しばしば教育介入を評価するために使われてきた。
近年の研究では、学生が嗜好の誘惑を通じて質的なフィードバックを提供する方が有益であることが示されている。
我々は,従来の一様サンプリング法とデュエルバンディットアルゴリズムを比較し,デュエルバンディットアルゴリズムが累積後悔最小化時に良好に動作することを示すが,特定の状況下でのType-I誤差率の増大と消費電力の低減につながる。
論文 参考訳(メタデータ) (2021-10-16T23:48:43Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms [74.55200180156906]
文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。
我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-05T22:30:21Z) - Robust Stochastic Linear Contextual Bandits Under Adversarial Attacks [81.13338949407205]
近年の研究では、最適なバンディットアルゴリズムは敵攻撃に対して脆弱であり、攻撃の有無で完全に失敗する可能性があることが示されている。
既存の堅牢なバンディットアルゴリズムは、報酬の攻撃下では、非コンテキスト設定でのみ機能する。
完全適応的かつ全能的な攻撃下での線形文脈帯域設定のための最初の頑健な帯域幅アルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-05T22:20:34Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Lifelong Learning in Multi-Armed Bandits [22.301793734117805]
本研究では,複数台のバンディットフレームワークの問題点を,一連のタスクで発生した後悔を最小化することを目的として検討する。
ほとんどのバンディットアルゴリズムは、最悪のケースの後悔が少ないように設計されていますが、ここでは、以前のディストリビューションから引き出されたバンディットインスタンスに対する平均的な後悔を調べます。
論文 参考訳(メタデータ) (2020-12-28T15:13:31Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。