論文の概要: An empirical evaluation of active inference in multi-armed bandits
- arxiv url: http://arxiv.org/abs/2101.08699v2
- Date: Sat, 23 Jan 2021 13:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 13:00:49.976895
- Title: An empirical evaluation of active inference in multi-armed bandits
- Title(参考訳): 多腕包帯における能動推論の実証評価
- Authors: Dimitrije Markovic, Hrvoje Stojic, Sarah Schwoebel, and Stefan J.
Kiebel
- Abstract要約: アクティブ推論フレームワークは、探索と探索のトレードオフを解決するための洗練された戦略によって区別される。
効率的で近似可能なスケーラブルなアクティブ推論アルゴリズムを導き出し、2つの最先端のバンディットアルゴリズムと比較します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key feature of sequential decision making under uncertainty is a need to
balance between exploiting--choosing the best action according to the current
knowledge, and exploring--obtaining information about values of other actions.
The multi-armed bandit problem, a classical task that captures this trade-off,
served as a vehicle in machine learning for developing bandit algorithms that
proved to be useful in numerous industrial applications. The active inference
framework, an approach to sequential decision making recently developed in
neuroscience for understanding human and animal behaviour, is distinguished by
its sophisticated strategy for resolving the exploration-exploitation
trade-off. This makes active inference an exciting alternative to already
established bandit algorithms. Here we derive an efficient and scalable
approximate active inference algorithm and compare it to two state-of-the-art
bandit algorithms: Bayesian upper confidence bound and optimistic Thompson
sampling. This comparison is done on two types of bandit problems: a stationary
and a dynamic switching bandit. Our empirical evaluation shows that the active
inference algorithm does not produce efficient long-term behaviour in
stationary bandits. However, in the more challenging switching bandit problem
active inference performs substantially better than the two state-of-the-art
bandit algorithms. The results open exciting venues for further research in
theoretical and applied machine learning, as well as lend additional
credibility to active inference as a general framework for studying human and
animal behaviour.
- Abstract(参考訳): 不確実性の下でのシーケンシャルな意思決定の重要な特徴は、エクスプロイト — 現在の知識に従って最善の行動を選択すること、他のアクションの価値に関する情報を探索することのバランスを取る必要があることである。
このトレードオフを捉えた古典的なタスクであるマルチアームバンディット問題は、多くの産業用途で有用なバンディットアルゴリズムを開発するための機械学習の手段として機能した。
人間と動物の行動を理解するための神経科学で最近開発されたシーケンシャルな意思決定のアプローチであるアクティブ推論フレームワークは、探索と探索のトレードオフを解決するための洗練された戦略によって区別される。
これにより、アクティブ推論は、既に確立されたbanditアルゴリズムのエキサイティングな代替手段となる。
ここでは、効率的でスケーラブルな近似能動推論アルゴリズムを導出し、最先端のバンディットアルゴリズムであるベイジアン上限値と楽観的なトンプソンサンプリングと比較する。
この比較は固定および動的切替バンディットの2種類のバンドイット問題に対して行われる。
我々の経験的評価は,本アルゴリズムが静止帯の効率的な長期的挙動を生まないことを示している。
しかし、より困難なスイッチングバンディット問題では、アクティブ推論は2つの最先端バンディットアルゴリズムよりもかなり優れている。
結果は、理論と応用機械学習のさらなる研究のためのエキサイティングな会場を開き、人間と動物の行動を研究するための一般的なフレームワークとして、アクティブ推論にさらなる信頼性を与えました。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。
ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-18T21:52:14Z) - Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Dual Instrumental Method for Confounded Kernelized Bandits [0.0]
文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。
本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。
双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:25:57Z) - Statistical Consequences of Dueling Bandits [0.0]
マルチアーマッド・バンディットのフレームワークは、しばしば教育介入を評価するために使われてきた。
近年の研究では、学生が嗜好の誘惑を通じて質的なフィードバックを提供する方が有益であることが示されている。
我々は,従来の一様サンプリング法とデュエルバンディットアルゴリズムを比較し,デュエルバンディットアルゴリズムが累積後悔最小化時に良好に動作することを示すが,特定の状況下でのType-I誤差率の増大と消費電力の低減につながる。
論文 参考訳(メタデータ) (2021-10-16T23:48:43Z) - Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms [74.55200180156906]
文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。
我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-05T22:30:21Z) - Using Subjective Logic to Estimate Uncertainty in Multi-Armed Bandit
Problems [0.0]
我々は、ディリクレ・マルチノミカルモデルを表現する簡潔で表現力のある枠組みである主観的論理の形式主義を主観的意見として考える。
マルチアームバンディット問題に対処するために,主観論理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-17T14:53:17Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Hyper-parameter Tuning for the Contextual Bandit [22.721128745617076]
本稿では,線形報酬関数の設定によるコンテキスト的帯域問題における探索的エクスプロイトトレードオフの学習問題について検討する。
提案アルゴリズムは,観測された文脈に基づいて,適切な探索パラメータをオンラインで選択することを学ぶ。
ここでは,文脈的帯域幅アルゴリズムの最適探索を求めるために,帯域幅を用いた2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T17:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。