論文の概要: Robust Experimentation in the Continuous Time Bandit Problem
- arxiv url: http://arxiv.org/abs/2104.00102v1
- Date: Wed, 31 Mar 2021 20:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:19:55.202141
- Title: Robust Experimentation in the Continuous Time Bandit Problem
- Title(参考訳): 連続時間バンディット問題におけるロバスト実験
- Authors: Farzad Pourbabaee
- Abstract要約: 意思決定者(DM)の実験ダイナミクスを2本腕のバンディット設定で検討する。
DM値関数と最適な実験戦略を特徴づけます。
この新しい情報源の結果として,探索しきい値が曖昧に上昇することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the experimentation dynamics of a decision maker (DM) in a two-armed
bandit setup (Bolton and Harris (1999)), where the agent holds ambiguous
beliefs regarding the distribution of the return process of one arm and is
certain about the other one. The DM entertains Multiplier preferences a la
Hansen and Sargent (2001), thus we frame the decision making environment as a
two-player differential game against nature in continuous time. We characterize
the DM value function and her optimal experimentation strategy that turns out
to follow a cut-off rule with respect to her belief process. The belief
threshold for exploring the ambiguous arm is found in closed form and is shown
to be increasing with respect to the ambiguity aversion index. We then study
the effect of provision of an unambiguous information source about the
ambiguous arm. Interestingly, we show that the exploration threshold rises
unambiguously as a result of this new information source, thereby leading to
more conservatism. This analysis also sheds light on the efficient time to
reach for an expert opinion.
- Abstract(参考訳): 両腕のバンディット構成(Bolton and Harris (1999))における意思決定者 (DM) の実験力学について検討し, エージェントは一方の腕の戻り過程の分布について曖昧な信念を持ち, 他方の腕について確実であることを示した。
The DM entertains Multiplier preferences a la Hansen and Sargent (2001), we frame the decision making environment as a two-player differential game against nature in continuous time。
dm値関数と、その信念過程に関してカットオフ規則に従うことが判明した最適実験戦略を特徴付ける。
曖昧なアームを探索するための信念閾値は閉じた形で見出され、曖昧さ回避指数に対して増加していることが示されている。
次に、あいまいな腕に関する曖昧な情報ソースの提供の効果について検討する。
興味深いことに、この新たな情報ソースの結果として探索しきい値があいまいに上昇し、より保守的になる。
この分析は、専門家の意見を得るための効率的な時間にも光を当てます。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Thompson Sampling in Partially Observable Contextual Bandits [2.465689259704613]
我々は、観測データに基づいて最適な腕を選択することを学ぶための盗賊政策について研究する。
我々の理論的分析は、トンプソンサンプリング政策が探索と搾取のバランスをうまくとれることを示している。
これらの技術は、文脈情報や部分的な観察とともに、他の意思決定問題の研究への道を開く。
論文 参考訳(メタデータ) (2024-02-15T19:37:39Z) - Worst-Case Optimal Multi-Armed Gaussian Best Arm Identification with a
Fixed Budget [10.470114319701576]
本研究は、腕を最も期待できる結果に識別する実験的な設計問題について検討する。
分散が知られているという仮定のもと、一般化ネマン割当(GNA)-経験的ベストアーム(EBA)戦略を提案する。
GNA-EBA戦略は、誤同定の確率が下界と一致するという意味で無限に最適であることを示す。
論文 参考訳(メタデータ) (2023-10-30T17:52:46Z) - Optimal Best Arm Identification with Fixed Confidence in Restless Bandits [66.700654953613]
本研究は,有限個の腕を持つレスレス・マルチアーム・バンディット・セッティングにおけるベスト・アーム識別について検討する。
各アームによって生成された離散時間データは、共通の有限状態空間で値を取る同質マルコフ連鎖を形成する。
その結果,あるマルコフ決定過程の長期的挙動の追跡とその状態-行動的訪問比率が,逆および達成可能性境界を解析するための重要な要素であることが示唆された。
論文 参考訳(メタデータ) (2023-10-20T10:04:05Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Adaptive Experimentation in the Presence of Exogenous Nonstationary
Variation [10.66863856524397]
マルチアームバンディットアルゴリズムは、ハイパフォーマンスなアームへの計測作業を動的に割り当てることで効率を向上させることができる。
我々は、トンプソンサンプリングアルゴリズムのより堅牢な変種である、分解されたトンプソンサンプリング(DTS)を提案する。
一般的な高信頼度有界アルゴリズムのデコンストラクタが完全にフェール可能であることを示す。
論文 参考訳(メタデータ) (2022-02-18T06:09:04Z) - The Countable-armed Bandit with Vanishing Arms [8.099977107670918]
我々は、数え切れないほど多くの腕を有限個の「型」に分割したバンドイット問題を考える。
非定常分布は、腕の個体群における各腕型の相対的な存在量を支配しており、いわゆる「腕貯水池」である。
論文 参考訳(メタデータ) (2021-10-23T02:47:55Z) - Combining Reward Information from Multiple Sources [28.201364025385054]
異なるソースから学んだ2つの相反する報酬関数で設定の問題を研究します。
マルチタスク逆リワード設計 (MIRD) という新しいアルゴリズムを提案し、それを単純なベースラインの範囲と比較する。
論文 参考訳(メタデータ) (2021-03-22T19:23:24Z) - Online Model Selection: a Rested Bandit Formulation [49.69377391589057]
静止したバンディット設定における最善のアーム識別問題を紹介し,解析する。
我々は、この問題の後悔の新しい概念を定義し、ゲームの終わりに最小の期待損失を持つ腕を常に再生するポリシーと比較します。
最近のバンディット文献における既知のモデル選択の試みとは異なり、アルゴリズムは問題の特定の構造を利用して、予想される損失関数の未知のパラメータを学習する。
論文 参考訳(メタデータ) (2020-12-07T08:23:08Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。