論文の概要: Risk-Averse Multi-Armed Bandits with Unobserved Confounders: A Case
Study in Emotion Regulation in Mobile Health
- arxiv url: http://arxiv.org/abs/2209.04356v1
- Date: Fri, 9 Sep 2022 15:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 13:15:29.086671
- Title: Risk-Averse Multi-Armed Bandits with Unobserved Confounders: A Case
Study in Emotion Regulation in Mobile Health
- Title(参考訳): 非観血的共同設立者とのリスク・アバース多関節バンド : モバイルヘルスにおける情動制御の事例研究
- Authors: Yi Shen, Jessilyn Dunn, Michael M. Zavlanos
- Abstract要約: リスク・アヴァース・マルチアーム・バンディット(MAB)問題として,低いリターンのリスクを最小限に抑える政策の学習を目標とする。
本研究では,この問題を専門家と学習者エージェント間の伝達学習問題として定式化し,専門家が観察できるだけでなく,学習者によっても観察できる文脈の存在を考察する。
- 参考スコア(独自算出の注目度): 13.432293223420032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider a risk-averse multi-armed bandit (MAB) problem
where the goal is to learn a policy that minimizes the risk of low expected
return, as opposed to maximizing the expected return itself, which is the
objective in the usual approach to risk-neutral MAB. Specifically, we formulate
this problem as a transfer learning problem between an expert and a learner
agent in the presence of contexts that are only observable by the expert but
not by the learner. Thus, such contexts are unobserved confounders (UCs) from
the learner's perspective. Given a dataset generated by the expert that
excludes the UCs, the goal for the learner is to identify the true minimum-risk
arm with fewer online learning steps, while avoiding possible biased decisions
due to the presence of UCs in the expert's data.
- Abstract(参考訳): 本稿では、リスクニュートラルMABに対する通常のアプローチの目的である期待したリターンを最大化するのとは対照的に、低いリターンのリスクを最小限に抑える政策を学ぶことを目標とするリスクアバースマルチアームバンディット(MAB)問題を考える。
具体的には,この問題を,専門家と学習者エージェント間の伝達学習問題として定式化し,専門家によってのみ観察できるが学習者によっては観察できないコンテキストの存在下で述べる。
したがって、このような文脈は学習者の視点から観察されていない共同設立者(ucs)である。
UCを除外する専門家によって生成されたデータセットを前提として、学習者の目標は、専門家のデータにUCが存在することによるバイアスのある決定を回避しつつ、オンライン学習のステップが少ない真の最小リスクアームを特定することである。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Fundamental Tradeoffs in Learning with Prior Information [4.302265156822829]
我々は、ミニマックスとベイズリスクという伝統的な概念とは異なる優先順位付けされたリスクの概念を導入する。
古典的ミニマックスローバウンド手法の拡張に対する一般還元に基づくアプローチを提案する。
先行情報と学習性能のトレードオフに関する洞察を提供するためのフレームワークの能力について説明する。
論文 参考訳(メタデータ) (2023-04-26T12:05:55Z) - Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk
Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。
予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。
本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文 参考訳(メタデータ) (2023-01-14T21:43:18Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Risk-Monotonicity in Statistical Learning [8.461907111368628]
トレーニングにおけるリスクと不安定性の非単調な振る舞いが現れ、人気のあるディープラーニングパラダイムに現れている。
我々は、弱い仮定の下での一般統計学習のための最初の一貫した(高い確率で)リスク単調なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-11-28T12:52:12Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。