論文の概要: Two steps to risk sensitivity
- arxiv url: http://arxiv.org/abs/2111.06803v1
- Date: Fri, 12 Nov 2021 16:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 13:44:57.295100
- Title: Two steps to risk sensitivity
- Title(参考訳): リスクを冒すための2つのステップ
- Authors: Chris Gagne and Peter Dayan
- Abstract要約: 条件付きバリュー・アット・リスク(CVaR)は、人間と動物の計画のモデル化のためのリスク尺度である。
CVaRに対する従来の分布的アプローチを逐次的に導入し、人間の意思決定者の選択を再分析する。
次に,リスク感度,すなわち時間的整合性,さらに重要な特性について考察し,CVaRの代替案を示す。
- 参考スコア(独自算出の注目度): 4.974890682815778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional reinforcement learning (RL) -- in which agents learn about all
the possible long-term consequences of their actions, and not just the expected
value -- is of great recent interest. One of the most important affordances of
a distributional view is facilitating a modern, measured, approach to risk when
outcomes are not completely certain. By contrast, psychological and
neuroscientific investigations into decision making under risk have utilized a
variety of more venerable theoretical models such as prospect theory that lack
axiomatically desirable properties such as coherence. Here, we consider a
particularly relevant risk measure for modeling human and animal planning,
called conditional value-at-risk (CVaR), which quantifies worst-case outcomes
(e.g., vehicle accidents or predation). We first adopt a conventional
distributional approach to CVaR in a sequential setting and reanalyze the
choices of human decision-makers in the well-known two-step task, revealing
substantial risk aversion that had been lurking under stickiness and
perseveration. We then consider a further critical property of risk
sensitivity, namely time consistency, showing alternatives to this form of CVaR
that enjoy this desirable characteristic. We use simulations to examine
settings in which the various forms differ in ways that have implications for
human and animal planning and behavior.
- Abstract(参考訳): 分散強化学習(Retributal reinforcement learning, RL) - エージェントが行動の長期的影響について、期待値だけでなく、全てを学習する分野は、最近の大きな関心事である。
分散的視点の最も重要な価値の1つは、結果が完全に確実でない場合にリスクに対する近代的で測定されたアプローチを促進することである。
対照的に、リスクの下での意思決定に関する心理学的および神経科学的調査は、コヒーレンスのような公理的に望ましい性質を欠くプロスペクト理論のような、より崇高な理論モデルを用いてきた。
本稿では,最悪の事例(自動車事故や捕食など)を定量化する条件付きバリュー・アット・リスク(CVaR)と呼ばれる,人間と動物の計画のモデル化に関する特に関連するリスク尺度を検討する。
まず,cvarに対する従来の分布的アプローチを逐次的に適用し,よく知られた二段階課題における意思決定者の選択を再検討し,粘着性と持続性に潜んでいる実質的なリスク回避を明らかにする。
次に、この望ましい特徴を享受するCVaRの代替として、リスク感度、すなわち時間一貫性のさらなる重要な特性について考察する。
様々な形態が人間や動物の計画や行動にどのように影響するかをシミュレーションによって検証する。
関連論文リスト
- Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。
経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。
検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Extreme Risk Mitigation in Reinforcement Learning using Extreme Value
Theory [10.288413564829579]
リスク認識の重要な側面は、破滅的な結果をもたらす可能性のある非常に稀なリスクイベント(リワード)をモデル化することである。
リスクを意識したRL手法は存在するが、リスク回避のレベルは状態-作用値関数の推定の精度に大きく依存している。
本研究では、状態-作用値関数分布によって予測される極端な値の予測を精査することに着目し、非常に稀で危険な事象に直面した場合のRLエージェントのレジリエンスを高めることを提案する。
論文 参考訳(メタデータ) (2023-08-24T18:23:59Z) - On (assessing) the fairness of risk score models [2.0646127669654826]
リスクモデルは、ユーザに対して潜在的な結果について不確実性を伝えるという事実など、さまざまな理由から関心を集めている。
リスクスコアフェアネスの鍵となるデシダータムとして,異なるグループに類似した価値を提供する。
本稿では,従来提案されていた基準値よりも試料径バイアスが少ない新しい校正誤差指標を提案する。
論文 参考訳(メタデータ) (2023-02-17T12:45:51Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Catastrophe, Compounding & Consistency in Choice [4.974890682815778]
条件付きバリュー・アット・リスク(CVaR)は、稀で破滅的な出来事が決定よりも与える影響を正確に特徴づける。
これらの例は、リスク態度を特徴付けることを目的として、将来の実験を基礎にすることができる。
論文 参考訳(メタデータ) (2021-11-12T16:33:06Z) - Enabling risk-aware Reinforcement Learning for medical interventions
through uncertainty decomposition [9.208828373290487]
複雑な制御と意思決定の問題に対処するためのツールとして強化学習(RL)が登場している。
エージェントが学習した明らかに最適なポリシーと、実際の展開の間のギャップを埋めることは、しばしば困難である。
本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
論文 参考訳(メタデータ) (2021-09-16T09:36:53Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - A General Framework for Survival Analysis and Multi-State Modelling [70.31153478610229]
ニューラル常微分方程式を多状態生存モデル推定のためのフレキシブルで一般的な方法として用いる。
また,本モデルでは,サバイバルデータセット上での最先端性能を示すとともに,マルチステート環境での有効性を示す。
論文 参考訳(メタデータ) (2020-06-08T19:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。