論文の概要: Distinguishing Risk Preferences using Repeated Gambles
- arxiv url: http://arxiv.org/abs/2308.07054v1
- Date: Mon, 14 Aug 2023 10:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:38:09.985867
- Title: Distinguishing Risk Preferences using Repeated Gambles
- Title(参考訳): 繰り返しギャンブルによるリスク予測の解消
- Authors: James Price, Colm Connaughton
- Abstract要約: 繰り返しギャンブルのシーケンスは、人間や人工的な意思決定エージェントのリスク嗜好を特徴づける実験ツールを提供する。
エージェントの富が増大するにつれて、エージェントのリスク選好を区別することがますます困難になっていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequences of repeated gambles provide an experimental tool to characterize
the risk preferences of humans or artificial decision-making agents. The
difficulty of this inference depends on factors including the details of the
gambles offered and the number of iterations of the game played. In this paper
we explore in detail the practical challenges of inferring risk preferences
from the observed choices of artificial agents who are presented with finite
sequences of repeated gambles. We are motivated by the fact that the strategy
to maximize long-run wealth for sequences of repeated additive gambles (where
gains and losses are independent of current wealth) is different to the
strategy for repeated multiplicative gambles (where gains and losses are
proportional to current wealth.) Accurate measurement of risk preferences would
be needed to tell whether an agent is employing the optimal strategy or not. To
generalize the types of gambles our agents face we use the Yeo-Johnson
transformation, a tool borrowed from feature engineering for time series
analysis, to construct a family of gambles that interpolates smoothly between
the additive and multiplicative cases. We then analyze the optimal strategy for
this family, both analytically and numerically. We find that it becomes
increasingly difficult to distinguish the risk preferences of agents as their
wealth increases. This is because agents with different risk preferences
eventually make the same decisions for sufficiently high wealth. We believe
that these findings are informative for the effective design of experiments to
measure risk preferences in humans.
- Abstract(参考訳): 繰り返しギャンブルのシーケンスは、人間や人工意思決定エージェントのリスク嗜好を特徴付ける実験的なツールを提供する。
この推論の難しさは、提供されたギャンブルの詳細とゲームの繰り返し回数を含む要因に依存する。
本稿では, 繰り返しギャンブルの有限列が提示される人工エージェントの選択から, リスク嗜好を推測する実践上の課題を詳細に検討する。
累積ギャンブル(利益と損失が現在の富に比例する)を繰り返し繰り返す付加的なギャンブル(現在の富とは独立している)のシーケンスに対して、長期的富を最大化する戦略は、反復的な乗算ギャンブル(現在の富に比例する利益と損失)の戦略と異なるという事実に動機づけられている。) エージェントが最適な戦略を採用するかどうかを判断するには、リスク選好の正確な測定が必要である。
エージェントが直面するギャンブルのタイプを一般化するには、時系列分析のために機能工学から借用したツールであるyeo-johnson変換を使用して、加法と乗法ケースをスムーズに補間するギャンブルのファミリーを構築します。
次に,本家系の最適戦略を解析的および数値的に分析する。
エージェントの富が増大するにつれて、エージェントのリスク選好を区別することがますます困難になる。
これは、異なるリスク優先のエージェントが最終的に十分な富のために同じ決定をするからである。
これらの知見は,ヒトのリスク嗜好を測定する実験の効果的な設計に有効であると考えられる。
関連論文リスト
- Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Eliciting Risk Aversion with Inverse Reinforcement Learning via
Interactive Questioning [0.0]
本稿では,対話型質問を用いたエージェントのリスク回避のための新しいフレームワークを提案する。
エージェントのリスク回避は、質問の数が無限大になる傾向があり、質問がランダムに設計されるため、特定できることを示す。
我々のフレームワークはロボアドバイスに重要な応用があり、エージェントのリスク嗜好を特定するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2023-08-16T15:17:57Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk Preferences of Learning Algorithms [0.0]
広く使われている学習アルゴリズムである$varepsilon$-Greedyは、突発的なリスク回避を示す。
このバイアスを修正する2つの方法について議論する。
論文 参考訳(メタデータ) (2022-05-10T01:30:24Z) - Two steps to risk sensitivity [4.974890682815778]
条件付きバリュー・アット・リスク(CVaR)は、人間と動物の計画のモデル化のためのリスク尺度である。
CVaRに対する従来の分布的アプローチを逐次的に導入し、人間の意思決定者の選択を再分析する。
次に,リスク感度,すなわち時間的整合性,さらに重要な特性について考察し,CVaRの代替案を示す。
論文 参考訳(メタデータ) (2021-11-12T16:27:47Z) - Addressing the Long-term Impact of ML Decisions via Policy Regret [49.92903850297013]
意思決定者が腕を引っ張るたびに、各腕からの報酬が進化する状況について検討する。
我々は、許容可能な機会の逐次配分は、成長の可能性を考慮に入れなければならないと論じている。
十分に長い時間的地平線に対して、確実にサブ線形ポリシーを後悔するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-02T17:38:10Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Option Hedging with Risk Averse Reinforcement Learning [34.85783251852863]
リスク回避型強化学習がヘッジオプションにどのように使用できるかを示す。
我々は,バニラオプションヘッジ環境に最先端のリスク逆アルゴリズムを適用した。
論文 参考訳(メタデータ) (2020-10-23T09:08:24Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。