論文の概要: Eliciting Risk Aversion with Inverse Reinforcement Learning via
Interactive Questioning
- arxiv url: http://arxiv.org/abs/2308.08427v1
- Date: Wed, 16 Aug 2023 15:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:53:56.191541
- Title: Eliciting Risk Aversion with Inverse Reinforcement Learning via
Interactive Questioning
- Title(参考訳): 対話型質問による逆強化学習によるリスク回避
- Authors: Ziteng Cheng and Anthony Coache and Sebastian Jaimungal
- Abstract要約: 本稿では,対話型質問を用いたエージェントのリスク回避のための新しいフレームワークを提案する。
エージェントのリスク回避は、質問の数が無限大になる傾向があり、質問がランダムに設計されるため、特定できることを示す。
我々のフレームワークはロボアドバイスに重要な応用があり、エージェントのリスク嗜好を特定するための新しいアプローチを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel framework for identifying an agent's risk
aversion using interactive questioning. Our study is conducted in two
scenarios: a one-period case and an infinite horizon case. In the one-period
case, we assume that the agent's risk aversion is characterized by a cost
function of the state and a distortion risk measure. In the infinite horizon
case, we model risk aversion with an additional component, a discount factor.
Assuming the access to a finite set of candidates containing the agent's true
risk aversion, we show that asking the agent to demonstrate her optimal
policies in various environment, which may depend on their previous answers, is
an effective means of identifying the agent's risk aversion. Specifically, we
prove that the agent's risk aversion can be identified as the number of
questions tends to infinity, and the questions are randomly designed. We also
develop an algorithm for designing optimal questions and provide empirical
evidence that our method learns risk aversion significantly faster than
randomly designed questions in simulations. Our framework has important
applications in robo-advising and provides a new approach for identifying an
agent's risk preferences.
- Abstract(参考訳): 本稿では,対話型質問を用いたエージェントのリスク回避のための新しいフレームワークを提案する。
本研究は,一周期の場合と無限水平の場合の2つのシナリオで実施する。
一時期の場合、エージェントのリスク回避は、状態のコスト関数と歪みリスク測度によって特徴づけられると仮定する。
無限地平線の場合、追加成分である割引係数を用いてリスク回避をモデル化する。
エージェントの真のリスク回避を含む有限の候補セットへのアクセスを仮定すると、エージェントに、そのエージェントのリスク回避を識別するための効果的な手段として、さまざまな環境において彼女の最適なポリシーを示すように依頼することが示される。
具体的には、エージェントのリスク回避は、質問の数が無限になりがちであり、質問がランダムに設計されていることを証明します。
また,最適質問の設計アルゴリズムを開発し,シミュレーションにおいてランダムに設計された質問よりもリスク回避がはるかに早く学習できることを実証的に証明する。
我々のフレームワークはロボアドバイスに重要な応用があり、エージェントのリスク嗜好を特定するための新しいアプローチを提供する。
関連論文リスト
- Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。
経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。
検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - RiskBench: A Scenario-based Benchmark for Risk Identification [4.263035319815899]
この研究は、リスク識別、ダイナミックなトラフィック参加者と予期せぬイベントから生じるリスクを特定し分析するプロセスに焦点を当てている。
リスク識別のための大規模シナリオベースベンチマークである textbfRiskBench を紹介する。
我々は,(1)リスクの検出と発見,(2)リスクの予測,(3)意思決定の促進を行う10のアルゴリズムの能力を評価する。
論文 参考訳(メタデータ) (2023-12-04T06:21:22Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - SafeAR: Safe Algorithmic Recourse by Risk-Aware Policies [2.291948092032746]
本稿では,コストの変動を考慮したレコメンデーションポリシーの計算手法を提案する。
我々は,既存のデシダラタが高コストのリスクを捕捉できないことを示す。
論文 参考訳(メタデータ) (2023-08-23T18:12:11Z) - Distinguishing Risk Preferences using Repeated Gambles [0.0]
繰り返しギャンブルのシーケンスは、人間や人工的な意思決定エージェントのリスク嗜好を特徴づける実験ツールを提供する。
エージェントの富が増大するにつれて、エージェントのリスク選好を区別することがますます困難になっていることを示す。
論文 参考訳(メタデータ) (2023-08-14T10:27:58Z) - Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits [81.60136088841948]
本稿では,時間軸における後悔を最小限に抑えるアルゴリズムを提案する。
提案アルゴリズムは,レコメンデーションシステムや交通機関などの分野に適用可能である。
論文 参考訳(メタデータ) (2023-01-31T03:49:00Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。