論文の概要: Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse
Reward Learning with Iterative Reasoning and Cumulative Prospect Theory
- arxiv url: http://arxiv.org/abs/2009.01495v7
- Date: Sun, 21 Mar 2021 02:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:09:30.936062
- Title: Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse
Reward Learning with Iterative Reasoning and Cumulative Prospect Theory
- Title(参考訳): 有界リスクに敏感なマルコフゲーム:反復推論と累積予測理論を用いた前方政策設計と逆報酬学習
- Authors: Ran Tian, Liting Sun, and Masayoshi Tomizuka
- Abstract要約: 本稿では,リスクに敏感なマルコフゲーム(BRSMG)とその逆報酬学習問題について検討する。
我々は,BRSMGにおいて,人間は知能を制限し,リスクに敏感なユーティリティを最大化することを示した。
その結果, エージェントの行動は, リスク・リバース特性とリスク・サーキング特性の両方を示すことがわかった。
- 参考スコア(独自算出の注目度): 33.57592649823294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical game-theoretic approaches for multi-agent systems in both the
forward policy design problem and the inverse reward learning problem often
make strong rationality assumptions: agents perfectly maximize expected
utilities under uncertainties. Such assumptions, however, substantially
mismatch with observed humans' behaviors such as satisficing with sub-optimal,
risk-seeking, and loss-aversion decisions. In this paper, we investigate the
problem of bounded risk-sensitive Markov Game (BRSMG) and its inverse reward
learning problem for modeling human realistic behaviors and learning human
behavioral models. Drawing on iterative reasoning models and cumulative
prospect theory, we embrace that humans have bounded intelligence and maximize
risk-sensitive utilities in BRSMGs. Convergence analysis for both the forward
policy design and the inverse reward learning problems are established under
the BRSMG framework. We validate the proposed forward policy design and inverse
reward learning algorithms in a navigation scenario. The results show that the
behaviors of agents demonstrate both risk-averse and risk-seeking
characteristics. Moreover, in the inverse reward learning task, the proposed
bounded risk-sensitive inverse learning algorithm outperforms a baseline
risk-neutral inverse learning algorithm by effectively recovering not only more
accurate reward values but also the intelligence levels and the risk-measure
parameters given demonstrations of agents' interactive behaviors.
- Abstract(参考訳): フォワードポリシー設計問題と逆報酬学習問題の両方におけるマルチエージェントシステムに対する古典的なゲーム理論的アプローチは、しばしば強い合理性仮定をもたらす。
しかし、そのような仮定は、準最適性、リスク探索、損失回避決定に満足するといった観察された人間の行動と実質的には一致しない。
本稿では,人間の現実的行動をモデル化し,人間の行動モデルを学ぶための境界的リスク感応マルコフゲーム(brsmg)とその逆報酬学習問題について検討する。
反復的推論モデルと累積的予測理論に基づいて、BRSMGにおける人間は知性に縛られ、リスクに敏感なユーティリティを最大化する。
BRSMGフレームワークでは、フォワードポリシー設計と逆報酬学習の問題の両方の収束解析が確立されている。
ナビゲーションシナリオにおいて提案した前方ポリシー設計と逆報酬学習アルゴリズムを検証する。
その結果, 薬剤の挙動は, リスク回避特性とリスク発見特性の両方を示した。
さらに,提案手法は,より正確な報酬値だけでなく,エージェントの対話行動のデモンストレーションによって与えられた知性レベルやリスク測定パラメータを効果的に回復することにより,ベースラインのリスク中立な逆学習アルゴリズムよりも優れている。
関連論文リスト
- Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。
我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。
本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文 参考訳(メタデータ) (2024-09-16T08:54:59Z) - Taming Equilibrium Bias in Risk-Sensitive Multi-Agent Reinforcement Learning [14.571671587217764]
リスクに敏感なマルチエージェント強化学習を一般的なマルコフゲームで研究する。
本研究では,既存の文献から帰納的に適用した後悔を評価指標として,均衡バイアスを伴う政策を導出できることを示す。
我々は、リスクバランスのとれた後悔の概念を新たに提案し、均衡バイアスの問題を克服していることを示す。
論文 参考訳(メタデータ) (2024-05-04T17:47:45Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On the Theory of Risk-Aware Agents: Bridging Actor-Critic and Economics [0.7655800373514546]
リスク対応強化学習アルゴリズムは、さまざまな継続的なタスクにおいて、リスクニュートラルなアルゴリズムよりも優れていた。
これらのアルゴリズムが採用する悲観的目的の理論的基礎は、まだ確立されていない。
本稿では,2つのアクターネットワークを特徴とするリスク認識型モデルフリーアルゴリズムとして,Dual Actor-Critic (DAC)を提案する。
論文 参考訳(メタデータ) (2023-10-30T13:28:06Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Reinforcement Learning with Dynamic Convex Risk Measures [0.0]
モデルレス強化学習(RL)を用いた時間一貫性リスク感応的最適化問題の解法を開発する。
我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。
論文 参考訳(メタデータ) (2021-12-26T16:41:05Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。