論文の概要: Robust Reward Design for Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2406.05086v1
- Date: Fri, 7 Jun 2024 17:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:12:42.507017
- Title: Robust Reward Design for Markov Decision Processes
- Title(参考訳): マルコフ決定過程のロバスト・リワード設計
- Authors: Shuo Wu, Haoxiang Ma, Jie Fu, Shuo Han,
- Abstract要約: 報酬設計に対する現在のアプローチは、フォロワーが報酬修正にどう反応するかの正確なモデルに依存しています。
従者モデリングにおける不確実性に対する堅牢性を提供するソリューションを提案する。
- 参考スコア(独自算出の注目度): 25.08806070378985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of reward design examines the interaction between a leader and a follower, where the leader aims to shape the follower's behavior to maximize the leader's payoff by modifying the follower's reward function. Current approaches to reward design rely on an accurate model of how the follower responds to reward modifications, which can be sensitive to modeling inaccuracies. To address this issue of sensitivity, we present a solution that offers robustness against uncertainties in modeling the follower, including 1) how the follower breaks ties in the presence of nonunique best responses, 2) inexact knowledge of how the follower perceives reward modifications, and 3) bounded rationality of the follower. Our robust solution is guaranteed to exist under mild conditions and can be obtained numerically by solving a mixed-integer linear program. Numerical experiments on multiple test cases demonstrate that our solution improves robustness compared to the standard approach without incurring significant additional computing costs.
- Abstract(参考訳): 報酬設計の問題は、リーダーとフォロワーの相互作用を調べ、リーダーは、フォロワーの報酬機能を変更することで、リーダーの報酬を最大化するために、フォロワーの行動を形成することを目的としている。
報酬設計に対する現在のアプローチは、フォロワーが報酬修正にどう反応するかの正確なモデルに依存しており、それは不正確なモデリングに敏感である。
この感度の問題に対処するため、従者のモデリングにおける不確実性に対して堅牢性を提供するソリューションを提案する。
1) フォロワーは、不均一なベストレスポンスの存在において、どのように関係を断ち切るか。
2 追随者が報酬の改定をどう知覚するかについての不正確な知識及び
3) 従者の有界合理性
我々の堅牢な解は、穏やかな条件下で存在することが保証されており、混合整数線形プログラムを解くことで数値的に得ることができる。
複数のテストケースの数値実験により、我々の解法は、計算コストの大幅な増大を伴わずに、標準手法に比べて堅牢性を向上することを示した。
関連論文リスト
- Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
モデルに基づくオフライン強化学習(RL)への現在のアプローチは、しばしば不確実性に基づく報酬のペナル化を取り入れている。
この罰則は過度な保守主義をもたらし、過小評価による過度な最適政策をもたらす可能性があると我々は主張する。
我々は,ベルマン作用素における不確実性を伝播できる信頼性の高い不確実性推定器の欠如を,過納化の重要な原因とみなす。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - Scalarisation-based risk concepts for robust multi-objective optimisation [4.12484724941528]
この問題の多目的事例について検討する。
我々は、ロバストな多目的アルゴリズムの大多数が、ロバスト化とスカラー化という2つの重要な操作に依存していることを確認した。
これらの操作は必ずしも可換であるとは限らないので、それらが実行される順序は結果の解に影響を及ぼす。
論文 参考訳(メタデータ) (2024-05-16T16:11:00Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文 参考訳(メタデータ) (2021-06-28T17:37:49Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Identifiability in inverse reinforcement learning [0.0]
逆強化学習はマルコフ決定問題における報酬関数の再構成を試みる。
エントロピー正則化問題に対するこの非識別可能性に対する解決法を提供する。
論文 参考訳(メタデータ) (2021-06-07T10:35:52Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。