論文の概要: Inverse Reinforcement Learning with Sub-optimal Experts
- arxiv url: http://arxiv.org/abs/2401.03857v1
- Date: Mon, 8 Jan 2024 12:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:48:11.839986
- Title: Inverse Reinforcement Learning with Sub-optimal Experts
- Title(参考訳): 準最適専門家による逆強化学習
- Authors: Riccardo Poiani, Gabriele Curti, Alberto Maria Metelli, Marcello
Restelli
- Abstract要約: 与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
- 参考スコア(独自算出の注目度): 56.553106680769474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse Reinforcement Learning (IRL) techniques deal with the problem of
deducing a reward function that explains the behavior of an expert agent who is
assumed to act optimally in an underlying unknown task. In several problems of
interest, however, it is possible to observe the behavior of multiple experts
with different degree of optimality (e.g., racing drivers whose skills ranges
from amateurs to professionals). For this reason, in this work, we extend the
IRL formulation to problems where, in addition to demonstrations from the
optimal agent, we can observe the behavior of multiple sub-optimal experts.
Given this problem, we first study the theoretical properties of the class of
reward functions that are compatible with a given set of experts, i.e., the
feasible reward set. Our results show that the presence of multiple sub-optimal
experts can significantly shrink the set of compatible rewards. Furthermore, we
study the statistical complexity of estimating the feasible reward set with a
generative model. To this end, we analyze a uniform sampling algorithm that
results in being minimax optimal whenever the sub-optimal experts' performance
level is sufficiently close to the one of the optimal agent.
- Abstract(参考訳): 逆強化学習(IRL)技術は、下層の未知のタスクにおいて最適に振る舞うと仮定される専門家エージェントの振る舞いを説明する報酬関数を推論する問題を扱う。
しかし、関心のあるいくつかの問題では、複数の専門家の最適度の異なる行動(例えば、アマチュアからプロまでスキルの異なるレーシングドライバー)を観察することが可能である。
このことから,本研究では,最適なエージェントによるデモンストレーションに加えて,複数のサブ最適専門家の振る舞いを観察できる問題まで,irlの定式化を拡張する。
この問題を考えると、我々はまず、与えられた専門家集合、すなわち実現可能な報酬集合と適合する報酬関数のクラスの理論的性質について研究する。
以上の結果から,複数の準最適専門家の存在は,相反する報酬の組を大幅に縮小できることが示唆された。
さらに,生成モデルを用いて実現可能な報酬集合を推定する統計的複雑性について検討した。
そこで本研究では,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合,最小限のサンプリングアルゴリズムを解析する。
関連論文リスト
- Divide and not forget: Ensemble of selectively trained experts in
Continual Learning [15.92212414572829]
クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
論文 参考訳(メタデータ) (2024-01-18T18:25:29Z) - Expert-guided Bayesian Optimisation for Human-in-the-loop Experimental
Design of Known Systems [0.0]
我々は,高スループット(バッチ)ベイズ最適化と人類学的決定理論を併用して,ドメインの専門家が最適実験の選択に影響を及ぼすことを可能にする。
我々の方法論は、人間が連続的な選択よりも個別に選択する方が優れているという仮説を利用しており、専門家が重要な早期決定に影響を及ぼすことを可能にする。
論文 参考訳(メタデータ) (2023-12-05T16:09:31Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Identifiability and generalizability from multiple experts in Inverse
Reinforcement Learning [39.632717308147825]
強化学習(Reinforcement Learning, RL)は、ある環境における報酬関数からエージェントを訓練することを目的としている。
逆強化学習(IRL)は、専門家の行動を観察して報酬関数を回復させようとする。
論文 参考訳(メタデータ) (2022-09-22T12:50:00Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Deep Adaptive Multi-Intention Inverse Reinforcement Learning [0.0]
本稿では,ラベルのない専門家のデモンストレーションから,事前の未知の非線形報酬関数を学習可能な,深い逆強化学習フレームワークを提案する。
このツールをディリクレプロセスから採用し、複雑な報酬関数と未知の報酬関数の両方を同時に考慮する適応的アプローチを提案する。
論文 参考訳(メタデータ) (2021-07-14T13:33:01Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Inverse Reinforcement Learning via Matching of Optimality Profiles [2.561053769852449]
準最適あるいは不均一な性能の実証から報酬関数を学習するアルゴリズムを提案する。
提案手法は,報酬関数を最適化するためのポリシーが,報酬関数の適合に使用する実演よりも優れるような報酬関数を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-18T13:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。