論文の概要: Inverse Reinforcement Learning with Sub-optimal Experts
- arxiv url: http://arxiv.org/abs/2401.03857v1
- Date: Mon, 8 Jan 2024 12:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:48:11.839986
- Title: Inverse Reinforcement Learning with Sub-optimal Experts
- Title(参考訳): 準最適専門家による逆強化学習
- Authors: Riccardo Poiani, Gabriele Curti, Alberto Maria Metelli, Marcello
Restelli
- Abstract要約: 与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
- 参考スコア(独自算出の注目度): 56.553106680769474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse Reinforcement Learning (IRL) techniques deal with the problem of
deducing a reward function that explains the behavior of an expert agent who is
assumed to act optimally in an underlying unknown task. In several problems of
interest, however, it is possible to observe the behavior of multiple experts
with different degree of optimality (e.g., racing drivers whose skills ranges
from amateurs to professionals). For this reason, in this work, we extend the
IRL formulation to problems where, in addition to demonstrations from the
optimal agent, we can observe the behavior of multiple sub-optimal experts.
Given this problem, we first study the theoretical properties of the class of
reward functions that are compatible with a given set of experts, i.e., the
feasible reward set. Our results show that the presence of multiple sub-optimal
experts can significantly shrink the set of compatible rewards. Furthermore, we
study the statistical complexity of estimating the feasible reward set with a
generative model. To this end, we analyze a uniform sampling algorithm that
results in being minimax optimal whenever the sub-optimal experts' performance
level is sufficiently close to the one of the optimal agent.
- Abstract(参考訳): 逆強化学習(IRL)技術は、下層の未知のタスクにおいて最適に振る舞うと仮定される専門家エージェントの振る舞いを説明する報酬関数を推論する問題を扱う。
しかし、関心のあるいくつかの問題では、複数の専門家の最適度の異なる行動(例えば、アマチュアからプロまでスキルの異なるレーシングドライバー)を観察することが可能である。
このことから,本研究では,最適なエージェントによるデモンストレーションに加えて,複数のサブ最適専門家の振る舞いを観察できる問題まで,irlの定式化を拡張する。
この問題を考えると、我々はまず、与えられた専門家集合、すなわち実現可能な報酬集合と適合する報酬関数のクラスの理論的性質について研究する。
以上の結果から,複数の準最適専門家の存在は,相反する報酬の組を大幅に縮小できることが示唆された。
さらに,生成モデルを用いて実現可能な報酬集合を推定する統計的複雑性について検討した。
そこで本研究では,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合,最小限のサンプリングアルゴリズムを解析する。
関連論文リスト
- On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。
本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文 参考訳(メタデータ) (2024-11-22T16:31:36Z) - Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。
最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。
モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文 参考訳(メタデータ) (2024-07-16T21:28:03Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - Human-Algorithm Collaborative Bayesian Optimization for Engineering Systems [0.0]
我々は、協調ベイズ最適化のためのアプローチを概説することで、データ駆動意思決定ループに人間を再導入する。
我々の手法は、人間は連続的な選択よりも離散的な選択をより効率的に行うことができるという仮説を生かしている。
本稿では, バイオプロセス最適化やリアクトル幾何設計を含む, 応用および数値ケーススタディにまたがるアプローチを実証する。
論文 参考訳(メタデータ) (2024-04-16T23:17:04Z) - Divide and not forget: Ensemble of selectively trained experts in Continual Learning [0.2886273197127056]
クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
論文 参考訳(メタデータ) (2024-01-18T18:25:29Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Inverse Reinforcement Learning via Matching of Optimality Profiles [2.561053769852449]
準最適あるいは不均一な性能の実証から報酬関数を学習するアルゴリズムを提案する。
提案手法は,報酬関数を最適化するためのポリシーが,報酬関数の適合に使用する実演よりも優れるような報酬関数を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-18T13:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。