論文の概要: Risk-averse Batch Active Inverse Reward Design
- arxiv url: http://arxiv.org/abs/2311.12004v1
- Date: Mon, 20 Nov 2023 18:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:25:14.183697
- Title: Risk-averse Batch Active Inverse Reward Design
- Title(参考訳): リスク回避バッチアクティブ逆報酬設計
- Authors: Panagiotis Liampas
- Abstract要約: Active Inverse Reward Design (AIRD) は、単一のトレーニング環境での報酬関数を比較する一連のクエリの使用を提案している。
現実世界の環境に現れる未知の機能の可能性を無視し、エージェントが報酬関数を完全に学習するまでに必要な安全対策を無視する。
この手法を改良してRBAIRD(Hass-averse Active Inverse Reward Design)を作成し、実世界で使用される際にエージェントが遭遇する環境の集合を構築し、それらを順次処理し、所定の回数のイテレーションに対して、人間がバッチの各環境に対して答える必要があるかを問い合わせる。
RB
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing a perfect reward function that depicts all the aspects of the
intended behavior is almost impossible, especially generalizing it outside of
the training environments. Active Inverse Reward Design (AIRD) proposed the use
of a series of queries, comparing possible reward functions in a single
training environment. This allows the human to give information to the agent
about suboptimal behaviors, in order to compute a probability distribution over
the intended reward function. However, it ignores the possibility of unknown
features appearing in real-world environments, and the safety measures needed
until the agent completely learns the reward function. I improved this method
and created Risk-averse Batch Active Inverse Reward Design (RBAIRD), which
constructs batches, sets of environments the agent encounters when being used
in the real world, processes them sequentially, and, for a predetermined number
of iterations, asks queries that the human needs to answer for each environment
of the batch. After this process is completed in one batch, the probabilities
have been improved and are transferred to the next batch. This makes it capable
of adapting to real-world scenarios and learning how to treat unknown features
it encounters for the first time. I also integrated a risk-averse planner,
similar to that of Inverse Reward Design (IRD), which samples a set of reward
functions from the probability distribution and computes a trajectory that
takes the most certain rewards possible. This ensures safety while the agent is
still learning the reward function, and enables the use of this approach in
situations where cautiousness is vital. RBAIRD outperformed the previous
approaches in terms of efficiency, accuracy, and action certainty, demonstrated
quick adaptability to new, unknown features, and can be more widely used for
the alignment of crucial, powerful AI models.
- Abstract(参考訳): 意図した行動のすべての側面を描写する完全な報酬関数を設計することは、特にトレーニング環境外の一般化では、ほとんど不可能である。
Active Inverse Reward Design (AIRD) は、単一のトレーニング環境での報酬関数を比較する一連のクエリの使用を提案している。
これにより、意図された報酬関数上の確率分布を計算するために、人間はエージェントに最適な行動に関する情報を与えることができる。
しかし、現実の環境に現れる未知の機能の可能性や、エージェントが報酬機能を完全に学習するまでの安全対策は無視される。
この手法を改良してRBAIRD(Hass-averse Active Inverse Reward Design)を作成し、実世界で使用される際にエージェントが遭遇する環境の集合を構築し、それらを順次処理し、所定の回数のイテレーションに対して、人間がバッチの各環境に対して答える必要があるかを問い合わせる。
このプロセスが1つのバッチで完了した後、確率が改善され、次のバッチに転送される。
これにより、現実世界のシナリオに適応し、初めて遭遇する未知の機能をどのように扱うかを学ぶことができる。
また、確率分布から報酬関数のセットをサンプリングし、可能な限り特定の報酬を取る軌道を計算するinverse reward design(ird)と同様のリスク回避プランナーも統合しました。
これにより、エージェントが報酬関数を学習している間に安全性が保証され、慎重さが不可欠の状況においてこのアプローチが使用できる。
RBAIRDは、効率性、正確性、行動確実性の観点から以前のアプローチよりも優れており、新しい未知の機能への迅速な適応性を示し、重要で強力なAIモデルのアライメントに広く使用することができる。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。