Fugu-MT 論文翻訳(概要): Risk-averse Batch Active Inverse Reward Design

論文の概要: Risk-averse Batch Active Inverse Reward Design

arxiv url: http://arxiv.org/abs/2311.12004v1
Date: Mon, 20 Nov 2023 18:36:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 17:25:14.183697
Title: Risk-averse Batch Active Inverse Reward Design
Title（参考訳）: リスク回避バッチアクティブ逆報酬設計
Authors: Panagiotis Liampas
Abstract要約: Active Inverse Reward Design (AIRD) は、単一のトレーニング環境での報酬関数を比較する一連のクエリの使用を提案している。現実世界の環境に現れる未知の機能の可能性を無視し、エージェントが報酬関数を完全に学習するまでに必要な安全対策を無視する。この手法を改良してRBAIRD(Hass-averse Active Inverse Reward Design)を作成し、実世界で使用される際にエージェントが遭遇する環境の集合を構築し、それらを順次処理し、所定の回数のイテレーションに対して、人間がバッチの各環境に対して答える必要があるかを問い合わせる。 RB
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Designing a perfect reward function that depicts all the aspects of the intended behavior is almost impossible, especially generalizing it outside of the training environments. Active Inverse Reward Design (AIRD) proposed the use of a series of queries, comparing possible reward functions in a single training environment. This allows the human to give information to the agent about suboptimal behaviors, in order to compute a probability distribution over the intended reward function. However, it ignores the possibility of unknown features appearing in real-world environments, and the safety measures needed until the agent completely learns the reward function. I improved this method and created Risk-averse Batch Active Inverse Reward Design (RBAIRD), which constructs batches, sets of environments the agent encounters when being used in the real world, processes them sequentially, and, for a predetermined number of iterations, asks queries that the human needs to answer for each environment of the batch. After this process is completed in one batch, the probabilities have been improved and are transferred to the next batch. This makes it capable of adapting to real-world scenarios and learning how to treat unknown features it encounters for the first time. I also integrated a risk-averse planner, similar to that of Inverse Reward Design (IRD), which samples a set of reward functions from the probability distribution and computes a trajectory that takes the most certain rewards possible. This ensures safety while the agent is still learning the reward function, and enables the use of this approach in situations where cautiousness is vital. RBAIRD outperformed the previous approaches in terms of efficiency, accuracy, and action certainty, demonstrated quick adaptability to new, unknown features, and can be more widely used for the alignment of crucial, powerful AI models.
Abstract（参考訳）: 意図した行動のすべての側面を描写する完全な報酬関数を設計することは、特にトレーニング環境外の一般化では、ほとんど不可能である。 Active Inverse Reward Design (AIRD) は、単一のトレーニング環境での報酬関数を比較する一連のクエリの使用を提案している。これにより、意図された報酬関数上の確率分布を計算するために、人間はエージェントに最適な行動に関する情報を与えることができる。しかし、現実の環境に現れる未知の機能の可能性や、エージェントが報酬機能を完全に学習するまでの安全対策は無視される。この手法を改良してRBAIRD(Hass-averse Active Inverse Reward Design)を作成し、実世界で使用される際にエージェントが遭遇する環境の集合を構築し、それらを順次処理し、所定の回数のイテレーションに対して、人間がバッチの各環境に対して答える必要があるかを問い合わせる。このプロセスが1つのバッチで完了した後、確率が改善され、次のバッチに転送される。これにより、現実世界のシナリオに適応し、初めて遭遇する未知の機能をどのように扱うかを学ぶことができる。また、確率分布から報酬関数のセットをサンプリングし、可能な限り特定の報酬を取る軌道を計算するinverse reward design(ird)と同様のリスク回避プランナーも統合しました。これにより、エージェントが報酬関数を学習している間に安全性が保証され、慎重さが不可欠の状況においてこのアプローチが使用できる。 RBAIRDは、効率性、正確性、行動確実性の観点から以前のアプローチよりも優れており、新しい未知の機能への迅速な適応性を示し、重要で強力なAIモデルのアライメントに広く使用することができる。

関連論文リスト

Recursive Reward Aggregation [51.552609126905885]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文参考訳（メタデータ） (2025-07-11T12:37:20Z)
Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。 $nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文参考訳（メタデータ） (2022-12-26T15:13:13Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文参考訳（メタデータ） (2021-03-14T15:00:08Z)
Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-17T10:17:45Z)
Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。 BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文参考訳（メタデータ） (2020-07-24T01:52:11Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。