論文の概要: Cooperative Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/1606.03137v4
- Date: Sat, 17 Feb 2024 16:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 22:04:53.720291
- Title: Cooperative Inverse Reinforcement Learning
- Title(参考訳): 協調的逆強化学習
- Authors: Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel, Stuart Russell
- Abstract要約: 協調強化学習(CIRL)としての値アライメント問題の形式的定義を提案する。
CIRL問題は、人間とロボットの2人のエージェントによる協調的部分情報ゲームであり、どちらも人間の報酬関数に従って報酬を受けるが、ロボットは当初それが何であるかを知らない。
古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは活発な教育、活発な学習、コミュニケーション行動などの行動を生み出す。
- 参考スコア(独自算出の注目度): 64.60722062217417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For an autonomous system to be helpful to humans and to pose no unwarranted
risks, it needs to align its values with those of the humans in its environment
in such a way that its actions contribute to the maximization of value for the
humans. We propose a formal definition of the value alignment problem as
cooperative inverse reinforcement learning (CIRL). A CIRL problem is a
cooperative, partial-information game with two agents, human and robot; both
are rewarded according to the human's reward function, but the robot does not
initially know what this is. In contrast to classical IRL, where the human is
assumed to act optimally in isolation, optimal CIRL solutions produce behaviors
such as active teaching, active learning, and communicative actions that are
more effective in achieving value alignment. We show that computing optimal
joint policies in CIRL games can be reduced to solving a POMDP, prove that
optimality in isolation is suboptimal in CIRL, and derive an approximate CIRL
algorithm.
- Abstract(参考訳): 自律的なシステムが人間に役立ち、不確実なリスクを伴わないためには、その行動が人間の価値の最大化に寄与するように、その価値を環境内の人間のものと一致させる必要がある。
本稿では,協調逆強化学習(CIRL)として,値アライメント問題の形式的定義を提案する。
cirl問題(cirl problem)は、人間とロボットの2つのエージェントによる協調的な部分的な情報ゲームである。
古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは、積極的教育、能動的学習、より効果的なコミュニケーション行動などの行動を生み出す。
我々は,CIRLゲームにおける最適ジョイントポリシーの計算をPOMDPの解法に還元し,CIRLにおける最適性が準最適であることを証明し,近似CIRLアルゴリズムを導出することを示した。
関連論文リスト
- MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Multiagent Inverse Reinforcement Learning via Theory of Mind Reasoning [0.0]
我々は,Multiagent Inverse Reinforcement Learning(MIRL)に対する新しいアプローチを提案する。
MIRLは、タスクパフォーマンス中に与えられた各チームの振る舞いの軌跡を導く報酬関数を推論することを目的としている。
シミュレーション2-player search-and-rescue 動作におけるアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-02-20T19:07:42Z) - Offline Reinforcement Learning for Human-Guided Human-Machine
Interaction with Private Information [110.42866062614912]
個人情報を含む人間と機械の相互作用について検討する。
本ゲームでは,オフライン強化学習(RL)に注目した。
そこで我々は,新たな識別結果を開発し,それを用いて新たな非政治評価手法を提案する。
論文 参考訳(メタデータ) (2022-12-23T06:26:44Z) - Privacy-Preserving Reinforcement Learning Beyond Expectation [6.495883501989546]
自動運転車のような機械学習アルゴリズムを備えたサイバーおよびサイバー物理システムは、環境を人間と共有する。
システム(またはエージェント)の振る舞いを1人以上のユーザの好みに合わせることが重要である。
エージェントが未知の環境で行動を学ぶ必要がある場合を考える。
論文 参考訳(メタデータ) (2022-03-18T21:28:29Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。