論文の概要: Inverse Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.09999v3
- Date: Fri, 21 May 2021 09:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 22:00:20.861610
- Title: Inverse Constrained Reinforcement Learning
- Title(参考訳): 逆制約強化学習
- Authors: Usman Anwar, Shehryar Malik, Alireza Aghasi, Ali Ahmed
- Abstract要約: 本研究では,制約を受けるエージェントの行動の実証から制約を学習する問題を考察する。
我々のフレームワークは、エージェントが尊重する最も可能性の高い制約をうまく学習できることを示します。
これらの制約は、異なる形態や報酬関数を持つ可能性のある新しいエージェントにテキスト転送可能である。
- 参考スコア(独自算出の注目度): 12.669649178762718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real world settings, numerous constraints are present which are hard to
specify mathematically. However, for the real world deployment of reinforcement
learning (RL), it is critical that RL agents are aware of these constraints, so
that they can act safely. In this work, we consider the problem of learning
constraints from demonstrations of a constraint-abiding agent's behavior. We
experimentally validate our approach and show that our framework can
successfully learn the most likely constraints that the agent respects. We
further show that these learned constraints are \textit{transferable} to new
agents that may have different morphologies and/or reward functions. Previous
works in this regard have either mainly been restricted to tabular (discrete)
settings, specific types of constraints or assume the environment's transition
dynamics. In contrast, our framework is able to learn arbitrary
\textit{Markovian} constraints in high-dimensions in a completely model-free
setting. The code can be found it:
\url{https://github.com/shehryar-malik/icrl}.
- Abstract(参考訳): 実世界の環境では、数学的に特定が難しい多くの制約が存在する。
しかし、実世界における強化学習(RL)の展開においては、RLエージェントがこれらの制約を認識して安全に行動できることが重要である。
本研究では,制約回避エージェントの行動の実証から制約を学習する問題を考察する。
我々は、我々のアプローチを実験的に検証し、我々のフレームワークがエージェントが尊重する最も可能性の高い制約をうまく学習できることを示します。
さらに、これらの制約は、異なる形態や報酬関数を持つ可能性のある新しいエージェントに対して、textit{transferable} であることを示す。
この点に関する以前の研究は、主に表的な(離散的な)設定、特定のタイプの制約に制限されたり、環境の遷移ダイナミクスを前提にしていた。
対照的に、我々のフレームワークは、モデルフリーな設定で、高次元で任意の \textit{markovian} 制約を学習することができる。
url{https://github.com/shehryar-malik/icrl} コードはこちら。
関連論文リスト
- CaT: Constraints as Terminations for Legged Locomotion Reinforcement Learning [23.76366118253271]
現在の解決者は、厳しい制約を尊重する効率的なポリシーを作成できない。
本稿では,制約付きRLアルゴリズムCaTとしてConstraintsを提案する。
ビデオとコードはhttps://constraints-as-termminations.ioで公開されている。
論文 参考訳(メタデータ) (2024-03-27T17:03:31Z) - From Instructions to Constraints: Language Model Alignment with
Automatic Constraint Verification [70.08146540745877]
NLPタスクの共通制約を調査し、それらの引数の型に基づいて、それらを3つのクラスに分類する。
本稿では,ACT(ConsTraintsのアラインメント)という統合フレームワークを提案し,制約に適応したユーザアライメントのための監視信号を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-10T22:14:54Z) - ConstraintChecker: A Plugin for Large Language Models to Reason on
Commonsense Knowledge Bases [53.29427395419317]
コモンセンス知識ベース(CSKB)に対する推論は,新しいコモンセンス知識を取得する方法として検討されてきた。
我々は**ConstraintChecker*を提案します。
論文 参考訳(メタデータ) (2024-01-25T08:03:38Z) - Learning Shared Safety Constraints from Multi-task Demonstrations [53.116648461888936]
安全なタスク完了のエキスパートによる実証から制約を学習する方法を示す。
私たちは、専門家が取ることができたが、選択しなかった、高い報酬を与える行動を禁じる制約を学びます。
高次元連続制御タスクのシミュレーション実験により本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-09-01T19:37:36Z) - Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。
まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。
制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-04-27T15:56:34Z) - Learning Soft Constraints From Constrained Expert Demonstrations [16.442694252601452]
逆強化学習(IRL)法は、専門家データが報酬関数を最適化するエージェントによって生成されると仮定する。
本稿では,報酬関数が与えられた場所や制約が不明な場所を考察し,これらの制約を専門家データから良好に回復できる手法を提案する。
我々は, 人工環境, ロボティクス環境, 現実の高速道路走行シナリオへのアプローチを実証する。
論文 参考訳(メタデータ) (2022-06-02T21:45:31Z) - SaDe: Learning Models that Provably Satisfy Domain Constraints [16.46852109556965]
我々は、さまざまな制約を処理できる機械学習アプローチを提案し、これらの制約が目に見えないデータでもモデルによって満たされることを保証する。
機械学習を最大満足度問題とみなし,制約満足度と勾配降下度を組み合わせた新しいアルゴリズムSaDeを用いて解いた。
論文 参考訳(メタデータ) (2021-12-01T15:18:03Z) - Safe Reinforcement Learning with Natural Language Constraints [39.70152978025088]
我々は、安全なRLのための自然言語制約を解釈する学習を提案する。
HazardWorldは、フリーフォームテキストで指定された制約に違反することなく、報酬を最適化するエージェントを必要とする新しいマルチタスクベンチマークである。
提案手法は,既存手法と比較して,より高い報酬(最大11倍)と制約違反(最大1.8倍)を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-11T03:41:56Z) - An Integer Linear Programming Framework for Mining Constraints from Data [81.60135973848125]
データから制約をマイニングするための一般的なフレームワークを提案する。
特に、構造化された出力予測の推論を整数線形プログラミング(ILP)問題とみなす。
提案手法は,9×9のスドクパズルの解法を学習し,基礎となるルールを提供することなく,例からツリー問題を最小限に分散させることが可能であることを示す。
論文 参考訳(メタデータ) (2020-06-18T20:09:53Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。