論文の概要: Learning Shared Safety Constraints from Multi-task Demonstrations
- arxiv url: http://arxiv.org/abs/2309.00711v1
- Date: Fri, 1 Sep 2023 19:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:48:16.257873
- Title: Learning Shared Safety Constraints from Multi-task Demonstrations
- Title(参考訳): マルチタスクによる共有安全性制約の学習
- Authors: Konwoo Kim, Gokul Swamy, Zuxin Liu, Ding Zhao, Sanjiban Choudhury,
Zhiwei Steven Wu
- Abstract要約: 安全なタスク完了のエキスパートによる実証から制約を学習する方法を示す。
私たちは、専門家が取ることができたが、選択しなかった、高い報酬を与える行動を禁じる制約を学びます。
高次元連続制御タスクのシミュレーション実験により本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 53.116648461888936
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Regardless of the particular task we want them to perform in an environment,
there are often shared safety constraints we want our agents to respect. For
example, regardless of whether it is making a sandwich or clearing the table, a
kitchen robot should not break a plate. Manually specifying such a constraint
can be both time-consuming and error-prone. We show how to learn constraints
from expert demonstrations of safe task completion by extending inverse
reinforcement learning (IRL) techniques to the space of constraints.
Intuitively, we learn constraints that forbid highly rewarding behavior that
the expert could have taken but chose not to. Unfortunately, the constraint
learning problem is rather ill-posed and typically leads to overly conservative
constraints that forbid all behavior that the expert did not take. We counter
this by leveraging diverse demonstrations that naturally occur in multi-task
settings to learn a tighter set of constraints. We validate our method with
simulation experiments on high-dimensional continuous control tasks.
- Abstract(参考訳): 環境の中で実行したい特定のタスクにかかわらず、エージェントが尊重したい安全上の制約が共有されることがしばしばあります。
例えば、サンドイッチを作るかテーブルを片付けるかに関わらず、キッチンロボットは皿を壊すべきではない。
このような制約を手動で指定すれば、時間とエラーが発生しやすい。
本稿では,制約空間に逆強化学習(IRL)技術を拡張することで,安全なタスク完了に関する専門家による実証から制約を学習する方法を示す。
直感的には、専門家が選択した非常に報酬の高い行動を禁じる制約を学習します。
残念なことに、制約学習の問題はかなり不適切であり、専門家が取らなかったすべての行動を禁じる過度に保守的な制約につながる。
マルチタスク設定で自然に発生する多様なデモを活用して、より厳密な制約セットを学ぶことで、この問題に対処する。
本手法を高次元連続制御タスクのシミュレーション実験により検証した。
関連論文リスト
- From Instructions to Constraints: Language Model Alignment with
Automatic Constraint Verification [70.08146540745877]
NLPタスクの共通制約を調査し、それらの引数の型に基づいて、それらを3つのクラスに分類する。
本稿では,ACT(ConsTraintsのアラインメント)という統合フレームワークを提案し,制約に適応したユーザアライメントのための監視信号を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-10T22:14:54Z) - Dynamic Interval Restrictions on Action Spaces in Deep Reinforcement
Learning for Obstacle Avoidance [0.0]
この論文では、動的障害を伴うパスフィンディングにおいて発生する間隔制限の問題について考察する。
最近の研究は、間隔の数について強い仮定で学習し、凸部分集合に限られている。
パラメータ化強化学習とConstraintNetを拡張して任意の間隔で処理することで,環境の状態に依存しない2つのアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-13T09:13:13Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。
まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。
制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-04-27T15:56:34Z) - Constrained Reinforcement Learning for Dexterous Manipulation [0.6193838300896449]
物体移動を行う24-DOFロボットハンドラーに位置ベース制約を加えることの効果について検討する。
単純な幾何学的制約は、ロボットが制約なしでより早く物体に向かって動くことを学べることを確実にする。
これらの発見は、ロボットが敏感で安全な動作を素早く達成し、ハードウェアの展開に関する懸念を緩和する上で、いかにシンプルな制約が役立つかを明らかにした。
論文 参考訳(メタデータ) (2023-01-24T00:31:28Z) - Learning Soft Constraints From Constrained Expert Demonstrations [16.442694252601452]
逆強化学習(IRL)法は、専門家データが報酬関数を最適化するエージェントによって生成されると仮定する。
本稿では,報酬関数が与えられた場所や制約が不明な場所を考察し,これらの制約を専門家データから良好に回復できる手法を提案する。
我々は, 人工環境, ロボティクス環境, 現実の高速道路走行シナリオへのアプローチを実証する。
論文 参考訳(メタデータ) (2022-06-02T21:45:31Z) - Direct Behavior Specification via Constrained Reinforcement Learning [12.679780444702573]
CMDPは、一連の行動制約を順守しながら、ゴールベースのタスクを解決するように適応することができる。
ビデオゲームにおけるNPC設計のための強化学習の適用に関連する一連の連続制御タスクについて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2021-12-22T21:12:28Z) - Inverse Constrained Reinforcement Learning [12.669649178762718]
本研究では,制約を受けるエージェントの行動の実証から制約を学習する問題を考察する。
我々のフレームワークは、エージェントが尊重する最も可能性の高い制約をうまく学習できることを示します。
これらの制約は、異なる形態や報酬関数を持つ可能性のある新しいエージェントにテキスト転送可能である。
論文 参考訳(メタデータ) (2020-11-19T17:56:33Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。