論文の概要: Your Learned Constraint is Secretly a Backward Reachable Tube
- arxiv url: http://arxiv.org/abs/2501.15618v1
- Date: Sun, 26 Jan 2025 17:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:52.019200
- Title: Your Learned Constraint is Secretly a Backward Reachable Tube
- Title(参考訳): 学習した制約は、後ろ向きに到達可能なチューブ
- Authors: Mohamad Qadri, Gokul Swamy, Jonathan Francis, Michael Kaess, Andrea Bajcsy,
- Abstract要約: ICLは、障害が発生している状態の集合ではなく、障害が避けられない状態の集合を回復することを示す。
障害セットとは対照的に、BRTはデータ収集システムのダイナミクスに依存する。
得られた制約の動的条件が,政策探索のサンプル効率と学習制約の伝達可能性の両方に与える影響を考察する。
- 参考スコア(独自算出の注目度): 27.63547210632307
- License:
- Abstract: Inverse Constraint Learning (ICL) is the problem of inferring constraints from safe (i.e., constraint-satisfying) demonstrations. The hope is that these inferred constraints can then be used downstream to search for safe policies for new tasks and, potentially, under different dynamics. Our paper explores the question of what mathematical entity ICL recovers. Somewhat surprisingly, we show that both in theory and in practice, ICL recovers the set of states where failure is inevitable, rather than the set of states where failure has already happened. In the language of safe control, this means we recover a backwards reachable tube (BRT) rather than a failure set. In contrast to the failure set, the BRT depends on the dynamics of the data collection system. We discuss the implications of the dynamics-conditionedness of the recovered constraint on both the sample-efficiency of policy search and the transferability of learned constraints.
- Abstract(参考訳): 逆制約学習(英: Inverse Constraint Learning, ICL)とは、安全な(制約を満たす)デモンストレーションから制約を推論する問題である。
期待しているのは、これらの推論された制約を下流で使用して、新しいタスクの安全なポリシーや、潜在的には、異なるダイナミクスの下で検索できるようにすることだ。
本稿では,数学的な実体 ICL が回復する問題について考察する。
意外なことに、理論上も現実的にも、ICLは障害が発生している状態の集合ではなく、障害が避けられない状態の集合を回復します。
安全制御の言語では、障害セットではなく後方到達管(BRT)を復元する。
障害セットとは対照的に、BRTはデータ収集システムのダイナミクスに依存する。
得られた制約の動的条件が,政策探索のサンプル効率と学習制約の伝達可能性の両方に与える影響を考察する。
関連論文リスト
- Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Do No Harm: A Counterfactual Approach to Safe Reinforcement Learning [5.862025534776996]
制御のための強化学習は、環境の不確実性や複雑な表現を考慮に入れた豊かなフィードバックポリシーを学ぶ能力によって、ますます人気が高まっている。
このような方法では、もしエージェントが入居しているか、あるいは訪れなければならない場合、制約違反が避けられない状態であるなら、どの程度罰せられるべきかは明らかでない。
我々は,この課題に対して,既定の安全政策と比較して,学習した政策の事実的害に対する制約を定式化することによって対処する。
哲学的な意味では、この定式化は学習者にそれが引き起こした制約違反を罰するだけであり、実際的な意味では最適な制御問題の実現可能性を維持する。
論文 参考訳(メタデータ) (2024-05-19T20:33:21Z) - CaT: Constraints as Terminations for Legged Locomotion Reinforcement Learning [23.76366118253271]
現在の解決者は、厳しい制約を尊重する効率的なポリシーを作成できない。
本稿では,制約付きRLアルゴリズムCaTとしてConstraintsを提案する。
ビデオとコードはhttps://constraints-as-termminations.ioで公開されている。
論文 参考訳(メタデータ) (2024-03-27T17:03:31Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Interactively Learning Preference Constraints in Linear Bandits [100.78514640066565]
我々は、既知の報酬と未知の制約で逐次意思決定を研究する。
応用として,運転シミュレーションにおいて,人間の嗜好を表現するための学習制約を検討する。
論文 参考訳(メタデータ) (2022-06-10T17:52:58Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Inverse Constrained Reinforcement Learning [12.669649178762718]
本研究では,制約を受けるエージェントの行動の実証から制約を学習する問題を考察する。
我々のフレームワークは、エージェントが尊重する最も可能性の高い制約をうまく学習できることを示します。
これらの制約は、異なる形態や報酬関数を持つ可能性のある新しいエージェントにテキスト転送可能である。
論文 参考訳(メタデータ) (2020-11-19T17:56:33Z) - Robot Learning with Crash Constraints [37.685515446816105]
失敗が望ましくないが破滅的でないロボットアプリケーションでは、多くのアルゴリズムは失敗から得られたデータを活用するのに苦労する。
これは通常、(i)失敗した実験が早めに終了すること、または(ii)取得したデータが不足または破損することによって引き起こされる。
我々は、失敗する振る舞いを制約に違反し、クラッシュ制約で学習する問題に対処するものとみなす。
論文 参考訳(メタデータ) (2020-10-16T23:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。