論文の概要: Imitating Cost-Constrained Behaviors in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.17456v3
- Date: Thu, 23 May 2024 08:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:59:52.778799
- Title: Imitating Cost-Constrained Behaviors in Reinforcement Learning
- Title(参考訳): 強化学習におけるコスト制約行動の緩和
- Authors: Qian Shao, Pradeep Varakantham, Shih-Fen Cheng,
- Abstract要約: 本稿では, トラジェクティブコスト制約の存在下で, 専門家分布に適合する手法を提案する。
試行錯誤学習手法はコスト制約の少ない動作を模倣することを示す。
- 参考スコア(独自算出の注目度): 8.143750358586072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex planning and scheduling problems have long been solved using various optimization or heuristic approaches. In recent years, imitation learning that aims to learn from expert demonstrations has been proposed as a viable alternative to solving these problems. Generally speaking, imitation learning is designed to learn either the reward (or preference) model or directly the behavioral policy by observing the behavior of an expert. Existing work in imitation learning and inverse reinforcement learning has focused on imitation primarily in unconstrained settings (e.g., no limit on fuel consumed by the vehicle). However, in many real-world domains, the behavior of an expert is governed not only by reward (or preference) but also by constraints. For instance, decisions on self-driving delivery vehicles are dependent not only on the route preferences/rewards (depending on past demand data) but also on the fuel in the vehicle and the time available. In such problems, imitation learning is challenging as decisions are not only dictated by the reward model but are also dependent on a cost-constrained model. In this paper, we provide multiple methods that match expert distributions in the presence of trajectory cost constraints through (a) Lagrangian-based method; (b) Meta-gradients to find a good trade-off between expected return and minimizing constraint violation; and (c) Cost-violation-based alternating gradient. We empirically show that leading imitation learning approaches imitate cost-constrained behaviors poorly and our meta-gradient-based approach achieves the best performance.
- Abstract(参考訳): 複雑な計画とスケジューリングの問題は、様々な最適化やヒューリスティックなアプローチで長い間解決されてきた。
近年,これらの問題を解決する代替手段として,専門家によるデモンストレーションから学ぶことを目的とした模倣学習が提案されている。
一般的には、模倣学習は、専門家の行動を観察して報酬(または好み)モデルまたは行動方針を直接学習するように設計されている。
既存の模倣学習や逆強化学習は、主に制約のない環境(例えば、車両が消費する燃料に制限はない)で模倣に焦点を当てている。
しかし、多くの現実世界のドメインでは、専門家の振る舞いは報酬(または好み)だけでなく、制約によっても支配される。
例えば、自動運転車の配送に関する決定は、ルートの選好/回帰(過去の需要データに依存する)だけでなく、車の燃料や利用可能な時間にも依存している。
このような問題では、報酬モデルによって決定されるだけでなく、コスト制約のあるモデルにも依存するため、模倣学習は困難である。
本稿では,トラジェクティブコスト制約の存在下での専門家分布と一致する複数の方法を提案する。
(a)ラグランジュ的方法
ロ メタグラディエントは、期待したリターンと制約違反の最小化との間に良いトレードオフを見出すことができる。
(c)コスト違反に基づく交互化勾配。
試行錯誤学習アプローチは,コスト制約の少ない動作を模倣し,メタグラディエントベースのアプローチが最高のパフォーマンスを達成することを実証的に示す。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
Reinforcement Learning from Human Feedback (RLHF)のような最先端技術は、しばしば2つの段階から構成される。
1)教師付き微調整(SFT)では,人間の実演データからモデルを微調整する。
2)選好学習では,選好データを用いて報奨モデルを学習し,そのモデルを微調整する強化学習ステップで活用する。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Solving Richly Constrained Reinforcement Learning through State
Augmentation and Reward Penalties [8.86470998648085]
主な課題は、ポリシーを使用して蓄積された期待されるコストを扱うことだ。
既存の手法は、政策全体に対するこのコスト制約を、局所的な決定に対する制約に変換する革新的な方法を開発した。
我々は、拡張状態空間と報酬ペナルティを有する制約付きRLに等価な制約のない定式化を提供する。
論文 参考訳(メタデータ) (2023-01-27T08:33:08Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Learning Soft Constraints From Constrained Expert Demonstrations [16.442694252601452]
逆強化学習(IRL)法は、専門家データが報酬関数を最適化するエージェントによって生成されると仮定する。
本稿では,報酬関数が与えられた場所や制約が不明な場所を考察し,これらの制約を専門家データから良好に回復できる手法を提案する。
我々は, 人工環境, ロボティクス環境, 現実の高速道路走行シナリオへのアプローチを実証する。
論文 参考訳(メタデータ) (2022-06-02T21:45:31Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - How To Not Drive: Learning Driving Constraints from Demonstration [0.0]
本研究では,人間の運転軌跡から運動計画制約を学習するための新しい手法を提案する。
行動計画は、交通規則に従うために要求される高いレベルの意思決定に責任を負う。
運動プランナーの役割は、自動運転車が従うための実用的で安全な軌道を作り出すことである。
論文 参考訳(メタデータ) (2021-10-01T20:47:04Z) - Learning-based Preference Prediction for Constrained Multi-Criteria
Path-Planning [12.457788665461312]
自動地上車両(AGV)の制約された経路計画法はそのような適用例である。
我々は、ニューラルネットワークモデルをトレーニングして、オフラインシミュレーションによって得られた知識を活用し、不確実な基準を予測する。
私たちはこのモデルをパスプランナに統合し、オンラインの問題を解決することができます。
論文 参考訳(メタデータ) (2021-08-02T17:13:45Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。