論文の概要: Automated Feature Selection for Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.15079v1
- Date: Fri, 22 Mar 2024 10:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:58:20.376275
- Title: Automated Feature Selection for Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習のための自動特徴選択
- Authors: Daulet Baimukashev, Gokhan Alcan, Ville Kyrki,
- Abstract要約: 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を学習するための模倣学習手法である。
本稿では,基本関数を用いて特徴の候補セットを作成する手法を提案する。
専門家のポリシーを捉えた報酬関数を回収することで、アプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 7.278033100480175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) is an imitation learning approach to learning reward functions from expert demonstrations. Its use avoids the difficult and tedious procedure of manual reward specification while retaining the generalization power of reinforcement learning. In IRL, the reward is usually represented as a linear combination of features. In continuous state spaces, the state variables alone are not sufficiently rich to be used as features, but which features are good is not known in general. To address this issue, we propose a method that employs polynomial basis functions to form a candidate set of features, which are shown to allow the matching of statistical moments of state distributions. Feature selection is then performed for the candidates by leveraging the correlation between trajectory probabilities and feature expectations. We demonstrate the approach's effectiveness by recovering reward functions that capture expert policies across non-linear control tasks of increasing complexity. Code, data, and videos are available at https://sites.google.com/view/feature4irl.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を学習するための模倣学習手法である。
その使用は、強化学習の一般化力を保ちながら、手動報酬仕様の困難で退屈な手順を避ける。
IRLでは、報酬は通常特徴の線形結合として表現される。
連続状態空間では、状態変数だけでは機能として使われるには十分ではないが、どの特徴が良いかは一般には分かっていない。
この問題に対処するために,多項式基底関数を用いて,状態分布の統計的モーメントの整合性を示す特徴の候補集合を形成する手法を提案する。
次に、軌跡確率と特徴期待との相関を利用して、候補に対する特徴選択を行う。
複雑性を増大させる非線形制御タスクのエキスパートポリシーをキャプチャする報酬関数を回収することで、アプローチの有効性を実証する。
コード、データ、ビデオはhttps://sites.google.com/view/feature4irl.comで公開されている。
関連論文リスト
- Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Inverse Reinforcement Learning in the Continuous Setting with Formal
Guarantees [31.122125783516726]
逆強化学習(IRL)は、観察/既知の専門家の行動を記述する報酬関数を見つけることの問題です。
未知の遷移ダイナミクスを持つ連続状態空間設定のための新しいIRLアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-02-16T03:17:23Z) - Reward Propagation Using Graph Convolutional Networks [61.32891095232801]
本稿では,グラフ表現学習のアイデアを活用した潜在機能学習フレームワークを提案する。
我々のアプローチは、強化学習の確率論的推論と組み合わせて、重要な要素として使用するグラフ畳み込みネットワークに依存している。
論文 参考訳(メタデータ) (2020-10-06T04:38:16Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。