論文の概要: RILe: Reinforced Imitation Learning
- arxiv url: http://arxiv.org/abs/2406.08472v2
- Date: Mon, 21 Oct 2024 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:30.298866
- Title: RILe: Reinforced Imitation Learning
- Title(参考訳): RILe:強化模倣学習
- Authors: Mert Albaba, Sammy Christen, Thomas Langarek, Christoph Gebhardt, Otmar Hilliges, Michael J. Black,
- Abstract要約: RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
- 参考スコア(独自算出の注目度): 60.63173816209543
- License:
- Abstract: Reinforcement Learning has achieved significant success in generating complex behavior but often requires extensive reward function engineering. Adversarial variants of Imitation Learning and Inverse Reinforcement Learning offer an alternative by learning policies from expert demonstrations via a discriminator. However, these methods struggle in complex tasks where randomly sampling expert-like behaviors is challenging. This limitation stems from their reliance on policy-agnostic discriminators, which provide insufficient guidance for agent improvement, especially as task complexity increases and expert behavior becomes more distinct. We introduce RILe (Reinforced Imitation Learning environment), a novel trainer-student system that learns a dynamic reward function based on the student's performance and alignment with expert demonstrations. In RILe, the student learns an action policy while the trainer, using reinforcement learning, continuously updates itself via the discriminator's feedback to optimize the alignment between the student and the expert. The trainer optimizes for long-term cumulative rewards from the discriminator, enabling it to provide nuanced feedback that accounts for the complexity of the task and the student's current capabilities. This approach allows for greater exploration of agent actions by providing graduated feedback rather than binary expert/non-expert classifications. By reducing dependence on policy-agnostic discriminators, RILe enables better performance in complex settings where traditional methods falter, outperforming existing methods by 2x in complex simulated robot-locomotion tasks.
- Abstract(参考訳): 強化学習は複雑な振る舞いを生成する上で大きな成功を収めてきたが、大きな報酬関数エンジニアリングを必要とすることが多い。
Imitation Learning と Inverse Reinforcement Learning の逆の変種は、判別器を介して専門家によるデモンストレーションからポリシーを学ぶことで代替手段を提供する。
しかし、これらの手法は、専門家のような振る舞いをランダムにサンプリングすることが困難な複雑なタスクに苦しむ。
この制限は、特にタスクの複雑さが増加し、専門家の行動がより明確になるにつれて、エージェント改善のための十分なガイダンスを提供する政策非依存の差別者への依存に起因している。
RILe(Reinforced Imitation Learning Environment)は,学生のパフォーマンスと専門家による実演との整合性に基づいて,動的報酬関数を学習する新しいトレーナー学習システムである。
RILeでは、訓練者が強化学習を用いて行動方針を学習し、識別者のフィードバックを通じて継続的に更新し、学生と専門家の調整を最適化する。
トレーナーは、識別器からの長期累積報酬を最適化し、タスクの複雑さと生徒の現在の能力を説明するニュアンスフィードバックを提供する。
このアプローチは、バイナリエキスパート/非専門家の分類よりも、段階的なフィードバックを提供することにより、エージェントアクションのより深い探索を可能にする。
ポリシーに依存しない識別器への依存を減らすことで、RILeは従来の手法がフェールする複雑な環境で、複雑なロボット移動タスクにおいて、既存の手法を2倍に向上させる。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Latent Policies for Adversarial Imitation Learning [21.105328282702885]
本稿では,専門家によるデモンストレーションからロボットの移動と操作の学習について考察する。
GAIL(Generative Adversarial mimicion Learning)は、エージェント遷移と専門家を区別する判別器を訓練し、次に、識別器出力によって定義された報酬を使用してエージェントのポリシー生成を最適化する。
この研究の重要な洞察は、適切な潜在タスク空間で模倣学習を行うことで、高次元問題に挑戦してもトレーニングプロセスを安定させるということである。
論文 参考訳(メタデータ) (2022-06-22T18:06:26Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。
本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。