Fugu-MT 論文翻訳(概要): RILe: Reinforced Imitation Learning

論文の概要: RILe: Reinforced Imitation Learning

arxiv url: http://arxiv.org/abs/2406.08472v2
Date: Mon, 21 Oct 2024 17:59:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.545814
Title: RILe: Reinforced Imitation Learning
Title（参考訳）: RILe:強化模倣学習
Authors: Mert Albaba, Sammy Christen, Thomas Langarek, Christoph Gebhardt, Otmar Hilliges, Michael J. Black,
Abstract要約: RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。 RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
参考スコア（独自算出の注目度）: 60.63173816209543
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning has achieved significant success in generating complex behavior but often requires extensive reward function engineering. Adversarial variants of Imitation Learning and Inverse Reinforcement Learning offer an alternative by learning policies from expert demonstrations via a discriminator. However, these methods struggle in complex tasks where randomly sampling expert-like behaviors is challenging. This limitation stems from their reliance on policy-agnostic discriminators, which provide insufficient guidance for agent improvement, especially as task complexity increases and expert behavior becomes more distinct. We introduce RILe (Reinforced Imitation Learning environment), a novel trainer-student system that learns a dynamic reward function based on the student's performance and alignment with expert demonstrations. In RILe, the student learns an action policy while the trainer, using reinforcement learning, continuously updates itself via the discriminator's feedback to optimize the alignment between the student and the expert. The trainer optimizes for long-term cumulative rewards from the discriminator, enabling it to provide nuanced feedback that accounts for the complexity of the task and the student's current capabilities. This approach allows for greater exploration of agent actions by providing graduated feedback rather than binary expert/non-expert classifications. By reducing dependence on policy-agnostic discriminators, RILe enables better performance in complex settings where traditional methods falter, outperforming existing methods by 2x in complex simulated robot-locomotion tasks.
Abstract（参考訳）: 強化学習は複雑な振る舞いを生成する上で大きな成功を収めてきたが、大きな報酬関数エンジニアリングを必要とすることが多い。 Imitation Learning と Inverse Reinforcement Learning の逆の変種は、判別器を介して専門家によるデモンストレーションからポリシーを学ぶことで代替手段を提供する。しかし、これらの手法は、専門家のような振る舞いをランダムにサンプリングすることが困難な複雑なタスクに苦しむ。この制限は、特にタスクの複雑さが増加し、専門家の行動がより明確になるにつれて、エージェント改善のための十分なガイダンスを提供する政策非依存の差別者への依存に起因している。 RILe(Reinforced Imitation Learning Environment)は,学生のパフォーマンスと専門家による実演との整合性に基づいて,動的報酬関数を学習する新しいトレーナー学習システムである。 RILeでは、訓練者が強化学習を用いて行動方針を学習し、識別者のフィードバックを通じて継続的に更新し、学生と専門家の調整を最適化する。トレーナーは、識別器からの長期累積報酬を最適化し、タスクの複雑さと生徒の現在の能力を説明するニュアンスフィードバックを提供する。このアプローチは、バイナリエキスパート/非専門家の分類よりも、段階的なフィードバックを提供することにより、エージェントアクションのより深い探索を可能にする。ポリシーに依存しない識別器への依存を減らすことで、RILeは従来の手法がフェールする複雑な環境で、複雑なロボット移動タスクにおいて、既存の手法を2倍に向上させる。

関連論文リスト

Symmetry-Guided Multi-Agent Inverse Reinforcement Learning [13.021166929646718]
逆強化学習(IRL)は、専門家によるデモンストレーションから暗黙の報酬関数を推定することでこの問題に対処する。既存の手法は、報酬関数を正確に回復するために、大量の専門家によるデモンストレーションに大きく依存している。本稿では,既存のマルチエージェント逆IRLアルゴリズムに対称性を統合する普遍的フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-10T03:28:18Z)
Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文参考訳（メタデータ） (2024-11-11T14:05:50Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文参考訳（メタデータ） (2022-06-01T05:16:39Z)
ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文参考訳（メタデータ） (2022-03-29T09:30:26Z)
Learning from Guided Play: A Scheduled Hierarchical Approach for Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文参考訳（メタデータ） (2021-12-16T14:58:08Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)
Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。 ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文参考訳（メタデータ） (2020-07-23T17:59:57Z)
Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-03T16:51:40Z)
Human AI interaction loop training: New approach for interactive reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。 RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文参考訳（メタデータ） (2020-03-09T15:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。