論文の概要: Automatic Evaluation of Excavator Operators using Learned Reward
Functions
- arxiv url: http://arxiv.org/abs/2211.07941v1
- Date: Tue, 15 Nov 2022 06:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:58:49.665588
- Title: Automatic Evaluation of Excavator Operators using Learned Reward
Functions
- Title(参考訳): 学習リワード関数を用いた掘削機の自動評価
- Authors: Pranav Agarwal, Marek Teichmann, Sheldon Andrews, Samira Ebrahimi
Kahou
- Abstract要約: 本稿では,掘削作業者の自動評価のための新しい手法を提案する。
掘削機の内部力学と安全基準を各ステップで考慮し,性能評価を行う。
これらの外部報酬予測モデルを用いて学習したポリシーについて,より安全な解が得られた。
- 参考スコア(独自算出の注目度): 5.372817906484557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training novice users to operate an excavator for learning different skills
requires the presence of expert teachers. Considering the complexity of the
problem, it is comparatively expensive to find skilled experts as the process
is time-consuming and requires precise focus. Moreover, since humans tend to be
biased, the evaluation process is noisy and will lead to high variance in the
final score of different operators with similar skills. In this work, we
address these issues and propose a novel strategy for the automatic evaluation
of excavator operators. We take into account the internal dynamics of the
excavator and the safety criterion at every time step to evaluate the
performance. To further validate our approach, we use this score prediction
model as a source of reward for a reinforcement learning agent to learn the
task of maneuvering an excavator in a simulated environment that closely
replicates the real-world dynamics. For a policy learned using these external
reward prediction models, our results demonstrate safer solutions following the
required dynamic constraints when compared to policy trained with task-based
reward functions only, making it one step closer to real-life adoption. For
future research, we release our codebase at
https://github.com/pranavAL/InvRL_Auto-Evaluate and video results
https://drive.google.com/file/d/1jR1otOAu8zrY8mkhUOUZW9jkBOAKK71Z/view?usp=share_link .
- Abstract(参考訳): 初心者に異なるスキルを学ぶための掘削機を操作するには、専門教師の存在が必要である。
問題の複雑さを考えると、プロセスが時間がかかり、正確に焦点を合わせる必要があるため、熟練した専門家を見つけるのは比較的コストがかかる。
さらに、人間にはバイアスがかかる傾向があるため、評価プロセスはノイズが多く、同様のスキルを持つ異なるオペレーターの最終的なスコアに高いばらつきをもたらす。
本稿では,これらの課題に対処し,掘削機操作の自動評価のための新しい戦略を提案する。
本研究は, 掘削機の内部動態と, 運転時間毎の安全基準を考慮に入れ, 性能評価を行う。
提案手法をさらに検証するため,このスコア予測モデルを強化学習エージェントの報酬源として,実世界の力学を忠実に再現した模擬環境における掘削機操作の課題を学習する。
これらの外部報酬予測モデルを用いて学習した政策では,タスクベース報酬関数のみを訓練した政策と比較して,要求される動的制約に従えば,より安全なソリューションが示される。
将来の研究のために、私たちはhttps://github.com/pranavAL/InvRL_Auto-Evaluate and video results https://drive.google.com/file/d/1jR1otOAu8zrY8mkhUUZW9jkBOAKK71Z/view?
usp=share_link。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-05T10:35:08Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - A New Framework for Query Efficient Active Imitation Learning [5.167794607251493]
彼の好みと目的に基づいて、報酬と安全でない状態を知っている人間の専門家がいますが、人間の専門家に問い合わせるのは高価です。
本稿では,ユーザの報酬関数のモデルと効率的なクエリを積極的かつインタラクティブに学習する,模倣学習(IL)アルゴリズムを提案する。
提案手法は、状態ベース2次元ナビゲーションタスク、ロボット制御タスク、画像ベースビデオゲームに基づいて、シミュレーションされた人間を用いて評価する。
論文 参考訳(メタデータ) (2019-12-30T18:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。