論文の概要: Joint Goal and Strategy Inference across Heterogeneous Demonstrators via
Reward Network Distillation
- arxiv url: http://arxiv.org/abs/2001.00503v3
- Date: Mon, 23 Nov 2020 16:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 03:46:32.526990
- Title: Joint Goal and Strategy Inference across Heterogeneous Demonstrators via
Reward Network Distillation
- Title(参考訳): 逆ネットワーク蒸留による異種デモレータ間の共同ゴールと戦略推論
- Authors: Letian Chen, Rohan Paleja, Muyleng Ghuy, Matthew Gombolay
- Abstract要約: 逆強化学習(IRL)は、容易に達成された人間の実演から報酬関数を学ぼうとする。
本稿では,ネットワーク蒸留による課題目標と人間の戦略的嗜好を共同で推測する手法を提案する。
本アルゴリズムは,2つの模擬タスクと実世界の卓球タスクにおいて,タスク報酬と戦略報酬をよりよく回収し,戦略を模倣できることを示す。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved tremendous success as a general
framework for learning how to make decisions. However, this success relies on
the interactive hand-tuning of a reward function by RL experts. On the other
hand, inverse reinforcement learning (IRL) seeks to learn a reward function
from readily-obtained human demonstrations. Yet, IRL suffers from two major
limitations: 1) reward ambiguity - there are an infinite number of possible
reward functions that could explain an expert's demonstration and 2)
heterogeneity - human experts adopt varying strategies and preferences, which
makes learning from multiple demonstrators difficult due to the common
assumption that demonstrators seeks to maximize the same reward. In this work,
we propose a method to jointly infer a task goal and humans' strategic
preferences via network distillation. This approach enables us to distill a
robust task reward (addressing reward ambiguity) and to model each strategy's
objective (handling heterogeneity). We demonstrate our algorithm can better
recover task reward and strategy rewards and imitate the strategies in two
simulated tasks and a real-world table tennis task.
- Abstract(参考訳): 強化学習(RL)は、意思決定の仕方を学ぶための一般的なフレームワークとして大きな成功を収めています。
しかし、この成功はRLの専門家による報酬関数の対話的な手作りに依存している。
一方、逆強化学習(IRL)は、容易に達成できる人間の実演から報酬関数を学習しようとする。
しかし、IRLには2つの大きな制限がある。
1) 報酬の曖昧さ - 専門家のデモンストレーションを説明することができる、無限の報酬機能が存在する。
2) 異質性 - 人間の専門家は様々な戦略と好みを採用するため、デモ参加者が同じ報酬を最大化しようとするという一般的な仮定のため、複数のデモ参加者からの学習が困難になる。
本研究では,ネットワーク蒸留による課題目標と人間の戦略的嗜好を共同で推測する手法を提案する。
このアプローチにより、ロバストなタスク報酬(報酬の曖昧さ)を蒸留し、各戦略の目的(異質性を扱う)をモデル化することができます。
本アルゴリズムは,2つの模擬タスクと実世界の卓球タスクにおいて,タスク報酬と戦略報酬をよりよく再現できることを示す。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Towards Effective Multiple-in-One Image Restoration: A Sequential and Prompt Learning Strategy [19.73705830803488]
7つのIRタスクからなるMultiple-in-one (MiO) IR問題について詳細に検討する。
これらの課題に対処するために、我々は2つの単純かつ効果的な戦略を提示した。
19個のテストセットで評価することにより、逐次的および迅速な学習戦略がMiO性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-01-07T03:35:04Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文 参考訳(メタデータ) (2023-02-20T22:10:04Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文 参考訳(メタデータ) (2021-12-30T19:21:03Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Self Punishment and Reward Backfill for Deep Q-Learning [6.572828651397661]
強化学習エージェントは、通常環境によって提供される全報酬を最大化する行動を促すことで学習する。
多くの環境では、報酬は個々のアクションではなく一連のアクションの後に提供され、エージェントはそれらのアクションが有効かどうかという点であいまいさを経験する。
本研究では,行動心理学にインスパイアされた2つの戦略を提案する。
論文 参考訳(メタデータ) (2020-04-10T11:53:11Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。