論文の概要: Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement
Learning for Decision-making Tasks
- arxiv url: http://arxiv.org/abs/2103.12694v1
- Date: Tue, 23 Mar 2021 17:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 17:04:23.100711
- Title: Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement
Learning for Decision-making Tasks
- Title(参考訳): 意思決定課題に対するメタ逆逆強化学習による適応的政策の学習
- Authors: Pin Wang, Hanhan Li, Ching-Yao Chan
- Abstract要約: Meta- LearningとAdversarial Inverseforcement Learningを統合した適応型模倣学習モデルを構築します。
敵対的学習と逆強化学習メカニズムを利用して、利用可能なトレーニングタスクからポリシーと報酬機能を同時に学習します。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from demonstrations has made great progress over the past few years.
However, it is generally data hungry and task specific. In other words, it
requires a large amount of data to train a decent model on a particular task,
and the model often fails to generalize to new tasks that have a different
distribution. In practice, demonstrations from new tasks will be continuously
observed and the data might be unlabeled or only partially labeled. Therefore,
it is desirable for the trained model to adapt to new tasks that have limited
data samples available. In this work, we build an adaptable imitation learning
model based on the integration of Meta-learning and Adversarial Inverse
Reinforcement Learning (Meta-AIRL). We exploit the adversarial learning and
inverse reinforcement learning mechanisms to learn policies and reward
functions simultaneously from available training tasks and then adapt them to
new tasks with the meta-learning framework. Simulation results show that the
adapted policy trained with Meta-AIRL can effectively learn from limited number
of demonstrations, and quickly reach the performance comparable to that of the
experts on unseen tasks.
- Abstract(参考訳): デモから学ぶことは、ここ数年で大きな進歩を遂げた。
しかし、一般的には空腹でタスク固有のデータである。
言い換えれば、特定のタスクで適切なモデルをトレーニングするためには大量のデータが必要である。
実際には、新しいタスクからのデモンストレーションは継続的に観察され、データはラベル付けされないか、部分的にラベル付けされるだけである。
したがって、トレーニングされたモデルは、データサンプルが限られている新しいタスクに適応することが望ましい。
本研究ではメタラーニングと逆逆強化学習(Meta-AIRL)を統合した適応可能な模倣学習モデルを構築する。
対戦型学習と逆強化学習のメカニズムを利用して、利用可能なトレーニングタスクからポリシーと関数を同時に学習し、メタ学習フレームワークでそれらを新しいタスクに適応させる。
シミュレーションの結果,Meta-AIRLでトレーニングした適応型ポリシは,限られた数のデモンストレーションから効果的に学習でき,未確認タスクの専門家に匹敵するパフォーマンスに素早く到達できることがわかった。
関連論文リスト
- Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - Exploring intra-task relations to improve meta-learning algorithms [1.223779595809275]
我々は,タスクの効果的なミニバッチによるトレーニング安定性向上のために,タスク関係の外部知識を活用することを目的としている。
ミニバッチでタスクの多様なセットを選択すると、完全な勾配がより良く見積もられるため、トレーニングにおけるノイズの低減につながる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-12-27T15:33:52Z) - Towards Task Sampler Learning for Meta-Learning [37.02030832662183]
メタラーニングは、限られたデータから行われる多様なトレーニングタスクで一般的な知識を学び、それを新しいタスクに転送することを目的としている。
タスク多様性の増大はメタラーニングモデルの一般化能力を高めると一般的に信じられている。
本稿では、経験的および理論的分析を通して、この見解に挑戦する。
論文 参考訳(メタデータ) (2023-07-18T01:53:18Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - The Effect of Diversity in Meta-Learning [79.56118674435844]
少ないショット学習は、少数の例から見れば、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では,タスク分布がモデルの性能に重要な役割を担っていることが示されている。
タスクの多様性がメタ学習アルゴリズムに与える影響を評価するために,多種多様なモデルとデータセットのタスク分布について検討する。
論文 参考訳(メタデータ) (2022-01-27T19:39:07Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。