論文の概要: Co-Imitation Learning without Expert Demonstration
- arxiv url: http://arxiv.org/abs/2103.14823v1
- Date: Sat, 27 Mar 2021 06:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 14:02:17.566719
- Title: Co-Imitation Learning without Expert Demonstration
- Title(参考訳): 実演のない共模倣学習
- Authors: Kun-Peng Ning, Hu Xu, Kun Zhu, Sheng-Jun Huang
- Abstract要約: Co-Imitation Learning(CoIL)と呼ばれる新しい学習フレームワークを提案し、専門家のデモンストレーションなしでエージェントの過去の良い経験を活用します。
経験は価値や誤解を招く可能性があるが、我々は各経験の潜在的有用性を価値関数の期待値で見積もることを提案する。
様々な課題に対する実験結果から,提案する共励学習フレームワークが有意な優位を示した。
- 参考スコア(独自算出の注目度): 34.03383970140801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning is a primary approach to improve the efficiency of
reinforcement learning by exploiting the expert demonstrations. However, in
many real scenarios, obtaining expert demonstrations could be extremely
expensive or even impossible. To overcome this challenge, in this paper, we
propose a novel learning framework called Co-Imitation Learning (CoIL) to
exploit the past good experiences of the agents themselves without expert
demonstration. Specifically, we train two different agents via letting each of
them alternately explore the environment and exploit the peer agent's
experience. While the experiences could be valuable or misleading, we propose
to estimate the potential utility of each piece of experience with the expected
gain of the value function. Thus the agents can selectively imitate from each
other by emphasizing the more useful experiences while filtering out noisy
ones. Experimental results on various tasks show significant superiority of the
proposed Co-Imitation Learning framework, validating that the agents can
benefit from each other without external supervision.
- Abstract(参考訳): 模倣学習は、専門家のデモンストレーションを利用して強化学習の効率を向上させるための主要なアプローチである。
しかし、多くの現実のシナリオでは、専門家のデモンストレーションを得るのは非常に高価か、あるいは不可能かもしれない。
この課題を克服するために,本稿では,エージェントの過去の優れた経験を専門家のデモンストレーションなしに活用するための,CoIL(Co-Imitation Learning)と呼ばれる新しい学習フレームワークを提案する。
具体的には,それぞれのエージェントが交互に環境を探索し,ピアエージェントの経験を生かして,異なるエージェントを訓練する。
経験は価値や誤解を招く可能性があるが、我々は各経験の潜在的有用性を価値関数の期待値で見積もることを提案する。
これにより、ノイズをフィルタリングしながら、より有用な体験を強調して、エージェント同士を選択的に模倣することができる。
様々な課題に対する実験結果から,提案する共励学習フレームワークは,エージェント同士が外部の監督なしに相互に利益を享受できるという有意な優位性を示した。
関連論文リスト
- From Laws to Motivation: Guiding Exploration through Law-Based Reasoning and Rewards [12.698095783768322]
大規模言語モデル(LLM)と強化学習(RL)は、自律エージェントを構築するための強力なアプローチである。
ゲーム環境の基本法則をモデル化するために,インタラクションレコードから経験を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T15:57:53Z) - A Bayesian Solution To The Imitation Gap [34.16107600758348]
エージェントは報酬信号が特定できない環境で行動することを学ぶ必要がある。
場合によっては、専門家とエージェントの観察可能性の違いは、模倣のギャップを生じさせる可能性がある。
論文 参考訳(メタデータ) (2024-06-29T17:13:37Z) - "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning [11.292086312664383]
提案アルゴリズムはSEAC (Shared Experience Actor-Critic) と呼ばれ,アクター・クリティカル・フレームワークに経験共有を適用した。
スパース・リワード型マルチエージェント環境におけるSEACの評価を行い、2つのベースラインと2つの最先端アルゴリズムを一貫して上回っていることを確認した。
論文 参考訳(メタデータ) (2020-06-12T13:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。