論文の概要: Boosting Reinforcement Learning and Planning with Demonstrations: A
Survey
- arxiv url: http://arxiv.org/abs/2303.13489v2
- Date: Mon, 27 Mar 2023 19:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 18:04:35.948858
- Title: Boosting Reinforcement Learning and Planning with Demonstrations: A
Survey
- Title(参考訳): 実証による強化学習と計画の促進:調査
- Authors: Tongzhou Mu, Hao Su
- Abstract要約: シーケンシャルな意思決定にデモを使うことの利点について論じる。
我々は,最近提案されたManiSkillロボット学習ベンチマークにおいて,デモの生成と活用のための実用的なパイプラインを実演する。
- 参考スコア(独自算出の注目度): 25.847796336059343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although reinforcement learning has seen tremendous success recently, this
kind of trial-and-error learning can be impractical or inefficient in complex
environments. The use of demonstrations, on the other hand, enables agents to
benefit from expert knowledge rather than having to discover the best action to
take through exploration. In this survey, we discuss the advantages of using
demonstrations in sequential decision making, various ways to apply
demonstrations in learning-based decision making paradigms (for example,
reinforcement learning and planning in the learned models), and how to collect
the demonstrations in various scenarios. Additionally, we exemplify a practical
pipeline for generating and utilizing demonstrations in the recently proposed
ManiSkill robot learning benchmark.
- Abstract(参考訳): 強化学習は近年大きな成功を収めているが、このような試行錯誤学習は複雑な環境では実用的でも非効率的でもある。
一方、デモンストレーションを使用することで、エージェントは探索を通じて最善の行動を見つけることなく、専門家の知識の恩恵を受けることができる。
本研究では,逐次的意思決定におけるデモンストレーションの利用の利点,学習に基づく意思決定パラダイム(学習モデルにおける強化学習と計画)におけるデモンストレーションの適用方法,様々なシナリオにおけるデモンストレーションの収集方法について検討する。
さらに,最近提案されたマニスキルロボット学習ベンチマークにおいて,実演を生成・活用するための実践的パイプラインを例示する。
関連論文リスト
- Screw Geometry Meets Bandits: Incremental Acquisition of Demonstrations to Generate Manipulation Plans [9.600625243282618]
本研究では,1回に1回に1回,十分な審美的デモンストレーションの集合を得るという課題について検討する。
実験結果から操作計画を生成するために, (i) スクリュー幾何表現を用いて, これらのオープンな問題に対処する新しい手法を提案する。
本研究は,2つの実例操作課題,すなわち注水とスクーピングに関する実験結果である。
論文 参考訳(メタデータ) (2024-10-23T20:57:56Z) - Demonstration Notebook: Finding the Most Suited In-Context Learning Example from Interactions [8.869100154323643]
実験ノート」と呼ばれる新しい物体を中心に構築された新しいプロンプトエンジニアリングワークフローを提案する。
このノートブックは、LLMの過去のインタラクションから情報を収集して再利用することで、質問に対して最も適したコンテキスト内学習例を特定するのに役立つ。
実験により, 提案手法は, 自動的な実演構築と選択において, 既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-16T10:02:20Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - A Survey of Demonstration Learning [0.0]
実証学習(Demonstration Learning)は、エージェントがデモンストレーションで示された専門家の行動を模倣してタスクを実行することを学習するパラダイムである。
デモから複雑な振る舞いを学ぶ大きな可能性を秘めているため、大きな注目を集めている。
環境と対話することなく学習することで、デモ学習はロボット工学や医療といった幅広い現実世界の応用を自動化できる。
論文 参考訳(メタデータ) (2023-03-20T15:22:10Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Let Me Check the Examples: Enhancing Demonstration Learning via Explicit
Imitation [9.851250429233634]
デモ学習は、いくつかのショット設定で回答されたデモを提供することで、迅速な予測を導くことを目的としている。
既存の作業は、追加操作なしでプロンプトテンプレートのデモとして、回答された例のみをコーポラ化する。
我々は、人間のレビュー行動を明確に模倣することで、実証学習を強化するためにImitation DEMOnstration Learning (Imitation-Demo)を導入した。
論文 参考訳(メタデータ) (2022-08-31T06:59:36Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。