論文の概要: Contrastive Initial State Buffer for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.09752v3
- Date: Mon, 26 Feb 2024 10:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 00:41:59.841428
- Title: Contrastive Initial State Buffer for Reinforcement Learning
- Title(参考訳): 強化学習のためのコントラスト初期状態バッファ
- Authors: Nico Messikommer, Yunlong Song, Davide Scaramuzza
- Abstract要約: 強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 25.849626996870526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning, the trade-off between exploration and exploitation
poses a complex challenge for achieving efficient learning from limited
samples. While recent works have been effective in leveraging past experiences
for policy updates, they often overlook the potential of reusing past
experiences for data collection. Independent of the underlying RL algorithm, we
introduce the concept of a Contrastive Initial State Buffer, which
strategically selects states from past experiences and uses them to initialize
the agent in the environment in order to guide it toward more informative
states. We validate our approach on two complex robotic tasks without relying
on any prior information about the environment: (i) locomotion of a quadruped
robot traversing challenging terrains and (ii) a quadcopter drone racing
through a track. The experimental results show that our initial state buffer
achieves higher task performance than the nominal baseline while also speeding
up training convergence.
- Abstract(参考訳): 強化学習では、探索と搾取の間のトレードオフは、限られたサンプルから効率的な学習を達成するための複雑な課題となる。
最近の研究は、ポリシー更新に過去の経験を活用するのに効果的だが、データ収集に過去の経験を再利用する可能性をしばしば見落としている。
基礎となるRLアルゴリズムとは独立したコントラスト初期状態バッファ(Contrastive Initial State Buffer)の概念を導入し、過去の経験から状態を戦略的に選択し、エージェントを環境内で初期化し、より情報のある状態へ誘導する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
(i)挑戦的な地形を横断する四足ロボットの移動
(ii)トラックを走るクワッドコプタードローン。
実験の結果,初期状態バッファは通常のベースラインよりも高いタスク性能を実現し,トレーニング収束も高速化した。
関連論文リスト
- Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning [17.092640837991883]
強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。
ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。
提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:33:12Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning
Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments [2.635402406262781]
無人航空機(UAV)は軍用機として広く使用されている。
マルコフ決定過程(MDP)として自律運動制御(AMC)問題を定式化する。
本稿では,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習法を提案する。
論文 参考訳(メタデータ) (2022-07-04T08:19:39Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - ACDER: Augmented Curiosity-Driven Experience Replay [16.755555854030412]
Augmented Curiosity-Driven Experience Replay (ACDER) という新しい手法を提案する。
ACDERは新しい目標指向の好奇心を駆使して、エージェントが新しいタスク関連状態をより意図的に追求するよう促す。
Reach、Push、Pick&Place、Multi-step Pushの4つの挑戦的なロボット操作タスクの実験を行った。
論文 参考訳(メタデータ) (2020-11-16T15:27:15Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - AAMDRL: Augmented Asset Management with Deep Reinforcement Learning [5.801876281373619]
深層強化学習がこの課題にどのように対処できるかを示す。
コントリビューションは3つある: (i) DRLにおける拡張状態とも呼ばれる文脈情報の使用, (ii) 観察と行動の間の1周期の遅延の影響, (iii) ウォークフォワード分析と呼ばれる新しい反復列車試験手法の実装。
我々の実験は、ボットのトレーディングに重点を置いているが、状況変化やノイズの多いデータとともに、シーケンシャルな環境で動作する他のボット環境に容易に翻訳できる。
論文 参考訳(メタデータ) (2020-09-30T03:55:47Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。