Fugu-MT 論文翻訳(概要): Contrastive Initial State Buffer for Reinforcement Learning

論文の概要: Contrastive Initial State Buffer for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2309.09752v1
Date: Mon, 18 Sep 2023 13:26:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 13:22:38.311798
Title: Contrastive Initial State Buffer for Reinforcement Learning
Title（参考訳）: 強化学習のためのコントラスト初期状態バッファ
Authors: Nico Messikommer, Yunlong Song, Davide Scaramuzza
Abstract要約: 強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
参考スコア（独自算出の注目度）: 25.849626996870526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In Reinforcement Learning, the trade-off between exploration and exploitation poses a complex challenge for achieving efficient learning from limited samples. While recent works have been effective in leveraging past experiences for policy updates, they often overlook the potential of reusing past experiences for data collection. Independent of the underlying RL algorithm, we introduce the concept of a Contrastive Initial State Buffer, which strategically selects states from past experiences and uses them to initialize the agent in the environment in order to guide it toward more informative states. We validate our approach on two complex robotic tasks without relying on any prior information about the environment: (i) locomotion of a quadruped robot traversing challenging terrains and (ii) a quadcopter drone racing through a track. The experimental results show that our initial state buffer achieves higher task performance than the nominal baseline while also speeding up training convergence.
Abstract（参考訳）: 強化学習では、探索と搾取の間のトレードオフは、限られたサンプルから効率的な学習を達成するための複雑な課題となる。最近の研究は、ポリシー更新に過去の経験を活用するのに効果的だが、データ収集に過去の経験を再利用する可能性をしばしば見落としている。基礎となるRLアルゴリズムとは独立したコントラスト初期状態バッファ(Contrastive Initial State Buffer)の概念を導入し、過去の経験から状態を戦略的に選択し、エージェントを環境内で初期化し、より情報のある状態へ誘導する。環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。 (i)挑戦的な地形を横断する四足ロボットの移動 (ii)トラックを走るクワッドコプタードローン。実験の結果,初期状態バッファは通常のベースラインよりも高いタスク性能を実現し,トレーニング収束も高速化した。

関連論文リスト

From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。 S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文参考訳（メタデータ） (2025-07-29T17:26:10Z)
Accelerated Online Reinforcement Learning using Auxiliary Start State Distributions [50.44719434877687]
専門家によるデモンストレーションやシミュレータは任意の状態にリセットできる。この補助分布の選択を安全の概念を用いて通知することは、学習を著しく加速することを発見した。
論文参考訳（メタデータ） (2025-07-07T01:54:05Z)
Vision-Based Deep Reinforcement Learning of UAV Autonomous Navigation Using Privileged Information [6.371251946803415]
DPRLは、部分的に観測可能な環境下での高速無人無人飛行の課題に対処するために設計されたエンドツーエンドのポリシーである。非対称なアクター・クライブアーキテクチャを利用して、トレーニング中にエージェントに特権情報を提供する。我々は、DPRLアルゴリズムを最先端のナビゲーションアルゴリズムと比較し、様々なシナリオにまたがって広範なシミュレーションを行う。
論文参考訳（メタデータ） (2024-12-09T09:05:52Z)
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文参考訳（メタデータ） (2024-10-23T17:58:45Z)
Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning [17.092640837991883]
強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-05-06T11:33:12Z)
Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文参考訳（メタデータ） (2023-06-27T17:58:39Z)
Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文参考訳（メタデータ） (2023-05-17T04:31:36Z)
Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文参考訳（メタデータ） (2022-07-11T08:31:22Z)
Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments [2.635402406262781]
無人航空機(UAV)は軍用機として広く使用されている。マルコフ決定過程(MDP)として自律運動制御(AMC)問題を定式化する。本稿では,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習法を提案する。
論文参考訳（メタデータ） (2022-07-04T08:19:39Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-11-19T18:47:40Z)
ACDER: Augmented Curiosity-Driven Experience Replay [16.755555854030412]
Augmented Curiosity-Driven Experience Replay (ACDER) という新しい手法を提案する。 ACDERは新しい目標指向の好奇心を駆使して、エージェントが新しいタスク関連状態をより意図的に追求するよう促す。 Reach、Push、Pick&Place、Multi-step Pushの4つの挑戦的なロボット操作タスクの実験を行った。
論文参考訳（メタデータ） (2020-11-16T15:27:15Z)
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。 BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文参考訳（メタデータ） (2020-10-22T17:49:25Z)
AAMDRL: Augmented Asset Management with Deep Reinforcement Learning [5.801876281373619]
深層強化学習がこの課題にどのように対処できるかを示す。コントリビューションは3つある: (i) DRLにおける拡張状態とも呼ばれる文脈情報の使用, (ii) 観察と行動の間の1周期の遅延の影響, (iii) ウォークフォワード分析と呼ばれる新しい反復列車試験手法の実装。我々の実験は、ボットのトレーディングに重点を置いているが、状況変化やノイズの多いデータとともに、シーケンシャルな環境で動作する他のボット環境に容易に翻訳できる。
論文参考訳（メタデータ） (2020-09-30T03:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。