論文の概要: Latent Action Priors for Locomotion with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.03246v2
- Date: Sat, 01 Mar 2025 09:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:04:19.649317
- Title: Latent Action Priors for Locomotion with Deep Reinforcement Learning
- Title(参考訳): 深層強化学習によるロコモーションの潜在行動
- Authors: Oliver Hausdörfer, Alexander von Rohr, Éric Lefort, Angela Schoellig,
- Abstract要約: 深層強化学習(DRL)は、ロボットが環境との相互作用を通じて複雑な行動を学ぶことを可能にする。
本稿では,特にトルク制御に有用な移動学習のための帰納バイアスを提案する。
エージェントは実演の報酬レベルに制限されず、転送タスクの性能は大幅に向上する。
- 参考スコア(独自算出の注目度): 42.642008092347986
- License:
- Abstract: Deep Reinforcement Learning (DRL) enables robots to learn complex behaviors through interaction with the environment. However, due to the unrestricted nature of the learning algorithms, the resulting solutions are often brittle and appear unnatural. This is especially true for learning direct joint-level torque control, as inductive biases are difficult to integrate into the learning process. We propose an inductive bias for learning locomotion that is especially useful for torque control: latent actions learned from a small dataset of expert demonstrations. This prior allows the policy to directly leverage knowledge contained in the expert's actions and facilitates more efficient exploration. We observe that the agent is not restricted to the reward levels of the demonstration, and performance in transfer tasks is improved significantly. Latent action priors combined with style rewards for imitation lead to a closer replication of the expert's behavior. Videos and code are available at https://sites.google.com/view/latent-action-priors.
- Abstract(参考訳): 深層強化学習(DRL)は、ロボットが環境との相互作用を通じて複雑な行動を学ぶことを可能にする。
しかし、学習アルゴリズムの制約のない性質のため、結果として得られる解はしばしば脆く、不自然なように見える。
帰納的バイアスは学習プロセスに組み込むのが難しいため、これは直接関節レベルのトルク制御の学習に特に当てはまる。
本稿では,特にトルク制御に有用な移動学習のための帰納的バイアスを提案する。
この前もって、政策は専門家の行動に含まれる知識を直接活用し、より効率的な探索を容易にする。
エージェントは実演の報酬レベルに制限されず、転送タスクの性能は大幅に向上する。
遅延アクションの先行と模倣のスタイルの報酬が組み合わさって、専門家の行動がより近く複製される。
ビデオとコードはhttps://sites.google.com/view/latent-action-priors.comで公開されている。
関連論文リスト
- Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。
事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。
この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文 参考訳(メタデータ) (2024-11-05T15:18:02Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Learning from demonstrations with SACR2: Soft Actor-Critic with Reward
Relabeling [2.1485350418225244]
オフポリシーアルゴリズムはサンプリング効率が良く、リプレイバッファに格納された任意のオフポリシーデータの恩恵を受けることができる。
専門家によるデモンストレーションは、そのようなデータのための一般的な情報源である。
本稿では,実演と成功エピソードに対する報酬ボーナスに基づく新たな手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T14:30:29Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Annotating Motion Primitives for Simplifying Action Search in
Reinforcement Learning [10.764160559530847]
大規模環境での強化学習は、特定の状況において起こりうる多くの行動のために困難である。
我々は以前,運動プリミティブを用いて探索過程を制約し,高速化する手法を開発したことがある。
提案手法は,動作や動作を自動的にアノテートする理論上,視点に敏感で,速度に敏感な手段である。
論文 参考訳(メタデータ) (2021-02-24T01:32:06Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。