論文の概要: Learning to Act without Actions
- arxiv url: http://arxiv.org/abs/2312.10812v1
- Date: Sun, 17 Dec 2023 20:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:19:23.417483
- Title: Learning to Act without Actions
- Title(参考訳): アクションなしで行動することを学ぶ
- Authors: Dominik Schmidt, Minqi Jiang
- Abstract要約: 本研究では,アクションフリーなデモンストレーションから遅延アクションを推論する方法であるLAPO(Latent Action Policies from Observation)を紹介する。
LAPOは、RLポリシーを得るための効果的な事前学習方法として機能し、専門家レベルのパフォーマンスに迅速に微調整することができる。
当社のアプローチは,Web上で利用可能な大量のアクションフリーデモにおいて,強力で汎用的なRLモデルの事前学習を可能にするための重要なステップストーンとして機能する。
- 参考スコア(独自算出の注目度): 18.00902234412912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training large models on vast amounts of web data has proven to be an
effective approach for obtaining powerful, general models in several domains,
including language and vision. However, this paradigm has not yet taken hold in
deep reinforcement learning (RL). This gap is due to the fact that the most
abundant form of embodied behavioral data on the web consists of videos, which
do not include the action labels required by existing methods for training
policies from offline data. We introduce Latent Action Policies from
Observation (LAPO), a method to infer latent actions and, consequently,
latent-action policies purely from action-free demonstrations. Our experiments
on challenging procedurally-generated environments show that LAPO can act as an
effective pre-training method to obtain RL policies that can then be rapidly
fine-tuned to expert-level performance. Our approach serves as a key stepping
stone to enabling the pre-training of powerful, generalist RL models on the
vast amounts of action-free demonstrations readily available on the web.
- Abstract(参考訳): 大量のWebデータを事前学習することは、言語やビジョンを含むいくつかの領域において、強力で一般的なモデルを得るための効果的なアプローチであることが証明されている。
しかし、このパラダイムはまだ深層強化学習(rl)では採用されていない。
このギャップは、Web上の最も豊富な行動データが、オフラインデータからポリシーをトレーニングする既存の方法が必要とするアクションラベルを含まないビデオで構成されているという事実による。
本研究では、潜時行動の推論手法であるLAPO(Latent Action Policies from Observation)を導入し、その結果、潜時行動のポリシーをアクションフリーなデモンストレーションから純粋に導入する。
手続き的に生成する環境に挑戦する実験により、LAPOはRLポリシーを得るための効果的な事前学習方法として機能し、専門家レベルのパフォーマンスに迅速に調整できることを示した。
当社のアプローチは,Web上で利用可能な大量のアクションフリーデモにおいて,強力で汎用的なRLモデルの事前学習を可能にするための重要なステップストーンとして機能する。
関連論文リスト
- Foundation Policies with Hilbert Representations [61.19488199476655]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文 参考訳(メタデータ) (2022-11-23T19:09:37Z) - Large Language Models can Implement Policy Iteration [18.424558160071808]
In-Context Policy Iterationは、基礎モデルを用いてReinforcement Learning(RL)を実行するアルゴリズムである。
ICPIは、専門家によるデモンストレーションやグラデーションなしでRLタスクを実行することを学ぶ。
ICPIは、RL環境との試行錯誤によってポリシーを導出するプロンプトの内容を反復的に更新する。
論文 参考訳(メタデータ) (2022-10-07T21:18:22Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。