論文の概要: Learning to Act without Actions
- arxiv url: http://arxiv.org/abs/2312.10812v2
- Date: Wed, 27 Mar 2024 00:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 22:23:24.218842
- Title: Learning to Act without Actions
- Title(参考訳): アクションなしで行動することを学ぶ
- Authors: Dominik Schmidt, Minqi Jiang,
- Abstract要約: 本稿では,ビデオから潜時行動情報を復元する手法であるLatent Action Policies (LAPO)を紹介する。
LAPOは観測された力学からのみ真の作用空間の構造を復元できる最初の方法である。
LAPOは、専門家レベルのポリシーに迅速に微調整可能な潜在アクションポリシーのトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 15.244216478886543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training large models on vast amounts of web data has proven to be an effective approach for obtaining powerful, general models in domains such as language and vision. However, this paradigm has not yet taken hold in reinforcement learning. This is because videos, the most abundant form of embodied behavioral data on the web, lack the action labels required by existing methods for imitating behavior from demonstrations. We introduce Latent Action Policies (LAPO), a method for recovering latent action information, and thereby latent-action policies, world models, and inverse dynamics models, purely from videos. LAPO is the first method able to recover the structure of the true action space just from observed dynamics, even in challenging procedurally-generated environments. LAPO enables training latent-action policies that can be rapidly fine-tuned into expert-level policies, either offline using a small action-labeled dataset, or online with rewards. LAPO takes a first step towards pre-training powerful, generalist policies and world models on the vast amounts of videos readily available on the web.
- Abstract(参考訳): 大量のWebデータを事前学習することは、言語や視覚などの領域において、強力な汎用モデルを得るための効果的なアプローチであることが証明されている。
しかし、このパラダイムはまだ強化学習に留まっていない。
これは、Web上の行動データを具現化した最も豊富な形式であるビデオが、デモから振る舞いを模倣する既存の方法に必要なアクションラベルを欠いているためである。
本稿では,潜時行動情報を復元する手法であるLatent Action Policies (LAPO)を紹介した。
LAPOは、観察されたダイナミックスからのみ真のアクション空間の構造を復元できる最初の方法である。
LAPOは、小さなアクションラベル付きデータセットを使用してオフラインで、専門家レベルのポリシに迅速に微調整可能な、潜在アクションポリシーのトレーニングを可能にする。
LAPOは、Web上で利用できる膨大な量のビデオで、強力でジェネラリスト的なポリシーと世界モデルを事前訓練する第一歩を踏み出した。
関連論文リスト
- Language-Conditioned Semantic Search-Based Policy for Robotic
Manipulation Tasks [2.1332830068386217]
言語条件のセマンティックサーチに基づくオンラインサーチベースのポリシーを作成する手法を提案する。
提案手法は,CALVINベンチマークのベースライン性能を超越し,ゼロショット適応性能が向上する。
論文 参考訳(メタデータ) (2023-12-10T16:17:00Z) - LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Vid2Act: Activate Offline Videos for Visual RL [62.43468793011923]
モデルベースのRL手法であるVid2Actを提案する。
具体的には、ドメイン選択的な知識蒸留損失を用いて、時間変化のあるタスク類似点のセットを生成するよう、世界モデルを訓練する。
本稿では,Meta-World と DeepMind Control Suite において,アクションフリーな視覚的RL事前学習法に対する Vid2Act の利点を示す。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文 参考訳(メタデータ) (2022-11-23T19:09:37Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。