Fugu-MT 論文翻訳(概要): Learning to Act without Actions

論文の概要: Learning to Act without Actions

arxiv url: http://arxiv.org/abs/2312.10812v2
Date: Wed, 27 Mar 2024 00:15:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 22:23:24.218842
Title: Learning to Act without Actions
Title（参考訳）: アクションなしで行動することを学ぶ
Authors: Dominik Schmidt, Minqi Jiang,
Abstract要約: 本稿では,ビデオから潜時行動情報を復元する手法であるLatent Action Policies (LAPO)を紹介する。 LAPOは観測された力学からのみ真の作用空間の構造を復元できる最初の方法である。 LAPOは、専門家レベルのポリシーに迅速に微調整可能な潜在アクションポリシーのトレーニングを可能にする。
参考スコア（独自算出の注目度）: 15.244216478886543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training large models on vast amounts of web data has proven to be an effective approach for obtaining powerful, general models in domains such as language and vision. However, this paradigm has not yet taken hold in reinforcement learning. This is because videos, the most abundant form of embodied behavioral data on the web, lack the action labels required by existing methods for imitating behavior from demonstrations. We introduce Latent Action Policies (LAPO), a method for recovering latent action information, and thereby latent-action policies, world models, and inverse dynamics models, purely from videos. LAPO is the first method able to recover the structure of the true action space just from observed dynamics, even in challenging procedurally-generated environments. LAPO enables training latent-action policies that can be rapidly fine-tuned into expert-level policies, either offline using a small action-labeled dataset, or online with rewards. LAPO takes a first step towards pre-training powerful, generalist policies and world models on the vast amounts of videos readily available on the web.
Abstract（参考訳）: 大量のWebデータを事前学習することは、言語や視覚などの領域において、強力な汎用モデルを得るための効果的なアプローチであることが証明されている。しかし、このパラダイムはまだ強化学習に留まっていない。これは、Web上の行動データを具現化した最も豊富な形式であるビデオが、デモから振る舞いを模倣する既存の方法に必要なアクションラベルを欠いているためである。本稿では,潜時行動情報を復元する手法であるLatent Action Policies (LAPO)を紹介した。 LAPOは、観察されたダイナミックスからのみ真のアクション空間の構造を復元できる最初の方法である。 LAPOは、小さなアクションラベル付きデータセットを使用してオフラインで、専門家レベルのポリシに迅速に微調整可能な、潜在アクションポリシーのトレーニングを可能にする。 LAPOは、Web上で利用できる膨大な量のビデオで、強力でジェネラリスト的なポリシーと世界モデルを事前訓練する第一歩を踏み出した。

関連論文リスト

Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文参考訳（メタデータ） (2025-03-17T14:28:08Z)
Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model [17.299418356048495]
本稿では,オフラインで学習した模倣学習モデルの改良を,オンラインと環境とのインタラクションを通じて検討する。モデルに依存しない残留ポリシーを用いて、オンラインインタラクション中に大規模な模倣学習モデルを洗練するポリシデコレータを導入する。
論文参考訳（メタデータ） (2024-12-18T09:06:16Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
Text-Aware Diffusion for Policy Learning [8.32790576855495]
本研究では、事前訓練された凍結されたテキスト条件付き拡散モデルを用いて、高密度ゼロショット報酬信号をテキスト整合ポリシー学習に利用する、政策学習用テキスト認識拡散(TADPoLe)を提案する。 TADPoLe は,Humanoid と Dog の両環境において,自然言語によって規定される新たな目標達成と連続的な移動行動の政策を学習可能であることを示す。
論文参考訳（メタデータ） (2024-07-02T03:08:20Z)
Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文参考訳（メタデータ） (2024-06-24T17:59:45Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Representation Learning for Continuous Action Spaces is Beneficial for Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文参考訳（メタデータ） (2022-11-23T19:09:37Z)
Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。トレーニング環境との膨大な数のオンラインインタラクションが必要です。本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文参考訳（メタデータ） (2022-04-05T17:58:22Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文参考訳（メタデータ） (2020-04-07T17:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。