Fugu-MT 論文翻訳(概要): Learning to Act without Actions

論文の概要: Learning to Act without Actions

arxiv url: http://arxiv.org/abs/2312.10812v1
Date: Sun, 17 Dec 2023 20:39:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 14:19:23.417483
Title: Learning to Act without Actions
Title（参考訳）: アクションなしで行動することを学ぶ
Authors: Dominik Schmidt, Minqi Jiang
Abstract要約: 本研究では,アクションフリーなデモンストレーションから遅延アクションを推論する方法であるLAPO(Latent Action Policies from Observation)を紹介する。 LAPOは、RLポリシーを得るための効果的な事前学習方法として機能し、専門家レベルのパフォーマンスに迅速に微調整することができる。当社のアプローチは,Web上で利用可能な大量のアクションフリーデモにおいて,強力で汎用的なRLモデルの事前学習を可能にするための重要なステップストーンとして機能する。
参考スコア（独自算出の注目度）: 18.00902234412912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training large models on vast amounts of web data has proven to be an effective approach for obtaining powerful, general models in several domains, including language and vision. However, this paradigm has not yet taken hold in deep reinforcement learning (RL). This gap is due to the fact that the most abundant form of embodied behavioral data on the web consists of videos, which do not include the action labels required by existing methods for training policies from offline data. We introduce Latent Action Policies from Observation (LAPO), a method to infer latent actions and, consequently, latent-action policies purely from action-free demonstrations. Our experiments on challenging procedurally-generated environments show that LAPO can act as an effective pre-training method to obtain RL policies that can then be rapidly fine-tuned to expert-level performance. Our approach serves as a key stepping stone to enabling the pre-training of powerful, generalist RL models on the vast amounts of action-free demonstrations readily available on the web.
Abstract（参考訳）: 大量のWebデータを事前学習することは、言語やビジョンを含むいくつかの領域において、強力で一般的なモデルを得るための効果的なアプローチであることが証明されている。しかし、このパラダイムはまだ深層強化学習(rl)では採用されていない。このギャップは、Web上の最も豊富な行動データが、オフラインデータからポリシーをトレーニングする既存の方法が必要とするアクションラベルを含まないビデオで構成されているという事実による。本研究では、潜時行動の推論手法であるLAPO(Latent Action Policies from Observation)を導入し、その結果、潜時行動のポリシーをアクションフリーなデモンストレーションから純粋に導入する。手続き的に生成する環境に挑戦する実験により、LAPOはRLポリシーを得るための効果的な事前学習方法として機能し、専門家レベルのパフォーマンスに迅速に調整できることを示した。当社のアプローチは,Web上で利用可能な大量のアクションフリーデモにおいて,強力で汎用的なRLモデルの事前学習を可能にするための重要なステップストーンとして機能する。

関連論文リスト

Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文参考訳（メタデータ） (2025-03-17T14:28:08Z)
Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model [17.299418356048495]
本稿では,オフラインで学習した模倣学習モデルの改良を,オンラインと環境とのインタラクションを通じて検討する。モデルに依存しない残留ポリシーを用いて、オンラインインタラクション中に大規模な模倣学習モデルを洗練するポリシデコレータを導入する。
論文参考訳（メタデータ） (2024-12-18T09:06:16Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
Text-Aware Diffusion for Policy Learning [8.32790576855495]
本研究では、事前訓練された凍結されたテキスト条件付き拡散モデルを用いて、高密度ゼロショット報酬信号をテキスト整合ポリシー学習に利用する、政策学習用テキスト認識拡散(TADPoLe)を提案する。 TADPoLe は,Humanoid と Dog の両環境において,自然言語によって規定される新たな目標達成と連続的な移動行動の政策を学習可能であることを示す。
論文参考訳（メタデータ） (2024-07-02T03:08:20Z)
Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文参考訳（メタデータ） (2024-06-24T17:59:45Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Representation Learning for Continuous Action Spaces is Beneficial for Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文参考訳（メタデータ） (2022-11-23T19:09:37Z)
Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。トレーニング環境との膨大な数のオンラインインタラクションが必要です。本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文参考訳（メタデータ） (2022-04-05T17:58:22Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文参考訳（メタデータ） (2020-04-07T17:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。