論文の概要: Simple Emergent Action Representations from Multi-Task Policy Training
- arxiv url: http://arxiv.org/abs/2210.09566v1
- Date: Tue, 18 Oct 2022 03:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:43:22.253625
- Title: Simple Emergent Action Representations from Multi-Task Policy Training
- Title(参考訳): マルチタスク政策訓練による簡易な創発的行動表現
- Authors: Pu Hua, Yubei Chen, Huazhe Xu
- Abstract要約: 行動表現は抽象的な行動計画と運動信号空間の理解の基礎を形成する。
本研究では,マルチタスク・ポリシー・ネットワークを入力状態とタスク埋め込みとして扱うと,タスク埋め込みに基づく空間が出現し,意味のある行動表現を適度な制約で含む。
実験の結果, 提案した行動表現は, 限られた, あるいは全く学習しない行動系列や行動間合成に対して有効であるだけでなく, ムジョコ課題における強いベースラインへのタスク適応において, 優れた能力を示すことが示された。
- 参考スコア(独自算出の注目度): 15.110595793541581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-level sensory and motor signals in the high-dimensional spaces (e.g.,
image observations or motor torques) in deep reinforcement learning are
complicated to understand or harness for downstream tasks directly. While
sensory representations have been widely studied, the representations of
actions that form motor skills are yet under exploration. In this work, we find
that when a multi-task policy network takes as input states and task
embeddings, a space based on the task embeddings emerges to contain meaningful
action representations with moderate constraints. Within this space,
interpolated or composed embeddings can serve as a high-level interface to
instruct the agent to perform meaningful action sequences. Empirical results
not only show that the proposed action representations have efficacy for
intra-action interpolation and inter-action composition with limited or no
learning, but also demonstrate their superior ability in task adaptation to
strong baselines in Mujoco locomotion tasks. The evidence elucidates that
learning action representations is a promising direction toward efficient,
adaptable, and composable RL, forming the basis of abstract action planning and
the understanding of motor signal space. Anonymous project page:
https://sites.google.com/view/emergent-action-representation/
- Abstract(参考訳): 深層強化学習における高次元空間(例えば画像観察やモータトルク)における低レベルの感覚信号と運動信号は、下流のタスクを直接理解または活用するために複雑である。
感覚表現は広く研究されているが、運動スキルを形成する行動の表現はまだ探索中である。
本研究では,マルチタスクポリシネットワークが入力状態とタスク埋め込みとして取り込むと,タスク埋め込みに基づく空間が出現し,適度な制約を伴う有意義なアクション表現を含むことを発見した。
この空間内では、補間または構成された埋め込みは、エージェントに意味のあるアクションシーケンスを実行するよう指示する高レベルインターフェースとして機能する。
実験結果から, 提案した行動表現は, 動作内補間および動作間合成に限定的あるいは無学習で有効であるだけでなく, ムジョコ・ロコモーション・タスクにおいて, 強いベースラインに対するタスク適応の優れた能力を示す。
このエビデンスにより、学習行動表現は効率的で適応可能で構成可能なRLへの有望な方向であり、抽象的な行動計画と運動信号空間の理解の基礎を形成する。
匿名プロジェクトページ: https://sites.google.com/view/emergent-action-representation/
関連論文リスト
- HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation [7.01404330241523]
HYPERmotionは、異なるシナリオのタスクに基づいて行動を学び、選択し、計画するフレームワークである。
強化学習と全身最適化を組み合わせることで,38関節の運動を生成する。
シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-06-20T18:21:24Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts [92.92047324641622]
視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-05-31T02:41:31Z) - Learning Sensorimotor Primitives of Sequential Manipulation Tasks from
Visual Demonstrations [13.864448233719598]
本稿では,低レベルポリシーと高レベルポリシーを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。
提案手法の重要な特徴は、これらのポリシーがタスクデモの生のビデオから直接学習されることである。
ロボットアームを用いた物体操作タスクの実証実験の結果,提案するネットワークは実際の視覚的な実演から効率よく学習し,タスクを実行することができることがわかった。
論文 参考訳(メタデータ) (2022-03-08T01:36:48Z) - LASER: Learning a Latent Action Space for Efficient Reinforcement
Learning [41.53297694894669]
本稿では,効率的な強化学習のための潜在行動空間の学習方法であるLASERを提案する。
学習したアクション空間マニホールドの可視化で観察したように、アクション空間のより良いアライメントからタスクスペースへの元のアクションスペースと比較して、サンプル効率が向上しました。
論文 参考訳(メタデータ) (2021-03-29T17:40:02Z) - Learning to Represent Action Values as a Hypergraph on the Action
Vertices [17.811355496708728]
行動値推定は強化学習法(RL)の重要な要素である。
多次元のアクション空間の構造を活用することが、アクションの優れた表現を学ぶための鍵となる要素であると推測する。
Atari 2600 ゲームや、離散化物理制御ベンチマークなど、無数の領域に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-10-28T00:19:13Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。