論文の概要: MAN: Multi-Action Networks Learning
- arxiv url: http://arxiv.org/abs/2209.09329v1
- Date: Mon, 19 Sep 2022 20:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:43:50.441700
- Title: MAN: Multi-Action Networks Learning
- Title(参考訳): MAN: マルチアクションネットワーク学習
- Authors: Keqin Wang, Alison Bartsch, Amir Barati Farimani
- Abstract要約: 本稿では,Multi-Action Networks (MAN) Learningと呼ばれる深層強化学習アルゴリズムを紹介する。
本稿では,アクション空間を2つのコンポーネントに分割し,各サブアクションに対して価値ニューラルネットワークを作成することを提案する。
そして、MANは時間差学習を用いてネットワークを同期的にトレーニングする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning control policies with large action spaces is a challenging problem
in the field of reinforcement learning due to present inefficiencies in
exploration. In this work, we introduce a Deep Reinforcement Learning (DRL)
algorithm call Multi-Action Networks (MAN) Learning that addresses the
challenge of large discrete action spaces. We propose separating the action
space into two components, creating a Value Neural Network for each sub-action.
Then, MAN uses temporal-difference learning to train the networks
synchronously, which is simpler than training a single network with a large
action output directly. To evaluate the proposed method, we test MAN on a block
stacking task, and then extend MAN to handle 12 games from the Atari Arcade
Learning environment with 18 action spaces. Our results indicate that MAN
learns faster than both Deep Q-Learning and Double Deep Q-Learning, implying
our method is a better performing synchronous temporal difference algorithm
than those currently available for large action spaces.
- Abstract(参考訳): 大規模行動空間による制御方針の学習は、現在探索の非効率性のため強化学習の分野では難しい課題である。
本研究では,大規模離散行動空間の課題に対処するマルチアクションネットワーク(MAN)学習という,深層強化学習(DRL)アルゴリズムを提案する。
アクション空間を2つのコンポーネントに分離し,各サブアクションに対して値ニューラルネットワークを作成する。
次に、manは時間差学習を使用してネットワークを同期的にトレーニングする。これは、大きなアクションアウトプットで単一のネットワークをトレーニングするよりも簡単である。
提案手法を評価するため,ブロック積み重ねタスク上でMANをテストし,さらに18のアクション空間を持つアタリアーケード学習環境からMANを拡張して12のゲームを扱う。
この結果から,MANは深度Q-LearningとDouble Deep Q-Learningよりも高速に学習できることが示唆された。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。
A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。
A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文 参考訳(メタデータ) (2022-07-19T12:56:41Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - LASER: Learning a Latent Action Space for Efficient Reinforcement
Learning [41.53297694894669]
本稿では,効率的な強化学習のための潜在行動空間の学習方法であるLASERを提案する。
学習したアクション空間マニホールドの可視化で観察したように、アクション空間のより良いアライメントからタスクスペースへの元のアクションスペースと比較して、サンプル効率が向上しました。
論文 参考訳(メタデータ) (2021-03-29T17:40:02Z) - Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。
本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。
この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T02:16:54Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。