論文の概要: One Policy to Control Them All: Shared Modular Policies for
Agent-Agnostic Control
- arxiv url: http://arxiv.org/abs/2007.04976v1
- Date: Thu, 9 Jul 2020 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:14:09.150548
- Title: One Policy to Control Them All: Shared Modular Policies for
Agent-Agnostic Control
- Title(参考訳): すべてをコントロールするための1つのポリシー:エージェント非依存制御のための共有モジュールポリシー
- Authors: Wenlong Huang, Igor Mordatch, Deepak Pathak
- Abstract要約: 我々は,多種多様なエージェント形態制御を一般化できる単一のグローバルポリシーが存在するかどうかを考察する。
我々は,このグローバルポリシを,同種のモジュール型ニューラルネットワークの集合として表現することを提案する。
複数の平面エージェントに対して,単一のモジュラポリシでロコモーション動作を生成可能であることを示す。
- 参考スコア(独自算出の注目度): 47.78262874364569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is typically concerned with learning control policies
tailored to a particular agent. We investigate whether there exists a single
global policy that can generalize to control a wide variety of agent
morphologies -- ones in which even dimensionality of state and action spaces
changes. We propose to express this global policy as a collection of identical
modular neural networks, dubbed as Shared Modular Policies (SMP), that
correspond to each of the agent's actuators. Every module is only responsible
for controlling its corresponding actuator and receives information from only
its local sensors. In addition, messages are passed between modules,
propagating information between distant modules. We show that a single modular
policy can successfully generate locomotion behaviors for several planar agents
with different skeletal structures such as monopod hoppers, quadrupeds, bipeds,
and generalize to variants not seen during training -- a process that would
normally require training and manual hyperparameter tuning for each morphology.
We observe that a wide variety of drastically diverse locomotion styles across
morphologies as well as centralized coordination emerges via message passing
between decentralized modules purely from the reinforcement learning objective.
Videos and code at https://huangwl18.github.io/modular-rl/
- Abstract(参考訳): 強化学習は通常、特定のエージェントに適した学習制御ポリシーに関係している。
We investigate whether there exists a single global policy that can generalize to control a wide variety of agent morphologies -- ones in which even dimensionality of state and action spaces changes. We propose to express this global policy as a collection of identical modular neural networks, dubbed as Shared Modular Policies (SMP), that correspond to each of the agent's actuators. Every module is only responsible for controlling its corresponding actuator and receives information from only its local sensors. In addition, messages are passed between modules, propagating information between distant modules. We show that a single modular policy can successfully generate locomotion behaviors for several planar agents with different skeletal structures such as monopod hoppers, quadrupeds, bipeds, and generalize to variants not seen during training -- a process that would normally require training and manual hyperparameter tuning for each morphology.
我々は、強化学習目的から純粋に分散モジュール間のメッセージパッシングを通じて、形態学を横断する多様なロコモーションスタイルと集中的なコーディネーションが出現することを観察した。
ビデオとコード: https://huangwl18.github.io/modular-rl/
関連論文リスト
- Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。
大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。
最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文 参考訳(メタデータ) (2023-07-10T21:08:52Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - DMAP: a Distributed Morphological Attention Policy for Learning to
Locomote with a Changing Body [126.52031472297413]
本稿では,生物学的に着想を得たポリシーネットワークアーキテクチャであるDMAPを紹介する。
主観的状態に基づく制御ポリシは,高度に可変な身体構成では不十分であることを示す。
DMAPは、すべての考慮された環境において、全体的な一致またはオラクルエージェントのパフォーマンスを超越して、エンドツーエンドで訓練することができる。
論文 参考訳(メタデータ) (2022-09-28T16:45:35Z) - Behavior Trees in Robot Control Systems [0.0]
振舞い木の主な考え方は、モジュラリティ、階層、フィードバックを活用することである。
ロボットタスクは、しばしばサブタスクの階層に分解されるため、そのようなモジュールの階層は自然である。
フィードバック制御は、低レベル制御システムにおける不確実性と障害を扱うための基本的なツールである。
論文 参考訳(メタデータ) (2022-03-24T14:16:15Z) - Learning Modular Robot Control Policies [10.503109190599828]
我々は,多種多様な設計を取り扱うモジュール型制御ポリシーを構築した。
モジュールが物理的に再設定されているため、ポリシーはキネマティック構造に合わせて自動的に再設定される。
このポリシーは、トレーニング中に見えない大きなデザインの集合に一般化できることが示される。
論文 参考訳(メタデータ) (2021-05-20T21:54:37Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Adapting to Unseen Environments through Explicit Representation of
Context [16.8615211682877]
自律運転、インフラ管理、医療、金融といった分野に自律的なエージェントを配置するには、目に見えない状況に安全に適応する必要がある。
本稿では,コンテキストモジュールとスキルモジュールを併用する原則的アプローチを提案する。
Context+Skillアプローチは、以前は目に見えなかった影響のある環境において、はるかに堅牢な振る舞いをもたらす。
論文 参考訳(メタデータ) (2020-02-13T17:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。