論文の概要: Zero-Shot Reinforcement Learning with Deep Attention Convolutional
Neural Networks
- arxiv url: http://arxiv.org/abs/2001.00605v1
- Date: Thu, 2 Jan 2020 19:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:48:14.210669
- Title: Zero-Shot Reinforcement Learning with Deep Attention Convolutional
Neural Networks
- Title(参考訳): 深部注意畳み込みニューラルネットワークを用いたゼロショット強化学習
- Authors: Sahika Genc, Sunil Mallya, Sravan Bodapati, Tao Sun, Yunzhe Tao
- Abstract要約: 本研究では、特定の視覚センサ構成を持つ深層注意畳み込みニューラルネットワーク(DACNN)が、より低い計算複雑性で高いドメインとパラメータの変動を持つデータセット上でトレーニングを行うことを示す。
我々の新しいアーキテクチャは、制御対象に対する認識に適応し、知覚ネットワークを事前訓練することなくゼロショット学習を実現する。
- 参考スコア(独自算出の注目度): 12.282277258055542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulation-to-simulation and simulation-to-real world transfer of neural
network models have been a difficult problem. To close the reality gap, prior
methods to simulation-to-real world transfer focused on domain adaptation,
decoupling perception and dynamics and solving each problem separately, and
randomization of agent parameters and environment conditions to expose the
learning agent to a variety of conditions. While these methods provide
acceptable performance, the computational complexity required to capture a
large variation of parameters for comprehensive scenarios on a given task such
as autonomous driving or robotic manipulation is high. Our key contribution is
to theoretically prove and empirically demonstrate that a deep attention
convolutional neural network (DACNN) with specific visual sensor configuration
performs as well as training on a dataset with high domain and parameter
variation at lower computational complexity. Specifically, the attention
network weights are learned through policy optimization to focus on local
dependencies that lead to optimal actions, and does not require tuning in
real-world for generalization. Our new architecture adapts perception with
respect to the control objective, resulting in zero-shot learning without
pre-training a perception network. To measure the impact of our new deep
network architecture on domain adaptation, we consider autonomous driving as a
use case. We perform an extensive set of experiments in
simulation-to-simulation and simulation-to-real scenarios to compare our
approach to several baselines including the current state-of-art models.
- Abstract(参考訳): ニューラルネットワークモデルのシミュレーション・シミュレーション・シミュレーション・トゥ・実世界転送は困難である。
現実のギャップを埋めるためには、ドメイン適応、認識とダイナミクスの分離、各問題を個別に解決すること、エージェントパラメータと環境条件をランダム化して学習エージェントを様々な条件に公開することに焦点を当てたシミュレーションから現実への世界移動の先行手法が提案される。
これらの手法は許容できる性能を提供するが、自律運転やロボット操作といった特定のタスクにおける包括的シナリオに対するパラメータの大規模な変動を捉えるのに必要な計算複雑性が高い。
我々の重要な貢献は、特定の視覚センサ構成を持つディープ・アテンション・畳み込みニューラルネットワーク(DACNN)が、より低い計算複雑性で高いドメインとパラメータの変動を持つデータセットのトレーニングを行うことを理論的に証明し実証することである。
具体的には、ネットワークの重み付けはポリシー最適化によって学習され、最適なアクションにつながる局所的な依存関係に焦点が当てられ、一般化のために現実世界のチューニングを必要としない。
新しいアーキテクチャは,制御目標に対する知覚を適応させ,知覚ネットワークを事前学習することなくゼロショット学習を実現する。
新しいディープネットワークアーキテクチャがドメイン適応に与える影響を測定するために、自律運転をユースケースとして検討する。
シミュレーション・シミュレーション・シミュレーション・トゥ・リアル・シナリオの広範な実験を行い、現在の最先端モデルを含む複数のベースラインと比較した。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Self Expanding Convolutional Neural Networks [1.4330085996657045]
本稿では,学習中の畳み込みニューラルネットワーク(CNN)を動的に拡張する新しい手法を提案する。
我々は、単一のモデルを動的に拡張する戦略を採用し、様々な複雑さのレベルでチェックポイントの抽出を容易にする。
論文 参考訳(メタデータ) (2024-01-11T06:22:40Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - What Robot do I Need? Fast Co-Adaptation of Morphology and Control using
Graph Neural Networks [7.261920381796185]
実世界へのコ適応手法の適用における大きな課題は、シミュレーションから現実へのギャップである。
本稿では,従来の高周波深部ニューラルネットワークと計算コストの高いグラフニューラルネットワークを組み合わせることで,エージェントのデータ効率向上を実現する手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:41:38Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Augmenting Differentiable Simulators with Neural Networks to Close the
Sim2Real Gap [15.1962264049463]
本稿では,ニューラルネットワークを用いた解析モデルの任意の点における拡張を可能にする,剛体力学の微分可能なシミュレーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-12T17:27:11Z) - Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。
任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。
この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文 参考訳(メタデータ) (2020-06-09T17:18:34Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。