論文の概要: Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments
- arxiv url: http://arxiv.org/abs/2311.02746v1
- Date: Sun, 5 Nov 2023 19:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:01:20.113109
- Title: Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments
- Title(参考訳): 複合作業環境における段階的強化学習
- Authors: Rafael Pina, Corentin Artaud, Xiaolan Liu and Varuna De Silva
- Abstract要約: RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
- 参考スコア(独自算出の注目度): 4.883558259729863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is an area of growing interest in the field of
artificial intelligence due to its many notable applications in diverse fields.
Particularly within the context of intelligent vehicle control, RL has made
impressive progress. However, currently it is still in simulated controlled
environments where RL can achieve its full super-human potential. Although how
to apply simulation experience in real scenarios has been studied, how to
approximate simulated problems to the real dynamic problems is still a
challenge. In this paper, we discuss two methods that approximate RL problems
to real problems. In the context of traffic junction simulations, we
demonstrate that, if we can decompose a complex task into multiple sub-tasks,
solving these tasks first can be advantageous to help minimising possible
occurrences of catastrophic events in the complex task. From a multi-agent
perspective, we introduce a training structuring mechanism that exploits the
use of experience learned under the popular paradigm called Centralised
Training Decentralised Execution (CTDE). This experience can then be leveraged
in fully decentralised settings that are conceptually closer to real settings,
where agents often do not have access to a central oracle and must be treated
as isolated independent units. The results show that the proposed approaches
improve agents performance in complex tasks related to traffic junctions,
minimising potential safety-critical problems that might happen in these
scenarios. Although still in simulation, the investigated situations are
conceptually closer to real scenarios and thus, with these results, we intend
to motivate further research in the subject.
- Abstract(参考訳): 強化学習(英: reinforcement learning、rl)は、人工知能の分野への関心が高まっている分野である。
特にインテリジェントな車両制御の文脈では、RLは目覚ましい進歩を遂げている。
しかし、現在はまだRLが完全な超人的ポテンシャルを達成できる模擬制御環境にある。
シミュレーションを実際のシナリオに適用する方法は研究されているが、シミュレーション問題を実際の動的問題に近似する方法は依然として課題である。
本稿では,RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈では、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くことは、複雑なタスクにおける破滅的な事象の発生を最小化するのに役立つ。
マルチエージェントの観点からは,集中型トレーニング分散実行(ctde)と呼ばれる,一般的なパラダイムの下で学んだ経験を活用したトレーニング構築機構を提案する。
この経験は、概念的には実際の設定に近い完全に分散した設定で活用でき、エージェントは中央のオラクルにアクセスできず、独立した独立したユニットとして扱われることが多い。
提案手法は,交通ジャンクションに関連する複雑なタスクにおけるエージェント性能を改善し,これらのシナリオで起こりうる潜在的な安全クリティカルな問題を最小化する。
シミュレーション中ではあるが, 研究状況は概念的には現実のシナリオに近づき, これらの結果から, さらなる研究の動機付けを目指す。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - End-to-end Lidar-Driven Reinforcement Learning for Autonomous Racing [0.0]
強化学習(Reinforcement Learning, RL)は、自動化とロボット工学の領域において、変革的なアプローチとして登場した。
本研究は、フィードフォワード生ライダーと速度データのみを用いて、レース環境をナビゲートするRLエージェントを開発し、訓練する。
エージェントのパフォーマンスは、実世界のレースシナリオで実験的に評価される。
論文 参考訳(メタデータ) (2023-09-01T07:03:05Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Ubiquitous Distributed Deep Reinforcement Learning at the Edge:
Analyzing Byzantine Agents in Discrete Action Spaces [0.06554326244334865]
本稿では,ビザンチンや誤作動剤の存在下で発生する多エージェント分散深層強化学習の課題について論じる。
個別行動の誤りが協調学習活動にどのように影響するかを示す。
分散マルチエージェントトレーニングにおけるアクター・クリティカル(A2C)を活かしたAtariテストベッドを用いたシミュレーション環境で実験を行った。
論文 参考訳(メタデータ) (2020-08-18T11:25:39Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。