論文の概要: Adapting to Unseen Environments through Explicit Representation of
Context
- arxiv url: http://arxiv.org/abs/2002.05640v2
- Date: Mon, 29 Jun 2020 22:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 10:11:14.115386
- Title: Adapting to Unseen Environments through Explicit Representation of
Context
- Title(参考訳): 文脈の明示的表現による未知環境への適応
- Authors: Cem C. Tutum and Risto Miikkulainen
- Abstract要約: 自律運転、インフラ管理、医療、金融といった分野に自律的なエージェントを配置するには、目に見えない状況に安全に適応する必要がある。
本稿では,コンテキストモジュールとスキルモジュールを併用する原則的アプローチを提案する。
Context+Skillアプローチは、以前は目に見えなかった影響のある環境において、はるかに堅牢な振る舞いをもたらす。
- 参考スコア(独自算出の注目度): 16.8615211682877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to deploy autonomous agents to domains such as autonomous driving,
infrastructure management, health care, and finance, they must be able to adapt
safely to unseen situations. The current approach in constructing such agents
is to try to include as much variation into training as possible, and then
generalize within the possible variations. This paper proposes a principled
approach where a context module is coevolved with a skill module. The context
module recognizes the variation and modulates the skill module so that the
entire system performs well in unseen situations. The approach is evaluated in
a challenging version of the Flappy Bird game where the effects of the actions
vary over time. The Context+Skill approach leads to significantly more robust
behavior in environments with previously unseen effects. Such a principled
generalization ability is essential in deploying autonomous agents in real
world tasks, and can serve as a foundation for continual learning as well.
- Abstract(参考訳): 自律的なエージェントを自律運転、インフラ管理、医療、金融などのドメインに展開するためには、目に見えない状況に安全に適応する必要がある。
このようなエージェントを構築する現在のアプローチは、可能な限りトレーニングにバリエーションを取り入れて、可能なバリエーション内で一般化することです。
本稿では,コンテキストモジュールをスキルモジュールと共進化させる原則的アプローチを提案する。
コンテキストモジュールは、変化を認識し、スキルモジュールを変調し、システム全体が目に見えない状況でうまく機能するようにします。
このアプローチは、アクションの効果が時間とともに変化するFlappy Birdゲームにおいて、挑戦的なバージョンで評価される。
Context+Skillアプローチは、以前は目に見えなかった影響のある環境において、はるかに堅牢な振る舞いをもたらす。
このような原則化された一般化能力は、現実世界のタスクに自律的なエージェントを配置するのに必須であり、継続的な学習の基盤としても機能する。
関連論文リスト
- HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Dynamics Generalisation in Reinforcement Learning via Adaptive
Context-Aware Policies [13.410372954752496]
一般化を改善するために,行動学習に文脈をどのように組み込むべきかについて検討する。
ニューラルネットワークアーキテクチャであるDecision Adapterを導入し、アダプタモジュールの重みを生成し、コンテキスト情報に基づいてエージェントの動作を条件付ける。
決定適応器は以前に提案したアーキテクチャの有用な一般化であり、より優れた一般化性能をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-10-25T14:50:05Z) - Self-Activating Neural Ensembles for Continual Reinforcement Learning [23.00149997940467]
Self-Activating Neural Ensembles (SANE) は、仮定せずに破滅的な忘れを避けるために設計されたモジュラーアーキテクチャを使用する。
トレーニング中、必要に応じて新しいモジュールが作成され、未使用のモジュールが変更されないように、アクティブなモジュールのみが更新される。
このシステムにより,新しいスキルを育成し,学習しながら,古いスキルを維持し,活用することができる。
論文 参考訳(メタデータ) (2022-12-31T07:11:05Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - One Policy to Control Them All: Shared Modular Policies for
Agent-Agnostic Control [47.78262874364569]
我々は,多種多様なエージェント形態制御を一般化できる単一のグローバルポリシーが存在するかどうかを考察する。
我々は,このグローバルポリシを,同種のモジュール型ニューラルネットワークの集合として表現することを提案する。
複数の平面エージェントに対して,単一のモジュラポリシでロコモーション動作を生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-09T17:59:35Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Generalization of Agent Behavior through Explicit Representation of
Context [14.272883554753323]
デジタルインタラクティブ環境で自律エージェントをデプロイするには、目に見えない状況で堅牢に動作できなければならない。
本稿では,ゲームにおいてコンテキストモジュールとスキルモジュールが共存する原理的アプローチを提案する。
このアプローチは、Flappy BirdとLunarLanderのビデオゲーム、およびCARLAの自動運転シミュレーションで評価されている。
論文 参考訳(メタデータ) (2020-06-18T04:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。