論文の概要: Generalization of Agent Behavior through Explicit Representation of
Context
- arxiv url: http://arxiv.org/abs/2006.11305v2
- Date: Tue, 9 Feb 2021 21:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 09:42:02.294043
- Title: Generalization of Agent Behavior through Explicit Representation of
Context
- Title(参考訳): 文脈の明示表現によるエージェント行動の一般化
- Authors: Cem C Tutum, Suhaib Abdulquddos, Risto Miikkulainen
- Abstract要約: デジタルインタラクティブ環境で自律エージェントをデプロイするには、目に見えない状況で堅牢に動作できなければならない。
本稿では,ゲームにおいてコンテキストモジュールとスキルモジュールが共存する原理的アプローチを提案する。
このアプローチは、Flappy BirdとLunarLanderのビデオゲーム、およびCARLAの自動運転シミュレーションで評価されている。
- 参考スコア(独自算出の注目度): 14.272883554753323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to deploy autonomous agents in digital interactive environments,
they must be able to act robustly in unseen situations. The standard machine
learning approach is to include as much variation as possible into training
these agents. The agents can then interpolate within their training, but they
cannot extrapolate much beyond it. This paper proposes a principled approach
where a context module is coevolved with a skill module in the game. The
context module recognizes the temporal variation in the game and modulates the
outputs of the skill module so that the action decisions can be made robustly
even in previously unseen situations. The approach is evaluated in the Flappy
Bird and LunarLander video games, as well as in the CARLA autonomous driving
simulation. The Context+Skill approach leads to significantly more robust
behavior in environments that require extrapolation beyond training. Such a
principled generalization ability is essential in deploying autonomous agents
in real-world tasks, and can serve as a foundation for continual adaptation as
well.
- Abstract(参考訳): デジタルインタラクティブ環境で自律エージェントをデプロイするには、目に見えない状況で堅牢に動作できなければならない。
標準的な機械学習アプローチは、エージェントのトレーニングに可能な限り多くのバリエーションを含めることである。
エージェントはトレーニング中にインターポーレーションを行うことができるが、それ以上のインターポーレーションはできない。
本稿では,ゲーム内のスキルモジュールとコンテキストモジュールが共進化する原則的アプローチを提案する。
コンテキストモジュールは、ゲーム内の時間的変動を認識し、スキルモジュールの出力を変調することにより、これまで見つからなかった状況でも、アクション決定を堅牢に行うことができる。
このアプローチは、Flappy BirdとLunarLanderのビデオゲーム、およびCARLAの自動運転シミュレーションで評価されている。
Context+Skillアプローチは、トレーニング以上の外挿を必要とする環境において、はるかに堅牢な振る舞いをもたらす。
このような一般化能力は、現実のタスクに自律エージェントを配置するのに不可欠であり、連続的な適応の基盤としても機能する。
関連論文リスト
- Aligning Agents like Large Language Models [8.873319874424167]
高次元感覚情報から複雑な3D環境下での行動訓練は困難である。
我々は、模倣学習エージェントの望ましくない振る舞いと、不整合大言語モデル(LLM)の不整合応答の類似性を描く。
トレーニングエージェントにこのアプローチをうまく適用するための洞察とアドバイスを提供しながら、希望するモードを一貫して実行できるようにエージェントを調整できることを実証する。
論文 参考訳(メタデータ) (2024-06-06T16:05:45Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Hierarchical Imitation Learning for Stochastic Environments [31.64016324441371]
分布的リアリズムを改善する既存の方法は通常階層的なポリシーに依存している。
環境条件下での対人訓練に伴う変化を解消するロバスト型条件付け(RTC)を提案する。
大規模なOpen Motionデータセットを含む2つの領域の実験では、最先端のベースラインと比較して、タスクパフォーマンスを維持したり改善したりしながら、分散リアリズムが改善された。
論文 参考訳(メタデータ) (2023-09-25T10:10:34Z) - A Survey on Reinforcement Learning Methods in Character Animation [22.3342752080749]
強化学習(Reinforcement Learning)は、エージェントがシーケンシャルな決定をするためにどのようにトレーニングできるかに焦点を当てた機械学習の分野である。
本稿では,現代のDeep Reinforcement Learning法を調査し,キャラクタアニメーションにおける応用の可能性について考察する。
論文 参考訳(メタデータ) (2022-03-07T23:39:00Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Adapting to Unseen Environments through Explicit Representation of
Context [16.8615211682877]
自律運転、インフラ管理、医療、金融といった分野に自律的なエージェントを配置するには、目に見えない状況に安全に適応する必要がある。
本稿では,コンテキストモジュールとスキルモジュールを併用する原則的アプローチを提案する。
Context+Skillアプローチは、以前は目に見えなかった影響のある環境において、はるかに堅牢な振る舞いをもたらす。
論文 参考訳(メタデータ) (2020-02-13T17:15:47Z) - Intelligent Roundabout Insertion using Deep Reinforcement Learning [68.8204255655161]
本稿では,多忙なラウンドアバウンドの入場を交渉できる演習計画モジュールを提案する。
提案されたモジュールは、トレーニングされたニューラルネットワークに基づいて、操作の全期間にわたって、ラウンドアバウンドに入るタイミングと方法を予測する。
論文 参考訳(メタデータ) (2020-01-03T11:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。