論文の概要: An Online Data-Driven Emergency-Response Method for Autonomous Agents in
Unforeseen Situations
- arxiv url: http://arxiv.org/abs/2112.09670v1
- Date: Fri, 17 Dec 2021 18:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 13:58:26.454395
- Title: An Online Data-Driven Emergency-Response Method for Autonomous Agents in
Unforeseen Situations
- Title(参考訳): 予期せぬ状況における自律型エージェントのオンラインデータ駆動型緊急対応手法
- Authors: Glenn Maguire, Nicholas Ketz, Praveen Pilly, Jean-Baptiste Mouret
- Abstract要約: 本稿では,オンライン・データ駆動型緊急応答方式を提案する。
自律的なエージェントに予期せぬ状況に対応する能力を提供することを目標としている。
シミュレーションされた3次元自動車運転シナリオにおけるこのアプローチの可能性を示す。
- 参考スコア(独自算出の注目度): 4.339510167603376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents perform well when presented with inputs within
the distribution of those encountered during training. However, they are unable
to respond effectively when faced with novel, out-of-distribution events, until
they have undergone additional training. This paper presents an online,
data-driven, emergency-response method that aims to provide autonomous agents
the ability to react to unexpected situations that are very different from
those it has been trained or designed to address. In such situations, learned
policies cannot be expected to perform appropriately since the observations
obtained in these novel situations would fall outside the distribution of
inputs that the agent has been optimized to handle. The proposed approach
devises a customized response to the unforeseen situation sequentially, by
selecting actions that minimize the rate of increase of the reconstruction
error from a variational auto-encoder. This optimization is achieved online in
a data-efficient manner (on the order of 30 data-points) using a modified
Bayesian optimization procedure. We demonstrate the potential of this approach
in a simulated 3D car driving scenario, in which the agent devises a response
in under 2 seconds to avoid collisions with objects it has not seen during
training.
- Abstract(参考訳): 強化学習エージェントは、トレーニング中に遭遇したエージェントの分布内で入力を提示すると、うまく機能する。
しかし、新たな訓練を受けるまで、新たなアウトオブディストリビューションイベントに直面すると効果的に対応できない。
本稿では、自律型エージェントに対して、トレーニングや対処用に設計されたものと非常に異なる予期せぬ状況に対応する能力を提供することを目的として、オンラインでデータ駆動型緊急応答方式を提案する。
このような状況において、これらの新しい状況で得られた観察は、エージェントが処理に最適化した入力の分布の外側にあるため、学習されたポリシーが適切に実行されるとは期待できない。
提案手法では,変分オートエンコーダからの再構成誤差の増加率を最小化する動作を選択することにより,予期せぬ状況に対する応答を順次改善する。
この最適化は、修正ベイズ最適化手順を用いて、(30データポイントの順序で)データ効率の良い方法でオンラインで達成される。
エージェントが2秒以内に応答を考案し、訓練中に見たことのない物体との衝突を避けるというシミュレーション3次元自動車運転シナリオにおいて、このアプローチの可能性を実証する。
関連論文リスト
- Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。
本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:03:51Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Dynamic Memory for Interpretable Sequential Optimisation [0.0]
大規模展開に適した非定常性を扱うためのソリューションを提案する。
動的メモリの新たな形態を取り入れた適応型ベイズ学習エージェントを開発した。
自動アズ・ア・サービス(Automatic-as-a-service)の大規模展開のアーキテクチャについて説明する。
論文 参考訳(メタデータ) (2022-06-28T12:29:13Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - Lifelong Unsupervised Domain Adaptive Person Re-identification with
Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。
これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。
我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文 参考訳(メタデータ) (2021-12-13T13:19:45Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z) - Tactical Decision-Making in Autonomous Driving by Reinforcement Learning
with Uncertainty Estimation [0.9883261192383611]
強化学習は、自律運転のための戦術的意思決定エージェントを作成するために使用できる。
本稿では,自動走行における意思決定の不確かさを推定するためにベイズRL手法をいかに活用するかを検討する。
論文 参考訳(メタデータ) (2020-04-22T08:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。