論文の概要: Lights out: training RL agents robust to temporary blindness
- arxiv url: http://arxiv.org/abs/2312.02665v1
- Date: Tue, 5 Dec 2023 11:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:52:07.231291
- Title: Lights out: training RL agents robust to temporary blindness
- Title(参考訳): RLエージェントを一時的に失明しやすく訓練中
- Authors: N. Ordonez, M. Tromp, P. M. Julbe, and W. B\"ohmer
- Abstract要約: 観測結果の隠蔽表現と新しいnステップ損失関数を用いたニューラルネットワークアーキテクチャを導入する。
私たちの実装は、トレーニングされたものよりも、位置情報ベースの盲点に耐えられるので、一時的な盲点に対する堅牢性を示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents trained with DQN rely on an observation at each timestep to decide
what action to take next. However, in real world applications observations can
change or be missing entirely. Examples of this could be a light bulb breaking
down, or the wallpaper in a certain room changing. While these situations
change the actual observation, the underlying optimal policy does not change.
Because of this we want our agent to continue taking actions until it receives
a (recognized) observation again. To achieve this we introduce a combination of
a neural network architecture that uses hidden representations of the
observations and a novel n-step loss function. Our implementation is able to
withstand location based blindness stretches longer than the ones it was
trained on, and therefore shows robustness to temporary blindness. For access
to our implementation, please email Nathan, Marije, or Pau.
- Abstract(参考訳): DQNで訓練されたエージェントは、次にどのアクションをとるかを決定するために各タイミングで観察に依存する。
しかし、現実世界のアプリケーションでは、観察が変更されるか、完全に失われる可能性がある。
その例としては、電球が故障したり、部屋の壁紙が変わったりすることがある。
これらの状況は実際の観察を変えるが、基礎となる最適政策は変わらない。
このため、我々はエージェントが再び(認識された)観察を受けるまで行動を続けることを望んでいます。
これを実現するために,観測の隠れた表現と新しいnステップ損失関数を組み合わせたニューラルネットワークアーキテクチャを提案する。
提案手法は,訓練対象よりも長期にわたる位置ベースブラインドネスに耐えられるため,一時的なブラインドネスに対する堅牢性を示す。
私たちの実装にアクセスするには、Nathan、Marije、Pauにメールしてください。
関連論文リスト
- Interpretable Brain-Inspired Representations Improve RL Performance on
Visual Navigation Tasks [0.0]
本研究では,視覚データの解釈可能な表現を生成することにより,遅い特徴解析(SFA)の手法が両方の制約を克服することを示す。
我々はSFAを現代の強化学習の文脈で採用し、表現を分析し比較し、階層的なSFAがナビゲーションタスクにおいて他の特徴抽出器よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T11:35:01Z) - Monitored Markov Decision Processes [15.438015964569743]
強化学習(RL)において、エージェントは、環境と相互作用し、その動作に対するフィードバック(数値報酬)を受け取ることによってタスクを実行することを学習する。
報酬は常に観測可能であるという仮定は、実世界の問題には適用できないことが多い。
我々は、エージェントが常に報酬を観察できない、新しいが一般的なRLフレームワーク、監視されたMDPを定式化する。
論文 参考訳(メタデータ) (2024-02-09T23:00:29Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - A Temporal-Pattern Backdoor Attack to Deep Reinforcement Learning [10.162123678104917]
DRLに対する新しい時間パターンバックドアアタックを提案する。
提案したバックドア攻撃を,クラウドコンピューティングにおける典型的なジョブスケジューリングタスクに検証する。
我々のバックドアの平均的クリーンデータ精度と攻撃成功率は、それぞれ97.8%と97.5%に達する。
論文 参考訳(メタデータ) (2022-05-05T12:03:09Z) - Improving Transferability of Representations via Augmentation-Aware
Self-Supervision [117.15012005163322]
AugSelfは、ランダムに強化された2つのサンプル間の拡張パラメータの違いを学習する補助的な自己教師型損失である。
私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。
AugSelfは、最新の最先端の表現学習手法に、無視できる追加のトレーニングコストで簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-11-18T10:43:50Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。