論文の概要: Avoiding Side Effects in Complex Environments
- arxiv url: http://arxiv.org/abs/2006.06547v2
- Date: Thu, 22 Oct 2020 15:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:48:12.205250
- Title: Avoiding Side Effects in Complex Environments
- Title(参考訳): 複雑環境における副作用の回避
- Authors: Alexander Matt Turner, Neale Ratzlaff, Prasad Tadepalli
- Abstract要約: おもちゃの環境では、達成可能なユーティリティ保護は、ランダムに生成された目標を達成する能力のシフトを罰することによって副作用を避けた。
このアプローチをConwayのGame of Lifeに基づいて,大規模でランダムに生成された環境に拡張する。
- 参考スコア(独自算出の注目度): 87.25064477073205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward function specification can be difficult. Rewarding the agent for
making a widget may be easy, but penalizing the multitude of possible negative
side effects is hard. In toy environments, Attainable Utility Preservation
(AUP) avoided side effects by penalizing shifts in the ability to achieve
randomly generated goals. We scale this approach to large, randomly generated
environments based on Conway's Game of Life. By preserving optimal value for a
single randomly generated reward function, AUP incurs modest overhead while
leading the agent to complete the specified task and avoid many side effects.
Videos and code are available at https://avoiding-side-effects.github.io/.
- Abstract(参考訳): 報酬関数の仕様は難しい場合がある。
ウィジェットを作るエージェントに報いるのは簡単だが、負の副作用の多さを罰することは難しい。
玩具環境では,ランダムに生成された目標を達成する能力のシフトをペナルティにすることで副作用を回避できる。
このアプローチをConwayのGame of Lifeに基づいて,大規模でランダムに生成された環境に拡張する。
1つのランダムに生成された報酬関数の最適値を保存することで、AUPはエージェントに指定されたタスクを完了させ、多くの副作用を避けるとともに、控えめなオーバーヘッドを発生させる。
ビデオとコードはhttps://avoiding-side- effectss.github.io/で入手できる。
関連論文リスト
- Risk-averse Batch Active Inverse Reward Design [0.0]
Active Inverse Reward Design (AIRD) は、単一のトレーニング環境での報酬関数を比較する一連のクエリの使用を提案している。
現実世界の環境に現れる未知の機能の可能性を無視し、エージェントが報酬関数を完全に学習するまでに必要な安全対策を無視する。
この手法を改良してRBAIRD(Hass-averse Active Inverse Reward Design)を作成し、実世界で使用される際にエージェントが遭遇する環境の集合を構築し、それらを順次処理し、所定の回数のイテレーションに対して、人間がバッチの各環境に対して答える必要があるかを問い合わせる。
RB
論文 参考訳(メタデータ) (2023-11-20T18:36:10Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Learning with Noisy Labels via Sparse Regularization [76.31104997491695]
ノイズの多いラベルで学習することは、正確なディープニューラルネットワークをトレーニングするための重要なタスクである。
クロスエントロピー(Cross Entropy, CE)など、一般的に使われている損失関数は、ノイズラベルへの過度なオーバーフィットに悩まされている。
我々は, スパース正規化戦略を導入し, ワンホット制約を近似する。
論文 参考訳(メタデータ) (2021-07-31T09:40:23Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Transferable Sparse Adversarial Attack [62.134905824604104]
オーバーフィッティング問題を緩和するジェネレータアーキテクチャを導入し、転送可能なスパース対逆例を効率的に作成する。
提案手法は,他の最適化手法よりも700$times$高速な推論速度を実現する。
論文 参考訳(メタデータ) (2021-05-31T06:44:58Z) - Patch-wise++ Perturbation for Adversarial Targeted Attacks [132.58673733817838]
トランスファビリティの高い対比例の作成を目的としたパッチワイズ反復法(PIM)を提案する。
具体的には、各イテレーションのステップサイズに増幅係数を導入し、$epsilon$-constraintをオーバーフローする1ピクセルの全体的な勾配が、その周辺領域に適切に割り当てられる。
現在の攻撃方法と比較して、防御モデルでは35.9%、通常訓練されたモデルでは32.7%、成功率を大幅に向上させた。
論文 参考訳(メタデータ) (2020-12-31T08:40:42Z) - Avoiding Side Effects By Considering Future Tasks [21.443513600055837]
副次効果をペナルティ化する補助報酬関数を自動生成するアルゴリズムを提案する。
この補助的目的は、エージェントが現在のタスク中に副作用を引き起こすと減少する将来のタスクを完了させる能力に報いる。
本手法は, 干渉を回避し, 副作用の回避に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:55:26Z) - Addressing reward bias in Adversarial Imitation Learning with neutral
reward functions [1.7188280334580197]
模倣学習は、アルゴリズムで使用される報酬関数の選択から生じる報酬バイアスの根本的な問題に悩まされる。
複数の端末状態を持つタスクベース環境において、既存の報酬関数が模倣学習シナリオで失敗する理由に関する理論的スケッチを提供する。
本稿では,タスクベース環境において,GAILの既存手法を単一端末状態と複数端末状態で上回り,GAILに対する新たな報酬関数を提案する。
論文 参考訳(メタデータ) (2020-09-20T16:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。