論文の概要: Challenges for Using Impact Regularizers to Avoid Negative Side Effects
- arxiv url: http://arxiv.org/abs/2101.12509v1
- Date: Fri, 29 Jan 2021 10:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 14:54:43.224741
- Title: Challenges for Using Impact Regularizers to Avoid Negative Side Effects
- Title(参考訳): 負の副作用を避けるための衝突正則化器の課題
- Authors: David Lindner and Kyle Matoba and Alexander Meulemans
- Abstract要約: 我々は、影響レギュレータの主な課題について論じ、それらを基本的な設計決定に関連付ける。
我々は、影響正則化器による負の副作用の防止における未解決課題を克服するための有望な方向を探究する。
- 参考スコア(独自算出の注目度): 74.67972013102462
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Designing reward functions for reinforcement learning is difficult: besides
specifying which behavior is rewarded for a task, the reward also has to
discourage undesired outcomes. Misspecified reward functions can lead to
unintended negative side effects, and overall unsafe behavior. To overcome this
problem, recent work proposed to augment the specified reward function with an
impact regularizer that discourages behavior that has a big impact on the
environment. Although initial results with impact regularizers seem promising
in mitigating some types of side effects, important challenges remain. In this
paper, we examine the main current challenges of impact regularizers and relate
them to fundamental design decisions. We discuss in detail which challenges
recent approaches address and which remain unsolved. Finally, we explore
promising directions to overcome the unsolved challenges in preventing negative
side effects with impact regularizers.
- Abstract(参考訳): 強化学習のための報酬関数の設計は困難であり、どの行動に報酬が与えられるかを指定する以外に、望ましくない結果も避けなければならない。
不特定の報酬関数は意図しない副作用や全体的な安全でない行動を引き起こす可能性がある。
この問題を克服するため,近年の研究では,環境に大きな影響を及ぼす行動を妨げる影響レギュレータによる報酬関数の強化が提案されている。
影響正則化器による最初の結果は、ある種の副作用を緩和する上で有望であるように思われるが、重要な課題は残る。
本稿では,インパクト・レギュラライザの主な課題を考察し,基本的な設計決定に関連付ける。
我々は,最近のアプローチが抱える課題と未解決の課題について詳細に議論する。
最後に、影響正則化器による負の副作用の防止における未解決課題を克服するための有望な方向を探る。
関連論文リスト
- Steady-State Error Compensation for Reinforcement Learning with Quadratic Rewards [1.0725881801927162]
強化学習(RL)における報酬関数の選択は,システム性能への影響から注目されている。
本研究は、積分項を導入するアプローチを提案する。
この積分項を二次型報酬関数に統合することにより、RLアルゴリズムは順応的に調整され、システムによる報酬履歴の考慮が増大する。
論文 参考訳(メタデータ) (2024-02-14T10:35:26Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Fighting Copycat Agents in Behavioral Cloning from Observation Histories [85.404120663644]
模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。
本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
論文 参考訳(メタデータ) (2020-10-28T10:52:10Z) - Avoiding Side Effects By Considering Future Tasks [21.443513600055837]
副次効果をペナルティ化する補助報酬関数を自動生成するアルゴリズムを提案する。
この補助的目的は、エージェントが現在のタスク中に副作用を引き起こすと減少する将来のタスクを完了させる能力に報いる。
本手法は, 干渉を回避し, 副作用の回避に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:55:26Z) - Disentangling causal effects for hierarchical reinforcement learning [0.0]
本研究は、因果効果の階層を生かして、タスク固有の行動の学習を迅速化することを目的とする。
変分オートエンコーダを用いて制御可能な効果の分布をモデル化する階層的手法CEHRLを提案する。
ランダムな行動による探索と比較して、実験結果はランダムな効果探索がより効率的なメカニズムであることを示している。
論文 参考訳(メタデータ) (2020-10-03T13:19:16Z) - Avoiding Negative Side Effects due to Incomplete Knowledge of AI Systems [35.763408055286355]
エージェントの行動の負の副作用を認識して回避する学習は、自律システムの安全性と信頼性を向上させるために重要である。
ネガティブな副作用の緩和は、AIシステムの展開が急速に増加しているために注目が集まっている、新たな研究トピックである。
本稿は、様々な形態の負の副作用と、それらに対処する最近の研究成果について概説する。
論文 参考訳(メタデータ) (2020-08-24T16:48:46Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals [53.484562601127195]
調査結果から行動学的結論を推測できない点を指摘する。
我々は、どの情報がエンコードされているかではなく、その情報がどのように使われているかに焦点を当てた代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-01T15:00:11Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。