論文の概要: Causal Campbell-Goodhart's law and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.01010v2
- Date: Thu, 18 Feb 2021 10:19:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:30:22.986944
- Title: Causal Campbell-Goodhart's law and Reinforcement Learning
- Title(参考訳): Causal Campbell-Goodhartの法則と強化学習
- Authors: Hal Ashton
- Abstract要約: 既成の深層強化学習(RL)アルゴリズムがキャンベル・グーダートの法則に必ずしも従わないことを示す。
実用上の意味は、複雑な実生活問題へのRLの素早い適用は、人間が犯すのと同じタイプのポリシーエラーをもたらす可能性があるということである。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Campbell-Goodhart's law relates to the causal inference error whereby
decision-making agents aim to influence variables which are correlated to their
goal objective but do not reliably cause it. This is a well known error in
Economics and Political Science but not widely labelled in Artificial
Intelligence research. Through a simple example, we show how off-the-shelf deep
Reinforcement Learning (RL) algorithms are not necessarily immune to this
cognitive error. The off-policy learning method is tricked, whilst the
on-policy method is not. The practical implication is that naive application of
RL to complex real life problems can result in the same types of policy errors
that humans make. Great care should be taken around understanding the causal
model that underpins a solution derived from Reinforcement Learning.
- Abstract(参考訳): Campbell-Goodhart の法則は因果推論の誤差に関係しており、意思決定エージェントは目的と相関する変数に影響を及ぼそうとしている。
これは経済学や政治学ではよく知られた誤りであるが、人工知能の研究では広く分類されていない。
簡単な例で、既成の深層強化学習(RL)アルゴリズムが、この認知的誤りに対して必ずしも免疫がないことを示す。
オフポリシー学習方法は騙されるが、オンポリシー学習はそうではない。
現実の複雑な問題に対するrlのナイーブな適用は、人間が犯すのと同じタイプのポリシーエラーを引き起こす可能性がある。
強化学習から導かれる解決策を支える因果モデルを理解することには注意が必要だ。
関連論文リスト
- RL, but don't do anything I wouldn't do [65.17999604409634]
我々は、KL制約が、高度RLエージェントの挙動を制御するためにもはや信頼できないことを示す。
我々は,「何もしないで」という原則を「しないで」という原則に置き換えることで,この問題を回避する理論的な代替案を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:18:17Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Exploration is Harder than Prediction: Cryptographically Separating Reinforcement Learning from Supervised Learning [34.791182995710024]
本稿では,強化学習と教師あり学習の分離を初めて示す。
また,ブロックMDPにおける報酬指向RLに対する計算効率のよいアルゴリズムは存在しないことを示す。
論文 参考訳(メタデータ) (2024-04-04T19:35:41Z) - Why Online Reinforcement Learning is Causal [31.59766909722592]
強化学習(RL)と因果モデリングは自然に相互に補完する。
本稿では、因果モデリングのメリットを期待できる強化学習設定について検討する。
論文 参考訳(メタデータ) (2024-03-07T04:49:48Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Reinforcement Learning for Linear Quadratic Control is Vulnerable Under
Cost Manipulation [22.755411056179813]
コスト信号を操作することにより,LQG (Linear-Quadratic-Gaussian agent) の誤認について検討する。
コストパラメータの小さなファルシフィケーションが最適政策の限界変化に繋がることが示される。
論文 参考訳(メタデータ) (2022-03-11T06:59:42Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。