論文の概要: RL, but don't do anything I wouldn't do
- arxiv url: http://arxiv.org/abs/2410.06213v1
- Date: Tue, 8 Oct 2024 17:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:31:16.324410
- Title: RL, but don't do anything I wouldn't do
- Title(参考訳): RLですが、私はやらないことを何もしないでください。
- Authors: Michael K. Cohen, Marcus Hutter, Yoshua Bengio, Stuart Russell,
- Abstract要約: 我々は、KL制約が、高度RLエージェントの挙動を制御するためにもはや信頼できないことを示す。
我々は,「何もしないで」という原則を「しないで」という原則に置き換えることで,この問題を回避する理論的な代替案を提案する。
- 参考スコア(独自算出の注目度): 65.17999604409634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning, if the agent's reward differs from the designers' true utility, even only rarely, the state distribution resulting from the agent's policy can be very bad, in theory and in practice. When RL policies would devolve into undesired behavior, a common countermeasure is KL regularization to a trusted policy ("Don't do anything I wouldn't do"). All current cutting-edge language models are RL agents that are KL-regularized to a "base policy" that is purely predictive. Unfortunately, we demonstrate that when this base policy is a Bayesian predictive model of a trusted policy, the KL constraint is no longer reliable for controlling the behavior of an advanced RL agent. We demonstrate this theoretically using algorithmic information theory, and while systems today are too weak to exhibit this theorized failure precisely, we RL-finetune a language model and find evidence that our formal results are plausibly relevant in practice. We also propose a theoretical alternative that avoids this problem by replacing the "Don't do anything I wouldn't do" principle with "Don't do anything I mightn't do".
- Abstract(参考訳): 強化学習では、エージェントの報酬がデザイナの真の効用と異なる場合、たとえまれにさえ、エージェントの方針から生じる状態分布は非常に悪いものになりうる。
RL政策が望ましくない行動へと発展する時、一般的な対策は信頼された政策へのKL正規化である("Don't do what do I't do I don't do)。
現在の最先端言語モデルはすべて、純粋に予測可能な"基本ポリシー"にKL調整されたRLエージェントである。
残念なことに、この基本方針が信頼された政策のベイズ予測モデルである場合、KL制約は高度なRLエージェントの挙動を制御できない。
我々は、アルゴリズム情報理論を用いてこれを理論的に実証し、今日のシステムは、この理論化された失敗を正確に示すには弱すぎるが、言語モデルをRL-finetuneし、我々の公式な結果が実際は妥当に関連している証拠を見つける。
また, 「やらないことはやらない」という原則を「やらないことはやらない」という原則に置き換えることで, この問題を回避する理論的な代替案も提案する。
関連論文リスト
- Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Know Your Boundaries: The Necessity of Explicit Behavioral Cloning in
Offline RL [28.563015766188478]
本稿では,価値学習を制約する行動ポリシーを明示的にクローンするオフライン強化学習アルゴリズムを提案する。
D4RL と Robomimic ベンチマークのいくつかのデータセットで最先端の性能を示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:43Z) - RL with KL penalties is better viewed as Bayesian inference [4.473139775790299]
我々は、言語モデルを強化学習ポリシーとして扱う際の課題を分析する。
これらの課題を避けるには、どのようにしてRLパラダイムを超えていく必要があるかを示します。
論文 参考訳(メタデータ) (2022-05-23T12:47:13Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Off-Belief Learning [21.98027225621791]
完全に根ざした最適な政策を学ぶために、OBL(off-belief Learning)を提示します。
OBLは独自のポリシーに収束し、ゼロショット調整により適している。
OBLは単純な玩具セットとヒト/AI/ゼロショット調整のベンチマークの両方において強い性能を示す。
論文 参考訳(メタデータ) (2021-03-06T01:09:55Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。