論文の概要: Quantifying stability of non-power-seeking in artificial agents
- arxiv url: http://arxiv.org/abs/2401.03529v1
- Date: Sun, 7 Jan 2024 15:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:26:56.094939
- Title: Quantifying stability of non-power-seeking in artificial agents
- Title(参考訳): 人工エージェントにおける非パワーサーキングの定量安定性
- Authors: Evan Ryan Gunter (1), Yevgeny Liokumovich (2), Victoria Krakovna (3)
((1) ML Alignment & Theory Scholars (MATS), (2) University of Toronto, (3)
Google DeepMind)
- Abstract要約: AIエージェントが1つの設定で安全であることが分かっている場合、最初の設定と同じような新しい設定でも安全かどうか、という疑問を調査する。
安全という概念は、電力を求めるエージェントが安全ではないことに基づいている。
安全が_not_stableであるような自然な場合があり、任意に小さな摂動は、決して停止しないポリシーをもたらす可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.2678472239880052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the question: if an AI agent is known to be safe in one
setting, is it also safe in a new setting similar to the first? This is a core
question of AI alignment--we train and test models in a certain environment,
but deploy them in another, and we need to guarantee that models that seem safe
in testing remain so in deployment. Our notion of safety is based on
power-seeking--an agent which seeks power is not safe. In particular, we focus
on a crucial type of power-seeking: resisting shutdown. We model agents as
policies for Markov decision processes, and show (in two cases of interest)
that not resisting shutdown is "stable": if an MDP has certain policies which
don't avoid shutdown, the corresponding policies for a similar MDP also don't
avoid shutdown. We also show that there are natural cases where safety is _not_
stable--arbitrarily small perturbations may result in policies which never shut
down. In our first case of interest--near-optimal policies--we use a
bisimulation metric on MDPs to prove that small perturbations won't make the
agent take longer to shut down. Our second case of interest is policies for
MDPs satisfying certain constraints which hold for various models (including
language models). Here, we demonstrate a quantitative bound on how fast the
probability of not shutting down can increase: by defining a metric on MDPs;
proving that the probability of not shutting down, as a function on MDPs, is
lower semicontinuous; and bounding how quickly this function decreases.
- Abstract(参考訳): AIエージェントが1つの設定で安全であることが分かっている場合、最初の設定と同じような新しい設定でも安全かどうか、という疑問を調査する。
これはAIアライメントの中核的な問題である – 特定の環境でモデルをトレーニングし、テストするが、それを別の環境にデプロイする。
我々の安全の概念は、電力を求めるエージェントが安全ではないことに基づいている。
特に私たちは、シャットダウンに抵抗する、重要なタイプの電力探索に焦点を当てています。
私たちはエージェントをマルコフ決定プロセスのポリシーとしてモデル化し、シャットダウンに抵抗しない(関心のある2つのケースにおいて)ことは「安定」であることを示している。
また、安全が_not_stable-orbitrallyly small perturbationsは、決して停止しないポリシーをもたらす可能性があるという自然の事例も示しています。最初のケースでは、MDPのバイシミュレーション基準を用いて、小さな摂動がエージェントを閉鎖するのに時間がかからないことを示す。
第2のケースは、様々なモデル(言語モデルを含む)に対する一定の制約を満たすMDPのためのポリシーです。
ここでは, MDP 上の計量を定義することにより, MDP 上の関数としてシャットダウンしない確率が半連続であることを示すとともに, シャットダウンしない確率がどれだけ早く増加するかを示す。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z) - OffCon$^3$: What is state of the art anyway? [20.59974596074688]
モデルフリー連続制御タスクに対する2つの一般的なアプローチは、SACとTD3である。
TD3 は DPG から派生したもので、決定論的ポリシーを用いて値関数に沿ってポリシー上昇を行う。
OffCon$3$は、両方のアルゴリズムの最先端バージョンを特徴とするコードベースである。
論文 参考訳(メタデータ) (2021-01-27T11:45:08Z) - Minimax Regret Optimisation for Robust Planning in Uncertain Markov
Decision Processes [3.5289688061934963]
Minimaxの後悔は、堅牢なポリシーを見つけるためにUncertain MDPの計画の目的として提案されています。
政策の後悔を計算するためにベルマン方程式を導入する。
独立した不確実性を有するUMDPに対して,minimaxの後悔を正確に最適化できることが示される。
論文 参考訳(メタデータ) (2020-12-08T18:48:14Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。