論文の概要: Power-seeking can be probable and predictive for trained agents
- arxiv url: http://arxiv.org/abs/2304.06528v1
- Date: Thu, 13 Apr 2023 13:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 14:27:17.100529
- Title: Power-seeking can be probable and predictive for trained agents
- Title(参考訳): パワーセーキングは訓練されたエージェントにとって予測可能で予測可能である
- Authors: Victoria Krakovna and Janos Kramar
- Abstract要約: パワーセーキング行動は、先進的なAIによるリスクの主な原因である。
トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。
電力需要のインセンティブは予測可能であり,予測可能であることを示す。
- 参考スコア(独自算出の注目度): 3.616948583169635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Power-seeking behavior is a key source of risk from advanced AI, but our
theoretical understanding of this phenomenon is relatively limited. Building on
existing theoretical results demonstrating power-seeking incentives for most
reward functions, we investigate how the training process affects power-seeking
incentives and show that they are still likely to hold for trained agents under
some simplifying assumptions. We formally define the training-compatible goal
set (the set of goals consistent with the training rewards) and assume that the
trained agent learns a goal from this set. In a setting where the trained agent
faces a choice to shut down or avoid shutdown in a new situation, we prove that
the agent is likely to avoid shutdown. Thus, we show that power-seeking
incentives can be probable (likely to arise for trained agents) and predictive
(allowing us to predict undesirable behavior in new situations).
- Abstract(参考訳): 電力探究行動は先進的なAIのリスクの主な原因であるが、この現象に関する理論的理解は比較的限られている。
報奨関数のパワーサーキングインセンティブを示す既存の理論的結果に基づいて、トレーニングプロセスがパワーサーキングインセンティブにどのように影響するかを検証し、いくつかの簡易な仮定の下で訓練されたエージェントを保留する可能性が高いことを示す。
我々は、トレーニング互換の目標セット(トレーニング報酬と整合した目標セット)を正式に定義し、トレーニングされたエージェントがこのセットから目標を学習すると仮定する。
訓練されたエージェントが、新しい状況でシャットダウンまたはシャットダウンを避ける選択に直面している場合、エージェントがシャットダウンを避ける可能性が高いことを示す。
したがって, パワー・シーキングのインセンティブは(訓練されたエージェントに対して起こるように)可能であり, 予測可能であること(新たな状況において望ましくない行動を予測できる)を示す。
関連論文リスト
- Getting By Goal Misgeneralization With a Little Help From a Mentor [5.012314384895538]
本稿では, エージェントが不慣れな状況下で上司に助けを求めることが, この問題を軽減できるかどうかを考察する。
我々は,CoinRun環境においてPPOで訓練されたエージェントに焦点を当てた。
エージェントの内部状態に基づくメソッドは、積極的にヘルプを要求せず、ミスが既に発生するまで待つことに気付きました。
論文 参考訳(メタデータ) (2024-10-28T14:07:41Z) - Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning [16.350898218047405]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムに対する新たなバックドア攻撃法を提案する。
これらの攻撃は、エージェントの報酬を最小限に変更しながら、アートパフォーマンスの状態を達成します。
次に、拘束された報酬制約の下での事前攻撃を著しく上回るオンラインアタックを考案する。
論文 参考訳(メタデータ) (2024-10-17T19:50:28Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - Parametrically Retargetable Decision-Makers Tend To Seek Power [91.93765604105025]
完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。
我々は、最適からランダムまで、AI意思決定のモデルから、学習と環境との対話によって得られる選択まで、さまざまなモデルを検討します。
定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。
論文 参考訳(メタデータ) (2022-06-27T17:39:23Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal
Agent [21.548271801592907]
強化学習者は、高い報酬につながる行動を選択することを学ぶエージェントである。
エージェントが任意の環境において「漸近的に最適」であると保証された場合、真の環境に関する仮定に従うと、エージェントは「破壊される」か「不活性化される」かのいずれかとなる。
我々は,メンティーというエージェントを,無謀な探索ではなく安全な探索をし,メンティーのパフォーマンスに近づくという,控えめな保証をもって提示する。
論文 参考訳(メタデータ) (2020-06-05T10:42:29Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。