論文の概要: Parametrically Retargetable Decision-Makers Tend To Seek Power
- arxiv url: http://arxiv.org/abs/2206.13477v1
- Date: Mon, 27 Jun 2022 17:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:30:13.873567
- Title: Parametrically Retargetable Decision-Makers Tend To Seek Power
- Title(参考訳): パラメトリックに再ターゲティング可能な意思決定ツール
- Authors: Alexander Matt Turner, Prasad Tadepalli
- Abstract要約: 完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。
我々は、最適からランダムまで、AI意思決定のモデルから、学習と環境との対話によって得られる選択まで、さまざまなモデルを検討します。
定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。
- 参考スコア(独自算出の注目度): 91.93765604105025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If capable AI agents are generally incentivized to seek power in service of
the objectives we specify for them, then these systems will pose enormous
risks, in addition to enormous benefits. In fully observable environments, most
reward functions have an optimal policy which seeks power by keeping options
open and staying alive. However, the real world is neither fully observable,
nor will agents be perfectly optimal. We consider a range of models of AI
decision-making, from optimal, to random, to choices informed by learning and
interacting with an environment. We discover that many decision-making
functions are retargetable, and that retargetability is sufficient to cause
power-seeking tendencies. Our functional criterion is simple and broad. We show
that a range of qualitatively dissimilar decision-making procedures incentivize
agents to seek power. We demonstrate the flexibility of our results by
reasoning about learned policy incentives in Montezuma's Revenge. These results
suggest a safety risk: Eventually, highly retargetable training procedures may
train real-world agents which seek power over humans.
- Abstract(参考訳): 有能なaiエージェントが一般的に、私たちが指定した目的のために力を求めるインセンティブがある場合、これらのシステムは膨大な利益に加えて、大きなリスクをもたらすことになります。
完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。
しかし、現実世界は完全に観察可能でも、エージェントが完全に最適でもない。
我々は、最適なai意思決定からランダムな意思決定から、学習や環境とのインタラクションから得られる選択まで、さまざまなモデルを検討する。
多くの意思決定機能は再ターゲティング可能であり、再ターゲッティング性は電力探索の傾向を引き起こすのに十分である。
私たちの機能基準はシンプルで広範です。
定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。
モンテズマの復讐で学んだ政策インセンティブを推論し,結果の柔軟性を示す。
最終的に、高度に再ターゲティング可能な訓練手順は、人間の力を求める現実世界のエージェントを訓練する可能性がある。
関連論文リスト
- Non-maximizing policies that fulfill multi-criterion aspirations in expectation [0.7874708385247353]
動的プログラミングおよび強化学習において、エージェントの逐次決定のためのポリシーは通常、目標をスカラー報酬関数として表現することによって決定される。
複数の異なる評価指標を持つ有限非巡回決定マルコフプロセスを考えるが、これは必ずしもユーザが最大化したい量を表すものではない。
提案アルゴリズムは,本課題を簡易性を用いて実現可能集合を近似し,その実現可能性を維持しつつ,前もって願望を伝達することによって達成することを保証する。
論文 参考訳(メタデータ) (2024-08-08T11:41:04Z) - Power-seeking can be probable and predictive for trained agents [3.616948583169635]
パワーセーキング行動は、先進的なAIによるリスクの主な原因である。
トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。
電力需要のインセンティブは予測可能であり,予測可能であることを示す。
論文 参考訳(メタデータ) (2023-04-13T13:29:01Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal
Agent [21.548271801592907]
強化学習者は、高い報酬につながる行動を選択することを学ぶエージェントである。
エージェントが任意の環境において「漸近的に最適」であると保証された場合、真の環境に関する仮定に従うと、エージェントは「破壊される」か「不活性化される」かのいずれかとなる。
我々は,メンティーというエージェントを,無謀な探索ではなく安全な探索をし,メンティーのパフォーマンスに近づくという,控えめな保証をもって提示する。
論文 参考訳(メタデータ) (2020-06-05T10:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。