論文の概要: On Avoiding Power-Seeking by Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2206.11831v1
- Date: Thu, 23 Jun 2022 16:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 14:39:47.398794
- Title: On Avoiding Power-Seeking by Artificial Intelligence
- Title(参考訳): 人工知能による電力探索の回避について
- Authors: Alexander Matt Turner
- Abstract要約: 私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
- 参考スコア(独自算出の注目度): 93.9264437334683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We do not know how to align a very intelligent AI agent's behavior with human
interests. I investigate whether -- absent a full solution to this AI alignment
problem -- we can build smart AI agents which have limited impact on the world,
and which do not autonomously seek power. In this thesis, I introduce the
attainable utility preservation (AUP) method. I demonstrate that AUP produces
conservative, option-preserving behavior within toy gridworlds and within
complex environments based off of Conway's Game of Life. I formalize the
problem of side effect avoidance, which provides a way to quantify the side
effects an agent had on the world. I also give a formal definition of
power-seeking in the context of AI agents and show that optimal policies tend
to seek power. In particular, most reward functions have optimal policies which
avoid deactivation. This is a problem if we want to deactivate or correct an
intelligent agent after we have deployed it. My theorems suggest that since
most agent goals conflict with ours, the agent would very probably resist
correction. I extend these theorems to show that power-seeking incentives occur
not just for optimal decision-makers, but under a wide range of decision-making
procedures.
- Abstract(参考訳): 私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
このaiアライメント問題に対する完全な解決策がなくても、世界への影響が限られ、自律的に権力を求めることができないスマートaiエージェントを構築できるかどうかを調査します。
本論文では,実現可能な実用性維持法(AUP)を紹介する。
私は、AUPが、おもちゃのグリッドワールドやコンウェイのゲーム・オブ・ライフに基づく複雑な環境の中で、保守的でオプションを保存する行動を生成することを実証する。
エージェントが世界に与えた副作用を定量化する手段を提供する副作用回避問題の形式化を行う。
また、AIエージェントの文脈でパワーサーキングの正式な定義を与え、最適なポリシーが力を求める傾向があることを示す。
特に、ほとんどの報酬関数は不活性化を避ける最適なポリシーを持つ。
デプロイ後にインテリジェントエージェントを非活性化または修正したい場合、これは問題になります。
私の定理では、ほとんどのエージェントの目標が私たちの目標と矛盾するので、エージェントはおそらく修正に抵抗するでしょう。
これらの定理を拡張して、電力を求めるインセンティブは最適な意思決定者だけでなく、幅広い意思決定手順の下で起こることを示す。
関連論文リスト
- Raising the Stakes: Performance Pressure Improves AI-Assisted Decision Making [57.53469908423318]
日常の人が共通のAI支援タスクを完了すると、パフォーマンスプレッシャーがAIアドバイスへの依存に与える影響を示す。
利害関係が高い場合には、AIの説明の有無にかかわらず、利害関係が低い場合よりもAIアドバイスを適切に使用することが分かりました。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - Aligning AI Agents via Information-Directed Sampling [20.617552198581024]
バンドアライメントの問題は、環境と人間と相互作用することで、長期にわたる期待される報酬を最大化することである。
本研究では,これらのトレードオフを,Beta-Bernoulli banditに類似した玩具帯状アライメント問題において理論的,実証的に検討する。
我々は、現在の慣行を反映した単純な探索アルゴリズムと、トンプソンサンプリングのような有望なアルゴリズムの両方が、この問題に対する許容できる解決策を提供していないことを実証する。
論文 参考訳(メタデータ) (2024-10-18T18:23:41Z) - FlyAI -- The Next Level of Artificial Intelligence is Unpredictable! Injecting Responses of a Living Fly into Decision Making [6.694375709641935]
我々は,リビングフライからの応答を取り入れることで,意思決定の不予測性を向上する新タイプのバイオニックAIを導入する。
私たちのアプローチでは、ハエのさまざまな反応を使って、GobangのゲームでAIエージェントをチューニングします。
論文 参考訳(メタデータ) (2024-09-30T17:19:59Z) - Who Wrote this? How Smart Replies Impact Language and Agency in the
Workplace [0.0]
この研究は、スマートリプライ(SR)を使用して、AIが開発者の一部に何の意図も持たずに人間にどのように影響するかを示す。
本稿では,AIが人体に与える影響を研究するための有効なアプローチとして,代理店理論の喪失を提案する。
論文 参考訳(メタデータ) (2022-10-07T20:06:25Z) - Parametrically Retargetable Decision-Makers Tend To Seek Power [91.93765604105025]
完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。
我々は、最適からランダムまで、AI意思決定のモデルから、学習と環境との対話によって得られる選択まで、さまざまなモデルを検討します。
定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。
論文 参考訳(メタデータ) (2022-06-27T17:39:23Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Intelligence and Unambitiousness Using Algorithmic Information Theory [22.710015392064083]
エージェントは、少なくとも人間のメンターと同様に報酬を得られることを学習し、そのメンターを低い確率で頼りにすることを示します。
我々は、最終的にエージェントの世界モデルは以下の事実を組み込んでいることを示している: 「外界」に介入することは報酬獲得に何の影響も与えない。
論文 参考訳(メタデータ) (2021-05-13T13:10:28Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。