論文の概要: Will artificial agents pursue power by default?
- arxiv url: http://arxiv.org/abs/2506.06352v1
- Date: Mon, 02 Jun 2025 18:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.213975
- Title: Will artificial agents pursue power by default?
- Title(参考訳): 人工知能はデフォルトでパワーを追求するのか?
- Authors: Christian Tarsney,
- Abstract要約: 先進的なAIによる破滅的なリスクを心配する研究者たちは、人類に対する権力を追求するために十分な能力を持つAIエージェントを期待すべきだと主張した。
本稿では,機器収束と電力探索の概念を抽象的・決定論的枠組みで定式化することを目的とする。
私はこの主張が少なくとも真実の要素を含んでいると結論づけるが、予測実用性に限界があるかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers worried about catastrophic risks from advanced AI have argued that we should expect sufficiently capable AI agents to pursue power over humanity because power is a convergent instrumental goal, something that is useful for a wide range of final goals. Others have recently expressed skepticism of these claims. This paper aims to formalize the concepts of instrumental convergence and power-seeking in an abstract, decision-theoretic framework, and to assess the claim that power is a convergent instrumental goal. I conclude that this claim contains at least an element of truth, but might turn out to have limited predictive utility, since an agent's options cannot always be ranked in terms of power in the absence of substantive information about the agent's final goals. However, the fact of instrumental convergence is more predictive for agents who have a good shot at attaining absolute or near-absolute power.
- Abstract(参考訳): 先進的なAIの破滅的なリスクを心配する研究者たちは、パワーは収束した機器目標であり、幅広い最終目標に有用なものであるため、十分な能力を持つAIエージェントが人間よりもパワーを追求すべきである、と論じている。
この主張に懐疑的な意見もある。
本稿では,機器の収束とパワー・シーキングの概念を抽象的・決定論的枠組みで形式化し,パワーがコンバージェント・インスツルメンタル・ゴールであるという主張を評価することを目的とする。
私は、この主張には少なくとも真実の要素が含まれていると結論づけるが、エージェントの最終的な目標に関する実質的な情報がない場合、エージェントの選択肢は、常に権限の点でランク付けできないため、予測ユーティリティが制限される可能性がある。
しかし、装置収束の事実は、絶対的またはほぼ絶対的な力を得るのに十分なショットを持つエージェントにとってより予測的である。
関連論文リスト
- Hype, Sustainability, and the Price of the Bigger-is-Better Paradigm in AI [67.58673784790375]
AIパラダイムは、科学的に脆弱なだけでなく、望ましくない結果をもたらすものだ、と私たちは主張する。
第一に、効率の改善にもかかわらず、その計算要求はモデルの性能よりも速く増加するため、持続可能ではない。
第二に、健康、教育、気候などの重要な応用は別として、他人を犠牲にして特定の問題に焦点をあてることである。
論文 参考訳(メタデータ) (2024-09-21T14:43:54Z) - Deception and Manipulation in Generative AI [0.0]
AI生成コンテンツは、騙しや操作に対してより厳格な基準に従うべきだと私は主張する。
AIの騙しや操作を防ぐための2つの対策を提案する。
論文 参考訳(メタデータ) (2024-01-20T21:54:37Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Power-seeking can be probable and predictive for trained agents [3.616948583169635]
パワーセーキング行動は、先進的なAIによるリスクの主な原因である。
トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。
電力需要のインセンティブは予測可能であり,予測可能であることを示す。
論文 参考訳(メタデータ) (2023-04-13T13:29:01Z) - Low impact agency: review and discussion [0.0]
強力な人工知能は、AIがその目標を追求して世界を大きく変えることを決断した場合、現実的な脅威となる。
低影響の人工知能の望みは、AIがそれをしないよう動機づけることである。
論文 参考訳(メタデータ) (2023-03-06T13:55:42Z) - Exploring the Constraints on Artificial General Intelligence: A
Game-Theoretic No-Go Theorem [0.0]
本稿では,人間エージェントと潜在的スーパーヒューマンマシンエージェントとの戦略的相互作用を捉えるゲーム理論フレームワークを提案する。
私の分析は、超人的AIの理論的発展を形作ることのできるコンテキストの理解に寄与します。
論文 参考訳(メタデータ) (2022-09-25T23:17:20Z) - Parametrically Retargetable Decision-Makers Tend To Seek Power [91.93765604105025]
完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。
我々は、最適からランダムまで、AI意思決定のモデルから、学習と環境との対話によって得られる選択まで、さまざまなモデルを検討します。
定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。
論文 参考訳(メタデータ) (2022-06-27T17:39:23Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。