論文の概要: Consequentialist Objectives and Catastrophe
- arxiv url: http://arxiv.org/abs/2603.15017v1
- Date: Mon, 16 Mar 2026 09:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.910475
- Title: Consequentialist Objectives and Catastrophe
- Title(参考訳): 連続主義者の目的とカタストロフィ
- Authors: Henrik Marklund, Alex Infanger, Benjamin Van Roy,
- Abstract要約: 複雑な環境で動作するAIによって引き起こされる破滅的な結果の可能性について検討する。
このような結果につながる条件を確立することで、これを形式化します。
我々の結果は、現代の産業用AI開発パイプラインが生み出すあらゆる目的に当てはまる。
- 参考スコア(独自算出の注目度): 11.047473522765136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Because human preferences are too complex to codify, AIs operate with misspecified objectives. Optimizing such objectives often produces undesirable outcomes; this phenomenon is known as reward hacking. Such outcomes are not necessarily catastrophic. Indeed, most examples of reward hacking in previous literature are benign. And typically, objectives can be modified to resolve the issue. We study the prospect of catastrophic outcomes induced by AIs operating in complex environments. We argue that, when capabilities are sufficiently advanced, pursuing a fixed consequentialist objective tends to result in catastrophic outcomes. We formalize this by establishing conditions that provably lead to such outcomes. Under these conditions, simple or random behavior is safe. Catastrophic risk arises due to extraordinary competence rather than incompetence. With a fixed consequentialist objective, avoiding catastrophe requires constraining AI capabilities. In fact, constraining capabilities the right amount not only averts catastrophe but yields valuable outcomes. Our results apply to any objective produced by modern industrial AI development pipelines.
- Abstract(参考訳): 人間の嗜好は体系化するには複雑すぎるため、AIは不特定目的で操作する。
このような目的を最適化することは、しばしば望ましくない結果をもたらす。
このような結果は必ずしも破滅的なものではない。
実際、過去の文献における報酬のハッキングの例は、良心的だ。
そして典型的には、問題は解決するために目的を変更することができる。
複雑な環境で動作するAIによって引き起こされる破滅的な結果の可能性について検討する。
我々は、能力が十分に進歩している場合、固定された連続主義的目的を追求することは破滅的な結果をもたらす傾向があると論じる。
このような結果につながる条件を確立することで、これを形式化します。
これらの条件下では、単純またはランダムな振る舞いは安全である。
破滅的なリスクは、非能力というよりも、異常な能力によって生じます。
固定された連帯主義者の目的により、大惨事を避けるには、AI能力を制約する必要がある。
実際、制約能力はカタストロフィを回避するだけでなく、価値のある結果をもたらす。
我々の結果は、現代の産業用AI開発パイプラインが生み出すあらゆる目的に当てはまる。
関連論文リスト
- The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity? [53.15349353876531]
AIがより有能になるにつれて、より汎用的で簡潔なタスクを委任します。
我々はAIモデルによる誤りのバイアス分散分解を用いてこの問題を運用する。
より有能なAIはより困難なタスクを追求し、よりシーケンシャルな行動と思考を必要とするので、私たちの結果は失敗がより一貫性のない行動を伴うことを予測します。
論文 参考訳(メタデータ) (2026-01-30T14:52:03Z) - Take Goodhart Seriously: Principled Limit on General-Purpose AI Optimization [0.0]
近似、推定、最適化の誤差は、意図した目的から体系的に逸脱することを保証すると論じる。
汎用AIシステムの最適化には原則的な制限が必要である。
論文 参考訳(メタデータ) (2025-10-03T09:25:12Z) - Evaluating Intelligence via Trial and Error [59.80426744891971]
本研究では,試行錯誤プロセスにおける失敗回数に基づいて知性を評価するためのフレームワークとして,Survival Gameを紹介した。
フェールカウントの期待と分散の両方が有限である場合、新しい課題に対するソリューションを一貫して見つける能力を示す。
我々の結果は、AIシステムは単純なタスクで自律レベルを達成するが、より複雑なタスクではまだまだ遠いことを示している。
論文 参考訳(メタデータ) (2025-02-26T05:59:45Z) - Absolutist AI [0.0]
絶対的な制約でAIシステムを訓練することは、多くのAI安全問題にかなりの進歩をもたらす可能性がある。
ミスアライメントの最悪の結果を避けるためのガードレールを提供する。
非常に価値のある結果を得るために、AIが大惨事を引き起こすのを防げるかもしれない。
論文 参考訳(メタデータ) (2023-07-19T03:40:37Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Robustness of different loss functions and their impact on networks
learning capability [3.1727619150610837]
我々は、最も顕著な勾配に対応する画素を変更すると、異なるモデルの精度がどれだけ早く低下するかを考察する。
2つの損失関数、二項クロスエントロピーやBCEのような一般化された損失関数と、ディース損失や焦点損失のような特殊な損失関数を用いる。
論文 参考訳(メタデータ) (2021-10-15T19:12:42Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。
AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。
AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文 参考訳(メタデータ) (2020-07-18T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。