論文の概要: Absolutist AI
- arxiv url: http://arxiv.org/abs/2307.10315v1
- Date: Wed, 19 Jul 2023 03:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 16:20:47.305255
- Title: Absolutist AI
- Title(参考訳): 絶対主義ai
- Authors: Mitchell Barrington
- Abstract要約: 絶対的な制約でAIシステムを訓練することは、多くのAI安全問題にかなりの進歩をもたらす可能性がある。
ミスアライメントの最悪の結果を避けるためのガードレールを提供する。
非常に価値のある結果を得るために、AIが大惨事を引き起こすのを防げるかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper argues that training AI systems with absolute constraints -- which
forbid certain acts irrespective of the amount of value they might produce --
may make considerable progress on many AI safety problems in principle. First,
it provides a guardrail for avoiding the very worst outcomes of misalignment.
Second, it could prevent AIs from causing catastrophes for the sake of very
valuable consequences, such as replacing humans with a much larger number of
beings living at a higher welfare level. Third, it makes systems more
corrigible, allowing creators to make corrective interventions in them, such as
altering their objective functions or shutting them down. And fourth, it helps
systems explore their environment more safely by prohibiting them from
exploring especially dangerous acts. I offer a decision-theoretic formalization
of an absolute constraints, improving on existing models in the literature, and
use this model to prove some results about the training and behavior of
absolutist AIs. I conclude by showing that, although absolutist AIs will not
maximize expected value, they will not be susceptible to behave irrationally,
and they will not (contra coherence arguments) face environmental pressure to
become expected-value maximizers.
- Abstract(参考訳): この論文は、絶対的な制約のあるAIシステムのトレーニング -- それらが生み出す可能性のある価値の量に関係なく、特定の行為を禁じる -- は、原則として多くのAI安全問題をかなり前進させるかもしれない、と論じる。
まず、ミスアライメントの最悪の結果を避けるためのガードレールを提供する。
第二に、AIは人間をより高い福祉水準の生物に置き換えるなど、非常に価値のある結果のために大惨事を引き起こすのを防ぐことができる。
第三に、システムはより厳格になり、クリエイターは、目的の機能を変更したり、シャットダウンしたりといった、修正的な介入を行うことができる。
そして第4に、特に危険な行為を探索することを禁じることで、システムがより安全に環境を探索するのに役立つ。
絶対制約を決定論的に定式化し、文献の既存モデルを改善し、このモデルを用いて絶対制約の訓練と行動に関するいくつかの結果を証明する。
絶対主義者のAIは期待値を最大化しないが、不合理に振る舞うことは許されず、(コヒーレンスな議論とは対照的に)期待値の最大値になる環境圧力に直面することはない。
関連論文リスト
- Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Hype, Sustainability, and the Price of the Bigger-is-Better Paradigm in AI [67.58673784790375]
AIパラダイムは、科学的に脆弱なだけでなく、望ましくない結果をもたらすものだ、と私たちは主張する。
第一に、計算要求がモデルの性能よりも早く増加し、不合理な経済要求と不均等な環境フットプリントにつながるため、持続可能ではない。
第二に、健康、教育、気候などの重要な応用は別として、他人を犠牲にして特定の問題に焦点をあてることである。
論文 参考訳(メタデータ) (2024-09-21T14:43:54Z) - AI Consciousness and Public Perceptions: Four Futures [0.0]
我々は、未来の人間社会が高度なAIシステムを意識していると広く信じているかどうかを調査する。
私たちは、AIの苦悩、人間の非エンパワーメント、地政学的な不安定、そして人間の絶望の4つの大きなリスクを特定します。
この論文は、意識的なAIを意図的に創出することを目的とした研究を避けるための主要な推奨事項で締めくくっている。
論文 参考訳(メタデータ) (2024-08-08T22:01:57Z) - AI Safety: A Climb To Armageddon? [0.0]
本稿では,最適化,緩和,ホロリズムの3つの対応戦略について検討する。
この議論の驚くべき堅牢性は、AIの安全性に関するコア前提の再検討を迫られる。
論文 参考訳(メタデータ) (2024-05-30T08:41:54Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Examining the Differential Risk from High-level Artificial Intelligence
and the Question of Control [0.0]
将来のAI能力の範囲と範囲は、依然として重要な不確実性である。
AIの不透明な意思決定プロセスの統合と監視の程度には懸念がある。
本研究では、AIリスクをモデル化し、代替先分析のためのテンプレートを提供する階層的な複雑なシステムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-06T15:46:02Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。
AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。
AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文 参考訳(メタデータ) (2020-07-18T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。