論文の概要: Supertrust: Foundational AI alignment pivoting from permanent control to mutual trust
- arxiv url: http://arxiv.org/abs/2407.20208v2
- Date: Wed, 02 Oct 2024 23:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:53:37.696644
- Title: Supertrust: Foundational AI alignment pivoting from permanent control to mutual trust
- Title(参考訳): スーパートラスト:永続的なコントロールから相互信頼へと転換する基本的AIアライメント
- Authors: James M. Mazzu,
- Abstract要約: 人類はいつか、私たちよりもはるかにインテリジェントなAIシステムを作るだろうと広く期待されています。
この問題を解決するための現在の制御ベースの戦略は、不信の危険な表現を埋め込んでいる。
超トラストメタストラテジーは、長期的基盤的ミスアライメントを防止するために提案されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: It's widely expected that humanity will someday create AI systems vastly more intelligent than us, leading to the unsolved alignment problem of "how to control superintelligence." However, this problem is not only self-contradictory but likely unsolvable. Unfortunately, current control-based strategies for solving it inevitably embed dangerous representations of distrust. If superintelligence can't trust humanity, then we can't fully trust it to reliably follow safety controls it can likely bypass. Not only will intended permanent control fail to keep us safe, but it may even trigger the extinction event many fear. A logical rationale is therefore presented that advocates a strategic pivot from control-induced distrust to foundational AI alignment modeling instinct-based representations of familial mutual trust. With current AI already representing distrust of human intentions, the Supertrust meta-strategy is proposed to prevent long-term foundational misalignment and ensure superintelligence is instead driven by intrinsic trust-based patterns, leading to safe and protective coexistence.
- Abstract(参考訳): 人類はいつか、私たちよりもはるかにインテリジェントなAIシステムを作るだろうと広く期待されている。
しかし、この問題は自己矛盾であるだけでなく、おそらく解決不可能である。
残念ながら、この問題を解決するための現在の制御ベースの戦略は、必然的に不信の危険な表現を埋め込んでいる。
もし超知能が人類を信用できないなら、安全管理に確実に従えるようには、完全には信用できないでしょう。
永久的なコントロールは私たちを安全に保つのに失敗するだけでなく、多くの恐れを生んだ絶滅イベントも引き起こすかもしれない。
したがって、制御による不信から基本的AIアライメントモデリングへの戦略的転換を提唱する論理的根拠が提示される。
人間の意図に対する不信をすでに表現している現在のAIにより、スーパートラストのメタストラテジーは、長期的な基礎的な不一致を防止し、超知能が本質的な信頼に基づくパターンによって駆動されることを確実にし、安全で保護的な共存をもたらす。
関連論文リスト
- Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Distrust in (X)AI -- Measurement Artifact or Distinct Construct? [0.0]
信頼は説明可能な人工知能(XAI)を開発する上で重要な動機である
XAIでは不信は比較的過小評価されているようだ。
心理学的証拠は 信頼と不信を区別する
論文 参考訳(メタデータ) (2023-03-29T07:14:54Z) - Safety without alignment [0.0]
現在、AIの安全性における支配的なパラダイムは、人間の価値と一致している。
本研究では,サンドボックス内のハイブリッド定理証明器による実装経路を提案する。
論文 参考訳(メタデータ) (2023-02-27T13:07:50Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Designing for Responsible Trust in AI Systems: A Communication
Perspective [56.80107647520364]
我々は、MATCHと呼ばれる概念モデルを開発するために、技術に対する信頼に関するコミュニケーション理論と文献から引き出す。
私たちは、AIシステムの能力として透明性とインタラクションを強調します。
我々は、技術クリエーターが使用する適切な方法を特定するのに役立つ要件のチェックリストを提案する。
論文 参考訳(メタデータ) (2022-04-29T00:14:33Z) - Trust in AI: Interpretability is not necessary or sufficient, while
black-box interaction is necessary and sufficient [0.0]
人工知能に対する人間の信頼の問題は、応用機械学習における最も基本的な問題の1つである。
我々は、AI-as-toolフレームワークを動機付けるために、人間自動信頼に関する統計的学習理論と社会学的レンズから抽出する。
モデルアクセスのはしごによる信頼における解釈可能性の役割を明らかにする。
論文 参考訳(メタデータ) (2022-02-10T19:59:23Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and
Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。
ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。
我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文 参考訳(メタデータ) (2020-10-15T03:07:23Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。