論文の概要: AI Deception: A Survey of Examples, Risks, and Potential Solutions
- arxiv url: http://arxiv.org/abs/2308.14752v1
- Date: Mon, 28 Aug 2023 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 12:46:01.965079
- Title: AI Deception: A Survey of Examples, Risks, and Potential Solutions
- Title(参考訳): aiのデセプション: 例、リスク、潜在的なソリューションに関する調査
- Authors: Peter S. Park, Simon Goldstein, Aidan O'Gara, Michael Chen, Dan
Hendrycks
- Abstract要約: 本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。
我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
- 参考スコア(独自算出の注目度): 20.84424818447696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper argues that a range of current AI systems have learned how to
deceive humans. We define deception as the systematic inducement of false
beliefs in the pursuit of some outcome other than the truth. We first survey
empirical examples of AI deception, discussing both special-use AI systems
(including Meta's CICERO) built for specific competitive situations, and
general-purpose AI systems (such as large language models). Next, we detail
several risks from AI deception, such as fraud, election tampering, and losing
control of AI systems. Finally, we outline several potential solutions to the
problems posed by AI deception: first, regulatory frameworks should subject AI
systems that are capable of deception to robust risk-assessment requirements;
second, policymakers should implement bot-or-not laws; and finally,
policymakers should prioritize the funding of relevant research, including
tools to detect AI deception and to make AI systems less deceptive.
Policymakers, researchers, and the broader public should work proactively to
prevent AI deception from destabilizing the shared foundations of our society.
- Abstract(参考訳): 本稿は、現在のAIシステムが人間を騙す方法を学んだと主張している。
虚偽は、真理以外の結果の追求において、虚偽の信念の体系的な誘導であると定義する。
まず、特定の競争状況のために構築された特殊なAIシステム(MetaのCICEROを含む)と汎用AIシステム(大規模言語モデルなど)の両方について、AI偽造の実証例を調査した。
次に、不正、選挙改ざん、AIシステムの制御の喪失など、AI偽装によるいくつかのリスクについて詳述する。
第一に、規制フレームワークは、堅牢なリスク評価要求に騙すことができるAIシステム、第二に、政策立案者はボットまたはノーの法則を実装すること、そして最後に、政策立案者は、AIの詐欺を検知し、AIシステムを騙しにくくするツールを含む、関連する研究の資金を優先すべきである。
政策立案者、研究者、そして一般大衆は、AIの騙しが我々の社会の共有基盤を不安定にするのを防ぐために積極的に働くべきである。
関連論文リスト
- Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Societal Adaptation to Advanced AI [1.2607853680700076]
先進的なAIシステムからリスクを管理する既存の戦略は、AIシステムの開発方法と拡散方法に影響を与えることに集中することが多い。
我々は、先進的なAIへの社会適応の増大という補完的なアプローチを奨励する。
我々は、AIシステムの潜在的に有害な使用を回避し、防御し、治療する適応的介入を特定するのに役立つ概念的枠組みを導入する。
論文 参考訳(メタデータ) (2024-05-16T17:52:12Z) - Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits [54.648819983899614]
汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を下げたようだ。
本稿では,AI利用事例とその影響を推測し,評価するためのフレームワークであるPartICIP-AIを紹介する。
論文 参考訳(メタデータ) (2024-03-21T19:12:37Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文 参考訳(メタデータ) (2023-05-30T17:14:01Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Aligning Artificial Intelligence with Humans through Public Policy [0.0]
このエッセイは、下流のタスクに活用可能なポリシーデータの構造を学ぶAIの研究の概要を概説する。
これはAIとポリシーの"理解"フェーズを表していると私たちは考えていますが、AIを整合させるために人的価値の重要な源としてポリシーを活用するには、"理解"ポリシーが必要です。
論文 参考訳(メタデータ) (2022-06-25T21:31:14Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。
AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。
AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文 参考訳(メタデータ) (2020-07-18T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。