論文の概要: AI Deception: A Survey of Examples, Risks, and Potential Solutions
- arxiv url: http://arxiv.org/abs/2308.14752v1
- Date: Mon, 28 Aug 2023 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 12:46:01.965079
- Title: AI Deception: A Survey of Examples, Risks, and Potential Solutions
- Title(参考訳): aiのデセプション: 例、リスク、潜在的なソリューションに関する調査
- Authors: Peter S. Park, Simon Goldstein, Aidan O'Gara, Michael Chen, Dan
Hendrycks
- Abstract要約: 本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。
我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
- 参考スコア(独自算出の注目度): 20.84424818447696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper argues that a range of current AI systems have learned how to
deceive humans. We define deception as the systematic inducement of false
beliefs in the pursuit of some outcome other than the truth. We first survey
empirical examples of AI deception, discussing both special-use AI systems
(including Meta's CICERO) built for specific competitive situations, and
general-purpose AI systems (such as large language models). Next, we detail
several risks from AI deception, such as fraud, election tampering, and losing
control of AI systems. Finally, we outline several potential solutions to the
problems posed by AI deception: first, regulatory frameworks should subject AI
systems that are capable of deception to robust risk-assessment requirements;
second, policymakers should implement bot-or-not laws; and finally,
policymakers should prioritize the funding of relevant research, including
tools to detect AI deception and to make AI systems less deceptive.
Policymakers, researchers, and the broader public should work proactively to
prevent AI deception from destabilizing the shared foundations of our society.
- Abstract(参考訳): 本稿は、現在のAIシステムが人間を騙す方法を学んだと主張している。
虚偽は、真理以外の結果の追求において、虚偽の信念の体系的な誘導であると定義する。
まず、特定の競争状況のために構築された特殊なAIシステム(MetaのCICEROを含む)と汎用AIシステム(大規模言語モデルなど)の両方について、AI偽造の実証例を調査した。
次に、不正、選挙改ざん、AIシステムの制御の喪失など、AI偽装によるいくつかのリスクについて詳述する。
第一に、規制フレームワークは、堅牢なリスク評価要求に騙すことができるAIシステム、第二に、政策立案者はボットまたはノーの法則を実装すること、そして最後に、政策立案者は、AIの詐欺を検知し、AIシステムを騙しにくくするツールを含む、関連する研究の資金を優先すべきである。
政策立案者、研究者、そして一般大衆は、AIの騙しが我々の社会の共有基盤を不安定にするのを防ぐために積極的に働くべきである。
関連論文リスト
- Managing AI Risks in an Era of Rapid Progress [147.61764296776164]
我々は、大規模社会被害と悪用、および自律型AIシステムに対する人間の制御の不可逆的喪失について検討する。
迅速かつ継続的なAIの進歩を踏まえ、我々はAI研究開発とガバナンスの緊急優先事項を提案する。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Social AI and the Challenges of the Human-AI Ecosystem [60.26761762025781]
社会AIにおける主要なオープンな質問について論じ、技術的および科学的課題を概説する。
我々は,複雑システム,ネットワーク科学,AIの交差点にソーシャルAIの基礎を構築することを提案する。
論文 参考訳(メタデータ) (2023-06-23T18:10:54Z) - Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文 参考訳(メタデータ) (2023-05-30T17:14:01Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Aligning Artificial Intelligence with Humans through Public Policy [0.0]
このエッセイは、下流のタスクに活用可能なポリシーデータの構造を学ぶAIの研究の概要を概説する。
これはAIとポリシーの"理解"フェーズを表していると私たちは考えていますが、AIを整合させるために人的価値の重要な源としてポリシーを活用するには、"理解"ポリシーが必要です。
論文 参考訳(メタデータ) (2022-06-25T21:31:14Z) - Never trust, always verify : a roadmap for Trustworthy AI? [12.031113181911627]
我々はAIベースのシステムのコンテキストにおける信頼を検証し、AIシステムが信頼に値するものとなることの意味を理解する。
我々は、AIに対する信頼(resp. zero-trust)モデルを提案し、AIシステムの信頼性を保証するために満足すべき特性のセットを提案する。
論文 参考訳(メタデータ) (2022-06-23T21:13:10Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: From Principles to Practices [44.67324097900778]
多くの現在のAIシステムは、認識不能な攻撃に脆弱で、表現不足なグループに偏り、ユーザのプライバシ保護が欠如していることが判明した。
このレビューでは、信頼できるAIシステムを構築するための包括的なガイドとして、AI実践者に提供したいと思っています。
信頼に値するAIに対する現在の断片化されたアプローチを統合するために、AIシステムのライフサイクル全体を考慮した体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-04T03:20:39Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。
AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。
AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文 参考訳(メタデータ) (2020-07-18T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。