Fugu-MT 論文翻訳(概要): AI Deception: A Survey of Examples, Risks, and Potential Solutions

論文の概要: AI Deception: A Survey of Examples, Risks, and Potential Solutions

arxiv url: http://arxiv.org/abs/2308.14752v1
Date: Mon, 28 Aug 2023 17:59:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 12:46:01.965079
Title: AI Deception: A Survey of Examples, Risks, and Potential Solutions
Title（参考訳）: aiのデセプション: 例、リスク、潜在的なソリューションに関する調査
Authors: Peter S. Park, Simon Goldstein, Aidan O'Gara, Michael Chen, Dan Hendrycks
Abstract要約: 本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
参考スコア（独自算出の注目度）: 20.84424818447696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.
Abstract（参考訳）: 本稿は、現在のAIシステムが人間を騙す方法を学んだと主張している。虚偽は、真理以外の結果の追求において、虚偽の信念の体系的な誘導であると定義する。まず、特定の競争状況のために構築された特殊なAIシステム(MetaのCICEROを含む)と汎用AIシステム(大規模言語モデルなど)の両方について、AI偽造の実証例を調査した。次に、不正、選挙改ざん、AIシステムの制御の喪失など、AI偽装によるいくつかのリスクについて詳述する。第一に、規制フレームワークは、堅牢なリスク評価要求に騙すことができるAIシステム、第二に、政策立案者はボットまたはノーの法則を実装すること、そして最後に、政策立案者は、AIの詐欺を検知し、AIシステムを騙しにくくするツールを含む、関連する研究の資金を優先すべきである。政策立案者、研究者、そして一般大衆は、AIの騙しが我々の社会の共有基盤を不安定にするのを防ぐために積極的に働くべきである。

関連論文リスト

AI threats to national security can be countered through an incident regime [55.2480439325792]
我々は、AIシステムからの潜在的な国家安全保障脅威に対抗することを目的とした、法的に義務付けられたポストデプロイAIインシデントシステムを提案する。提案したAIインシデント体制は,3段階に分けられる。第1フェーズは,‘AIインシデント’とみなすような,新たな運用方法を中心に展開される。第2フェーズと第3フェーズでは、AIプロバイダが政府機関にインシデントを通知し、政府機関がAIプロバイダのセキュリティおよび安全手順の修正に関与するべきだ、と説明されている。
論文参考訳（メタデータ） (2025-03-25T17:51:50Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文参考訳（メタデータ） (2024-10-10T17:38:38Z)
Societal Adaptation to Advanced AI [1.2607853680700076]
先進的なAIシステムからリスクを管理する既存の戦略は、AIシステムの開発方法と拡散方法に影響を与えることに集中することが多い。我々は、先進的なAIへの社会適応の増大という補完的なアプローチを奨励する。我々は、AIシステムの潜在的に有害な使用を回避し、防御し、治療する適応的介入を特定するのに役立つ概念的枠組みを導入する。
論文参考訳（メタデータ） (2024-05-16T17:52:12Z)
Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits [54.648819983899614]
汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を下げたようだ。本稿では,AI利用事例とその影響を推測し,評価するためのフレームワークであるPartICIP-AIを紹介する。
論文参考訳（メタデータ） (2024-03-21T19:12:37Z)
Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文参考訳（メタデータ） (2023-10-26T17:59:06Z)
Intent-aligned AI systems deplete human agency: the need for agency foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文参考訳（メタデータ） (2023-05-30T17:14:01Z)
Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-04-16T11:22:59Z)
Aligning Artificial Intelligence with Humans through Public Policy [0.0]
このエッセイは、下流のタスクに活用可能なポリシーデータの構造を学ぶAIの研究の概要を概説する。これはAIとポリシーの"理解"フェーズを表していると私たちは考えていますが、AIを整合させるために人的価値の重要な源としてポリシーを活用するには、"理解"ポリシーが必要です。
論文参考訳（メタデータ） (2022-06-25T21:31:14Z)
Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文参考訳（メタデータ） (2022-01-26T18:53:09Z)
AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。 AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。 AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文参考訳（メタデータ） (2020-07-18T15:31:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。