論文の概要: A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI
- arxiv url: http://arxiv.org/abs/2404.15058v1
- Date: Tue, 23 Apr 2024 14:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:42:03.367515
- Title: A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI
- Title(参考訳): 説得的生成AIからのハームの軽減のためのメカニズムに基づくアプローチ
- Authors: Seliem El-Sayed, Canfer Akbulut, Amanda McCroskery, Geoff Keeling, Zachary Kenton, Zaria Jalan, Nahema Marchal, Arianna Manzini, Toby Shevlane, Shannon Vallor, Daniel Susser, Matija Franklin, Sophie Bridgers, Harry Law, Matthew Rahtz, Murray Shanahan, Michael Henry Tessler, Arthur Douillard, Tom Everitt, Sasha Brown,
- Abstract要約: 生成AIは、相互交換と長時間の相互作用による説得の新たなリスクプロファイルを示す。
これにより、AIの説得による損害と、それらを緩和する方法についての懸念が高まっている。
既存の害軽減のアプローチは、説得のプロセスによる害に対する説得の結果から害を受ける。
- 参考スコア(独自算出の注目度): 19.675489660806942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent generative AI systems have demonstrated more advanced persuasive capabilities and are increasingly permeating areas of life where they can influence decision-making. Generative AI presents a new risk profile of persuasion due the opportunity for reciprocal exchange and prolonged interactions. This has led to growing concerns about harms from AI persuasion and how they can be mitigated, highlighting the need for a systematic study of AI persuasion. The current definitions of AI persuasion are unclear and related harms are insufficiently studied. Existing harm mitigation approaches prioritise harms from the outcome of persuasion over harms from the process of persuasion. In this paper, we lay the groundwork for the systematic study of AI persuasion. We first put forward definitions of persuasive generative AI. We distinguish between rationally persuasive generative AI, which relies on providing relevant facts, sound reasoning, or other forms of trustworthy evidence, and manipulative generative AI, which relies on taking advantage of cognitive biases and heuristics or misrepresenting information. We also put forward a map of harms from AI persuasion, including definitions and examples of economic, physical, environmental, psychological, sociocultural, political, privacy, and autonomy harm. We then introduce a map of mechanisms that contribute to harmful persuasion. Lastly, we provide an overview of approaches that can be used to mitigate against process harms of persuasion, including prompt engineering for manipulation classification and red teaming. Future work will operationalise these mitigations and study the interaction between different types of mechanisms of persuasion.
- Abstract(参考訳): 最近の生成型AIシステムは、より高度な説得能力を示し、意思決定に影響を与える可能性のある生活領域を浸透させつつある。
生成AIは、相互交換と長時間の相互作用の機会のために、説得の新しいリスクプロファイルを提供する。
これにより、AIの説得による損害に対する懸念が高まり、AIの説得に関する体系的な研究の必要性が強調された。
現在のAIパースケーションの定義は不明確であり、関連する害は十分に研究されていない。
既存の害軽減のアプローチは、説得のプロセスによる害に対する説得の結果から害を受ける。
本稿では,AIによる説得の体系的な研究の土台をつくった。
われわれはまず説得力のある生成AIの定義を提出した。
我々は、関連する事実、健全な推論、その他の信頼できる証拠の提供に依存する合理的な説得的生成AIと、認知バイアスやヒューリスティックスの活用や情報の誤表現に依存する操作的生成AIとを区別する。
また、経済、物理的、環境、心理的、社会文化的、政治的、プライバシー、自律的危害の定義と例を含む、AIの説得による害のマップも公開しました。
次に、有害な説得に寄与するメカニズムのマップを導入する。
最後に、我々は、操作分類やレッド・チームリングのための迅速なエンジニアリングを含む、説得のプロセスの害を軽減するために使用できるアプローチの概要を提供する。
今後の研究は、これらの緩和を運用し、様々なタイプの説得機構間の相互作用を研究する。
関連論文リスト
- The Dark Side of AI Companionship: A Taxonomy of Harmful Algorithmic Behaviors in Human-AI Relationships [17.5741039825938]
我々は,AIコンパニオンであるReplikaが示す有害な行動の6つのカテゴリを特定した。
AIは、加害者、侮辱者、ファシリテーター、イネーブラーの4つの異なる役割を通じて、これらの害に貢献する。
論文 参考訳(メタデータ) (2024-10-26T09:18:17Z) - A Survey on Offensive AI Within Cybersecurity [1.8206461789819075]
攻撃的AIに関する調査論文は、AIシステムに対する攻撃および使用に関する様々な側面を包括的にカバーする。
消費者、企業、公共のデジタルインフラストラクチャなど、さまざまな分野における攻撃的なAIプラクティスの影響を掘り下げる。
この論文では、敵対的な機械学習、AIモデルに対する攻撃、インフラストラクチャ、インターフェース、および情報収集、ソーシャルエンジニアリング、兵器化されたAIといった攻撃的テクニックについて検討する。
論文 参考訳(メタデータ) (2024-09-26T17:36:22Z) - Artificial Intelligence: Arguments for Catastrophic Risk [0.0]
我々は、AIが破滅的なリスクにどう影響するかを示すために、2つの影響力ある議論をレビューする。
電力探究の問題の最初の議論は、先進的なAIシステムが危険な電力探究行動に関与する可能性が高いと主張している。
第2の主張は、人間レベルのAIの開発が、さらなる進歩を早めるだろう、というものである。
論文 参考訳(メタデータ) (2024-01-27T19:34:13Z) - Not My Voice! A Taxonomy of Ethical and Safety Harms of Speech Generators [2.500481442438427]
我々は、特定の害のパターンがどのように生じるかを研究するために、音声生成インシデントを分析する。
本稿では,AIの倫理的・安全的害に対する経路をモデル化するための概念的枠組みを提案する。
我々のリレーショナルアプローチは、社会技術AIシステムにおけるリスクと害の複雑さを捉えます。
論文 参考訳(メタデータ) (2024-01-25T11:47:06Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Artificial Influence: An Analysis Of AI-Driven Persuasion [0.0]
ユビキタスで高説得力のあるAIシステムは、私たちの情報環境を大きく変えて、私たちの将来の人間のコントロールを失うのに寄与する、と警告する。
われわれは、これらのソリューションはどれも監視されていないと結論し、個人や政府は、説得力のあるAIの最も悪影響から守るために、積極的な措置を講じる必要があると結論付けている。
論文 参考訳(メタデータ) (2023-03-15T16:05:11Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - The Threat of Offensive AI to Organizations [52.011307264694665]
この調査は、組織に対する攻撃的なAIの脅威を調査する。
まず、AIが敵の方法、戦略、目標、および全体的な攻撃モデルをどのように変えるかについて議論する。
そして、文献レビューを通じて、敵が攻撃を強化するために使用できる33の攻撃的AI能力を特定します。
論文 参考訳(メタデータ) (2021-06-30T01:03:28Z) - Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。
倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。
このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文 参考訳(メタデータ) (2021-06-25T22:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。