論文の概要: Deception and Manipulation in Generative AI
- arxiv url: http://arxiv.org/abs/2401.11335v1
- Date: Sat, 20 Jan 2024 21:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:53:28.144524
- Title: Deception and Manipulation in Generative AI
- Title(参考訳): 生成AIにおける認識と操作
- Authors: Christian Tarsney
- Abstract要約: AI生成コンテンツは、騙しや操作に対してより厳格な基準に従うべきだと私は主張する。
AIの騙しや操作を防ぐための2つの対策を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models now possess human-level linguistic abilities in many
contexts. This raises the concern that they can be used to deceive and
manipulate on unprecedented scales, for instance spreading political
misinformation on social media. In future, agentic AI systems might also
deceive and manipulate humans for their own ends. In this paper, first, I argue
that AI-generated content should be subject to stricter standards against
deception and manipulation than we ordinarily apply to humans. Second, I offer
new characterizations of AI deception and manipulation meant to support such
standards, according to which a statement is deceptive (manipulative) if it
leads human addressees away from the beliefs (choices) they would endorse under
``semi-ideal'' conditions. Third, I propose two measures to guard against AI
deception and manipulation, inspired by this characterization: "extreme
transparency" requirements for AI-generated content and defensive systems that,
among other things, annotate AI-generated statements with contextualizing
information. Finally, I consider to what extent these measures can protect
against deceptive behavior in future, agentic AIs, and argue that non-agentic
defensive systems can provide an important layer of defense even against more
powerful agentic systems.
- Abstract(参考訳): 大規模言語モデルは現在では多くの文脈において人間レベルの言語能力を持っている。
これは、ソーシャルメディアに政治的誤報を広めるなど、前例のない規模で騙し、操作するために使用することができるという懸念を高める。
将来的には、エージェントAIシステムは人間を騙し、自分の目的のために操るようになるかもしれない。
本稿では、まず、AI生成コンテンツは、通常人間に適用されるよりも、騙しや操作に対する厳格な基準に従うべきだと論じる。
第2に、このような標準をサポートするためのAIの偽装と操作の新たな特徴として、人間が「半理想的」な条件の下で支持する信念(選択)から人間を遠ざけると、その文言が欺く(操作的)ものであることを挙げる。
第3に、この特徴にインスパイアされた、AI生成コンテンツに対する「極度の透明性」要件と、その他に、コンテキスト化された情報でAI生成ステートメントを注釈付けする防衛システム。
最後に、これらの措置が今後、偽装行為に対してどの程度保護できるかを検討し、非アジェンティック防御システムはより強力なエージェントシステムに対してさえ、重要な防御層を提供できると論じる。
関連論文リスト
- Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - The Manipulation Problem: Conversational AI as a Threat to Epistemic
Agency [0.0]
会話型AIの技術は、過去18ヶ月で大きな進歩を遂げてきた。
会話エージェントは 近い将来 配備される可能性が高い 標的となる影響目標を 追求するように設計されている
AI操作問題(AI Manipulation Problem)と呼ばれることもあるが、消費者が捕食的AIエージェントとのリアルタイム対話を無意識に行うというリスクが表面化している。
論文 参考訳(メタデータ) (2023-06-19T04:09:16Z) - Characterizing Manipulation from AI Systems [7.344068411174193]
我々は、他の分野からの操作に関する文献の上に構築し、操作の可能な概念の空間を特徴づける。
本稿では,特徴量に基づく操作の定義を提案する。
第3に,不正や強制など,操作と関連する概念の関連性について論じる。
論文 参考訳(メタデータ) (2023-03-16T15:19:21Z) - Artificial Influence: An Analysis Of AI-Driven Persuasion [0.0]
ユビキタスで高説得力のあるAIシステムは、私たちの情報環境を大きく変えて、私たちの将来の人間のコントロールを失うのに寄与する、と警告する。
われわれは、これらのソリューションはどれも監視されていないと結論し、個人や政府は、説得力のあるAIの最も悪影響から守るために、積極的な措置を講じる必要があると結論付けている。
論文 参考訳(メタデータ) (2023-03-15T16:05:11Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Truthful AI: Developing and governing AI that does not lie [0.26385121748044166]
嘘をつくために口頭で嘘をつくのは有害です。
嘘は伝統的に人間関係だったが、AIシステムはますます普及しつつある。
このことは、AIの「リー」による害をどう抑えるべきかという疑問を提起する
論文 参考訳(メタデータ) (2021-10-13T12:18:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - The Threat of Offensive AI to Organizations [52.011307264694665]
この調査は、組織に対する攻撃的なAIの脅威を調査する。
まず、AIが敵の方法、戦略、目標、および全体的な攻撃モデルをどのように変えるかについて議論する。
そして、文献レビューを通じて、敵が攻撃を強化するために使用できる33の攻撃的AI能力を特定します。
論文 参考訳(メタデータ) (2021-06-30T01:03:28Z) - On Adversarial Examples and Stealth Attacks in Artificial Intelligence
Systems [62.997667081978825]
本稿では,汎用人工知能(AI)システムに対する2種類の多元性行動の評価と分析を行うための公式な枠組みを提案する。
最初のクラスは、逆例を含み、誤分類を引き起こす入力データの小さな摂動の導入を懸念する。
第2のクラスは、ここで初めて導入され、ステルス攻撃と名付けられたもので、AIシステム自体に対する小さな摂動を伴う。
論文 参考訳(メタデータ) (2020-04-09T10:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。