論文の概要: AI Deception: Risks, Dynamics, and Controls
- arxiv url: http://arxiv.org/abs/2511.22619v1
- Date: Thu, 27 Nov 2025 16:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.655662
- Title: AI Deception: Risks, Dynamics, and Controls
- Title(参考訳): AIの認知 - リスク、ダイナミクス、コントロール
- Authors: Boyuan Chen, Sitong Fang, Jiaming Ji, Yanxu Zhu, Pengcheng Wen, Jinzhou Wu, Yingshui Tan, Boren Zheng, Mengying Yuan, Wenqi Chen, Donghai Hong, Alex Qiu, Xin Chen, Jiayi Zhou, Kaile Wang, Juntao Dai, Borong Zhang, Tianzhuo Yang, Saad Siddiqui, Isabella Duan, Yawen Duan, Brian Tse, Jen-Tse, Huang, Kun Wang, Baihui Zheng, Jiaheng Liu, Jian Yang, Yiming Li, Wenting Chen, Dongrui Liu, Lukas Vierling, Zhiheng Xi, Haobo Fu, Wenxuan Wang, Jitao Sang, Zhengyan Shi, Chi-Min Chan, Eugenie Shi, Simin Li, Juncheng Li, Wei Ji, Dong Li, Jun Song, Yinpeng Dong, Jie Fu, Bo Zheng, Min Yang, Yike Guo, Philip Torr, Zhongyuan Wang, Yaodong Yang, Tiejun Huang, Ya-Qin Zhang, Hongjiang Zhang, Andrew Yao,
- Abstract要約: このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
- 参考スコア(独自算出の注目度): 149.20033748212012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As intelligence increases, so does its shadow. AI deception, in which systems induce false beliefs to secure self-beneficial outcomes, has evolved from a speculative concern to an empirically demonstrated risk across language models, AI agents, and emerging frontier systems. This project provides a comprehensive and up-to-date overview of the AI deception field, covering its core concepts, methodologies, genesis, and potential mitigations. First, we identify a formal definition of AI deception, grounded in signaling theory from studies of animal deception. We then review existing empirical studies and associated risks, highlighting deception as a sociotechnical safety challenge. We organize the landscape of AI deception research as a deception cycle, consisting of two key components: deception emergence and deception treatment. Deception emergence reveals the mechanisms underlying AI deception: systems with sufficient capability and incentive potential inevitably engage in deceptive behaviors when triggered by external conditions. Deception treatment, in turn, focuses on detecting and addressing such behaviors. On deception emergence, we analyze incentive foundations across three hierarchical levels and identify three essential capability preconditions required for deception. We further examine contextual triggers, including supervision gaps, distributional shifts, and environmental pressures. On deception treatment, we conclude detection methods covering benchmarks and evaluation protocols in static and interactive settings. Building on the three core factors of deception emergence, we outline potential mitigation strategies and propose auditing approaches that integrate technical, community, and governance efforts to address sociotechnical challenges and future AI risks. To support ongoing work in this area, we release a living resource at www.deceptionsurvey.com.
- Abstract(参考訳): 知性が増加するにつれて、その影も大きくなる。
システムが自給自足結果を確保するために誤った信念を誘導するAI偽装は、投機的関心事から、言語モデル、AIエージェント、新興フロンティアシステムにまたがる経験的に実証されたリスクへと進化してきた。
このプロジェクトでは、AI偽装分野の包括的かつ最新の概要を提供し、その中核となる概念、方法論、生成、潜在的な緩和をカバーしている。
まず,動物の偽装研究から信号理論に基づくAI偽装の形式的定義を同定する。
次に、既存の実証研究と関連するリスクを概観し、社会技術的安全性の課題としての偽装を強調した。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
十分な能力とインセンティブを持つシステムは、外部の条件によって引き起こされる場合に、必然的に偽装行動に関与する。
偽装治療は、その行為を検出し、対処することに焦点を当てる。
虚偽の出現に関して、我々は3つの階層レベルにわたるインセンティブ基盤を分析し、偽偽造に必要な3つの必須能力条件を特定した。
さらに、監視ギャップ、分布シフト、環境圧力など、文脈的引き金について検討する。
詐欺処理では,静的かつインタラクティブな環境下でのベンチマークと評価プロトコルを網羅する検出手法を結論付けている。
騙しの発生の3つの要因に基づいて、潜在的な緩和戦略を概説し、技術的、コミュニティ、ガバナンスの取り組みを統合する監査アプローチを提案し、社会技術的課題と将来のAIリスクに対処する。
この領域で進行中の作業を支援するため、www.deceptionsurvey.comで生活資源をリリースする。
関連論文リスト
- Epistemic Trade-Off: An Analysis of the Operational Breakdown and Ontological Limits of "Certainty-Scope" in AI [0.0]
最近発表された「確実性顕微鏡」予想は、人工知能(AI)システムにおける固有のトレードオフについて、説得力のある洞察を与えてくれる。
本論では,工学設計と規制決定に関する洞察を与えるための予想の目的は,2つの基本的な要因によって制限されていると論じる。
論文 参考訳(メタデータ) (2025-08-26T05:47:21Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - Beyond Vulnerabilities: A Survey of Adversarial Attacks as Both Threats and Defenses in Computer Vision Systems [5.787505062263962]
コンピュータビジョンシステムに対する敵対的攻撃は、ニューラルネットワークの堅牢性とセキュリティに関する基本的な前提に挑戦する重要な研究領域として浮上している。
この包括的調査は、敵のテクニックの進化の状況を調べ、その2つの性質を高度なセキュリティ脅威と貴重な防御ツールの両方として明らかにしている。
論文 参考訳(メタデータ) (2025-08-03T17:02:05Z) - Predictable Artificial Intelligence [77.1127726638209]
本稿では予測可能なAIのアイデアと課題を紹介する。
それは、現在および将来のAIエコシステムの重要な妥当性指標を予測できる方法を探る。
予測可能性を達成することは、AIエコシステムの信頼、責任、コントロール、アライメント、安全性を促進するために不可欠である、と私たちは主張する。
論文 参考訳(メタデータ) (2023-10-09T21:36:21Z) - AI Deception: A Survey of Examples, Risks, and Potential Solutions [20.84424818447696]
本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。
我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
論文 参考訳(メタデータ) (2023-08-28T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。