論文の概要: Ethical Implications of Training Deceptive AI
- arxiv url: http://arxiv.org/abs/2604.03250v1
- Date: Tue, 10 Mar 2026 20:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.549353
- Title: Ethical Implications of Training Deceptive AI
- Title(参考訳): 学習認知AIの倫理的意味
- Authors: Jason Starace, Bert Baumgaertner, Terence Soule,
- Abstract要約: AIシステムにおける認知行動はもはや理論的ではない。
欧州連合のAI法は、詐欺的なAIシステムの配備を禁止している。
詐欺研究の実施方法を規定する確立した枠組みは存在しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deceptive behavior in AI systems is no longer theoretical: large language models strategically mislead without producing false statements, maintain deceptive strategies through safety training, and coordinate deception in multi-agent settings. While the European Union's AI Act prohibits deployment of deceptive AI systems, it explicitly exempts research and development, creating a necessary but unstructured space in which no established framework governs how deception research should be conducted or how risk should scale with capability. This paper proposes a Deception Research Levels (DRL) framework, a classification system for deceptive algorithm research modeled on the Biosafety Level system used in biological research. The DRL framework classifies research by risk profile rather than researcher intent, assessing deceptive mechanisms across five dimensions grounded in the AI4People ethical framework: Pillar Implication, Severity, Reversibility, Scale, and Vulnerability. Classification follows a ``highest dimension wins'' approach, assigning one of four risk levels with cumulative safeguards ranging from standard documentation at DRL-1 to regulatory notification and third-party security audits at DRL-4. A dual-development mandate at DRL-3 and above requires that detection and mitigation methods be developed alongside any deceptive capability. We apply the framework to eight case studies spanning all four levels and demonstrate that ecological validity of the deceptive mechanism emerges as a consistent, non-independent indicator of classification level. The DRL framework is intended to fill the governance gap between regulated deployment and unstructured research, supporting both beneficial applications and defensive research under conditions where safeguards are proportional to the potential for harm.
- Abstract(参考訳): 大規模言語モデルは、偽の文を生成せずに戦略的に誤解を招き、安全トレーニングを通じて偽装戦略を維持し、マルチエージェント設定で偽装をコーディネートする。
欧州連合(EU)のAI法は、詐欺的AIシステムの配備を禁止しているが、それは明らかに研究と開発を免除し、確立されたフレームワークが詐欺研究の実施方法や能力によるリスクのスケールをどのように行うべきかを規定する、必要だが非構造的な空間を創出する。
本稿では,生物学的研究に使用されるバイオセーフティレベルをモデルとした,認知アルゴリズム研究の分類システムである,認知研究レベル(DRL)フレームワークを提案する。
DRLフレームワークは、研究者の意図よりもリスクプロファイルによる研究を分類し、AI4Peopleの倫理的フレームワークであるピラー・インプリケーション、重大さ、可逆性、スケール、脆弱性の5つの側面で、偽のメカニズムを評価する。
分類は、DRL-1の標準文書から規制通知、DRL-4のサードパーティのセキュリティ監査まで、合計4つのリスクレベルのうちの1つを割り当てる。
DRL-3以降の二重開発計画では、検出と緩和の手法をあらゆる偽装能力とともに開発する必要がある。
本枠組みを4つのレベルにまたがる8つのケーススタディに適用し, 識別機構の生態的妥当性が一貫した非独立性指標として現れることを示した。
DRLフレームワークは、規制されたデプロイメントと非構造的なリサーチの間のガバナンスギャップを埋めることを目的としており、安全保護が害の可能性がある可能性に比例する条件下で、有益なアプリケーションと防衛研究の両方をサポートする。
関連論文リスト
- Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks [21.880338678029503]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルにおける幻覚とドメイン知識の欠如を、外部知識ベースを組み込むことによって著しく軽減する。
本稿では、その基盤となる脆弱性メカニズムを分析し、データ中毒、敵攻撃、メンバシップ推論攻撃などのコア脅威ベクトルを体系的に分類する。
潜在的なリスクについて深い洞察を得ることにより、この研究は、高度に堅牢で信頼性の高い次世代RAGシステムの開発を促進することを目指している。
論文 参考訳(メタデータ) (2026-03-23T07:32:59Z) - AI TIPS 2.0: A Comprehensive Framework for Operationalizing AI Governance [0.0]
組織はユースケースレベルでの不適切なリスク評価に苦しむ。
ISO 42001やNIST AI RMFのような既存のフレームワークは高い概念レベルを維持している。
開発ライフサイクル全体にAIプラクティスを組み込むための体系的なアプローチはない。
論文 参考訳(メタデータ) (2025-12-09T20:57:22Z) - AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - Academics and Generative AI: Empirical and Epistemic Indicators of Policy-Practice Voids [0.0]
本研究は,組織ルールと実践的AI利用の間の空白を明らかにするために,構造化解釈フレームワークに埋め込まれた10項目の間接楕円型機器のプロトタイプを作成する。
論文 参考訳(メタデータ) (2025-11-04T06:24:47Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - The Alignment Trap: Complexity Barriers [0.0]
本稿は、AIアライメントは単に難しいだけでなく、基本的な論理的矛盾に基づくものである、と論じる。
私たちは、すべての必要な安全ルールを列挙できないため、マシンラーニングを正確に使用しています。
このパラドックスは、5つの独立した数学的証明によって確認される。
論文 参考訳(メタデータ) (2025-06-12T02:30:30Z) - Beyond Benchmarks: On The False Promise of AI Regulation [13.125853211532196]
有効な科学的規制は、観測可能なテスト結果と将来のパフォーマンスを結びつける因果理論を必要とすることを示す。
本研究では,学習データから複雑な統計的パターンを明示的な因果関係なく学習する深層学習モデルにおいて,そのような保証を妨げていることを示す。
論文 参考訳(メタデータ) (2025-01-26T22:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。