論文の概要: In Quest of an Extensible Multi-Level Harm Taxonomy for Adversarial AI: Heart of Security, Ethical Risk Scoring and Resilience Analytics
- arxiv url: http://arxiv.org/abs/2601.16930v1
- Date: Fri, 23 Jan 2026 17:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.784531
- Title: In Quest of an Extensible Multi-Level Harm Taxonomy for Adversarial AI: Heart of Security, Ethical Risk Scoring and Resilience Analytics
- Title(参考訳): 敵対的AIのための拡張可能なマルチレベルハーム分類の探求: セキュリティ心、倫理的リスク評価、レジリエンス分析
- Authors: Javed I. Khan, Sharmila Rahman Prithula,
- Abstract要約: Harmは、サイバーセキュリティ、倫理、リスク分析、敵AIなど、あらゆる場所で呼び出されている。
現在の談話は、曖昧で特定の害の概念、レンダリングニュアンス、構造化された、質的な評価を効果的に不可能に頼っている。
我々は、現代的倫理理論のアンサンブルに根ざした、構造的で拡張可能な害の分類を導入した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Harm is invoked everywhere from cybersecurity, ethics, risk analysis, to adversarial AI, yet there exists no systematic or agreed upon list of harms, and the concept itself is rarely defined with the precision required for serious analysis. Current discourse relies on vague, under specified notions of harm, rendering nuanced, structured, and qualitative assessment effectively impossible. This paper challenges that gap directly. We introduce a structured and expandable taxonomy of harms, grounded in an ensemble of contemporary ethical theories, that makes harm explicit, enumerable, and analytically tractable. The proposed framework identifies 66+ distinct harm types, systematically organized into two overarching domains human and nonhuman, and eleven major categories, each explicitly aligned with eleven dominant ethical theories. While extensible by design, the upper levels are intentionally stable. Beyond classification, we introduce a theory-aware taxonomy of victim entities and formalize normative harm attributes, including reversibility and duration that materially alter ethical severity. Together, these contributions transform harm from a rhetorical placeholder into an operational object of analysis, enabling rigorous ethical reasoning and long term safety evaluation of AI systems and other sociotechnical domains where harm is a first order concern.
- Abstract(参考訳): Harmは、サイバーセキュリティ、倫理、リスク分析、敵AIに至るまで、あらゆる場所で呼び出されるが、系統的あるいは合意された害の一覧は存在せず、概念自体が深刻な分析に必要な正確さで定義されることは滅多にない。
現在の談話は、曖昧で特定の害の概念、レンダリングニュアンス、構造化された、質的な評価を効果的に不可能に頼っている。
本論文は, 直接的にそのギャップに挑戦する。
我々は、現代倫理理論のアンサンブルに根ざした、構造的で拡張可能な害の分類を導入する。
提案した枠組みは66以上の異なる害タイプを同定し、体系的に2つの上層領域と非人間、11つの主要なカテゴリに分類し、それぞれが11つの支配的倫理理論と明確に一致している。
設計上、上層部は意図的に安定している。
分類以外にも、被害者の分類を意識した理論を導入し、倫理的重大さを実質的に変化させる可逆性や持続時間を含む規範的害属性を定式化する。
これらの貢献は、有害を修辞的なプレースホルダーから、厳格な倫理的推論と、有害を第一の関心事とするAIシステムや他の社会技術分野の長期的な安全性評価を可能にする分析の運用対象へと転換する。
関連論文リスト
- PluriHarms: Benchmarking the Full Spectrum of Human Judgments on AI Harm [39.043933213898136]
現在のAI安全フレームワークは、有害性をバイナリとして扱うことが多いが、人間が同意しない境界的なケースを扱う柔軟性は欠如している。
PluriHarmsは、2つの重要な次元にわたる人間の害判定を研究するために設計されたベンチマークである。
我々のスケーラブルなフレームワークは、人間のデータによって検証された高い不一致率のケースをターゲットにしながら、多様なAIの害や人間の価値を捉えるプロンプトを生成する。
論文 参考訳(メタデータ) (2026-01-13T19:41:11Z) - EmoRAG: Evaluating RAG Robustness to Symbolic Perturbations [57.97838850473147]
Retrieval-Augmented Generation (RAG)システムは、ますます堅牢なAIの中心になっている。
今回の研究では、微妙な象徴的な摂動に対する感受性という、批判的で見落とされがちな脆弱性が明らかになりました。
一つのエモティコンをクエリに注入することで、意味的に無関係なテキストを100%検索できることを示す。
論文 参考訳(メタデータ) (2025-12-01T06:53:49Z) - AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - Echoes of AI Harms: A Human-LLM Synergistic Framework for Bias-Driven Harm Anticipation [1.5892420496333068]
ECHOは、プロアクティブなAIハーネス予測のための新しいフレームワークである。
バイアス・ツー・ハーム経路の早期検出を可能にする。
2つのハイテイク領域におけるECHOの検証(診断と採用)
論文 参考訳(メタデータ) (2025-11-27T07:25:21Z) - A Conjecture on a Fundamental Trade-Off between Certainty and Scope in Symbolic and Generative AI [0.0]
論文では、AIシステムにおける証明可能な正しさと広範なデータマッピング能力の基本的なトレードオフを定式化する予想を紹介している。
この暗黙のトレードオフを明確化し、厳密な検証にオープンにすることで、この予想は、エンジニアリングの野望とAIに対する哲学的な期待の両方を大きく変えた。
論文 参考訳(メタデータ) (2025-06-11T19:18:13Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。