論文の概要: Secure Human Oversight of AI: Exploring the Attack Surface of Human Oversight
- arxiv url: http://arxiv.org/abs/2509.12290v1
- Date: Mon, 15 Sep 2025 08:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.68751
- Title: Secure Human Oversight of AI: Exploring the Attack Surface of Human Oversight
- Title(参考訳): AIのセキュアな監視 - 人間の監視の攻撃面を探索する
- Authors: Jonas C. Ditz, Veronika Lazar, Elmar Lichtmeß, Carola Plesch, Matthias Heck, Kevin Baum, Markus Langer,
- Abstract要約: 我々は、AI操作の安全性、セキュリティ、説明責任アーキテクチャにおいて、人間の監視が新たな攻撃面を生み出すと主張している。
攻撃ベクトルの概要と、AIのセキュアな人的監視を可能にするための強化戦略を提供する。
- 参考スコア(独自算出の注目度): 1.0847216718640382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human oversight of AI is promoted as a safeguard against risks such as inaccurate outputs, system malfunctions, or violations of fundamental rights, and is mandated in regulation like the European AI Act. Yet debates on human oversight have largely focused on its effectiveness, while overlooking a critical dimension: the security of human oversight. We argue that human oversight creates a new attack surface within the safety, security, and accountability architecture of AI operations. Drawing on cybersecurity perspectives, we analyze attack vectors that threaten the requirements of effective human oversight, thereby undermining the safety of AI operations. Such attacks may target the AI system, its communication with oversight personnel, or the personnel themselves. We then outline hardening strategies to mitigate these risks. Our contributions are: (1) introducing a security perspective on human oversight, and (2) providing an overview of attack vectors and hardening strategies to enable secure human oversight of AI.
- Abstract(参考訳): AIの人的監督は、不正確なアウトプット、システム障害、基本的権利侵害などのリスクに対する保護として推進され、欧州AI法のような規制で義務付けられている。
しかし、人間の監視に関する議論は、人間の監視の安全性という重要な側面を覆い隠しながら、その効果に主に焦点を当てている。
我々は、AI操作の安全性、セキュリティ、説明責任アーキテクチャにおいて、人間の監視が新たな攻撃面を生み出すと主張している。
サイバーセキュリティの観点から、有効な人間の監視の要求を脅かす攻撃ベクトルを分析し、それによってAI操作の安全性を損なう。
このような攻撃は、AIシステム、監視要員との通信、あるいは人員自体を標的にすることができる。
次に、これらのリスクを軽減するためのハードニング戦略を概説します。
1)人間の監視に対するセキュリティの視点を導入し、(2)AIの安全な監視を可能にするための攻撃ベクトルと強化戦略の概要を提供する。
関連論文リスト
- ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - Manipulation Attacks by Misaligned AI: Risk Analysis and Safety Case Framework [0.0]
人間はしばしばサイバーセキュリティシステムにおいて最も弱いリンクである。
ミスアライメントのAIシステムは、従業員を操作することによって人間の監視を損なう可能性がある。
これらのリスクを評価し緩和するための体系的な枠組みは存在しない。
本稿では,AIの安全性管理に操作リスクを統合するための,最初の体系的方法論を提供する。
論文 参考訳(メタデータ) (2025-07-17T07:45:53Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? [37.13209023718946]
未確認のAI機関は、公共の安全とセキュリティに重大なリスクをもたらす。
これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論する。
我々は,非エージェント型AIシステムの開発をさらに進めるために,コアビルディングブロックを提案する。
論文 参考訳(メタデータ) (2025-02-21T18:28:36Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
我々は人間の知恵について知られているものを調べ、そのAIのビジョンをスケッチする。
AIシステムは特にメタ認知に苦しむ。
スマートAIのベンチマーク、トレーニング、実装について論じる。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Human-AI Safety: A Descendant of Generative AI and Control Systems Safety [6.100304850888953]
先進的なAI技術に対する有意義な安全性保証には、AI出力と人間の振る舞いによって形成されるフィードバックループが、どのようにして異なる結果に向かって相互作用を駆動するかについての推論が必要である、と我々は主張する。
我々は、次世代の人間中心AI安全性に向けた具体的な技術ロードマップを提案する。
論文 参考訳(メタデータ) (2024-05-16T03:52:00Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - AI Potentiality and Awareness: A Position Paper from the Perspective of
Human-AI Teaming in Cybersecurity [18.324118502535775]
我々は、人間とAIのコラボレーションはサイバーセキュリティに価値があると論じている。
私たちは、AIの計算能力と人間の専門知識を取り入れたバランスのとれたアプローチの重要性を強調します。
論文 参考訳(メタデータ) (2023-09-28T01:20:44Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。