論文の概要: Access Controls Will Solve the Dual-Use Dilemma
- arxiv url: http://arxiv.org/abs/2505.09341v2
- Date: Thu, 10 Jul 2025 12:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 14:32:08.064936
- Title: Access Controls Will Solve the Dual-Use Dilemma
- Title(参考訳): アクセス制御はデュアルユースジレンマを解消する
- Authors: Evžen Wybitul,
- Abstract要約: 本稿では,認証済みユーザだけがデュアルユース出力にアクセスできるアクセス制御に基づく概念的フレームワークを提案する。
フレームワークのコンポーネントを説明し、その実現可能性を分析し、過度な拒絶と過度な拒絶の両方に対処する方法を説明します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI safety systems face the dual-use dilemma: it can be unclear whether to refuse certain requests, since they could be either harmless or harmful depending on who made them and why. Determining this requires examining their real-world context, but current safety systems cannot access this contextual information. Instead, they make arbitrary decisions that end up hurting both utility and safety: they sometimes refuse legitimate queries and other times fail to refuse harmful ones. To address this, we propose a conceptual framework based on access controls in which only verified users can access dual-use outputs. We describe the framework's components, analyse its feasibility, and explain how it addresses both over-refusals and under-refusals. While only a high-level proposal, our work takes the first step toward enabling more nuanced safety decisions: with better tools for managing dual-use content, model providers could enable users to access more capabilities without sacrificing safety, and give regulators new options for more targeted policies.
- Abstract(参考訳): AIの安全性システムは、デュアルユースジレンマに直面している。それは、特定の要求を拒否するかどうかは不明だ。
これを決定するには、現実世界のコンテキストを調べる必要があるが、現在の安全システムは、このコンテキスト情報にアクセスできない。
その代わりに、ユーティリティと安全性の両方を損なうような任意の判断をする — 正当なクエリを拒否することもあるし、有害なクエリを拒否しない場合もあります。
そこで本研究では,認証済みユーザだけがデュアルユース出力にアクセスできるアクセス制御に基づく概念的フレームワークを提案する。
フレームワークのコンポーネントを説明し、その実現可能性を分析し、過度な拒絶と過度な拒絶の両方に対処する方法を説明します。
デュアルユースコンテンツを管理するためのより良いツールによって、モデルプロバイダは、安全を犠牲にすることなくより多くの機能にアクセスし、規制当局にもっとターゲットされたポリシーの新しい選択肢を与えることができます。
関連論文リスト
- Usage Governance Advisor: From Intent to AI Governance [4.49852442764084]
AIシステムの安全性を評価することは、それらをデプロイする組織にとって、厳しい関心事である。
本稿では,半構造化ガバナンス情報を作成するユーザガバナンスアドバイザを提案する。
論文 参考訳(メタデータ) (2024-12-02T20:36:41Z) - Self-Defense: Optimal QIF Solutions and Application to Website Fingerprinting [8.227044921274494]
量的情報フロー(QIF)は、情報漏洩を最小限に抑えたセキュアなシステムを設計するための堅牢な情報理論のフレームワークを提供する。
リークを最小限に抑えることを目的とした,未知の情報理論チャネルにおいて,新しい行を構築するための最適解を提案する。
我々は,サイト管理者が自身のサイトを変更できるが,他のサイトは変更できないシナリオを考慮して,ウェブサイトの指紋認証防衛の問題にアプローチを適用した。
論文 参考訳(メタデータ) (2024-11-15T09:22:14Z) - Towards Formal Fault Injection for Safety Assessment of Automated
Systems [0.0]
本稿では,開発ライフサイクルを通じてこれら2つのテクニックを融合したフォーマルなフォールトインジェクションを紹介する。
我々は,形式的手法と断層注入の相互支援の5つの領域を同定し,より密着的なアプローチを提唱する。
論文 参考訳(メタデータ) (2023-11-16T11:34:18Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Against Algorithmic Exploitation of Human Vulnerabilities [2.6918074738262194]
我々は、機械学習モデルが故意に脆弱性をモデル化することを懸念している。
一般的な脆弱性を記述し、アルゴリズムによる意思決定においてそれらが役割を担っている可能性を示す。
本稿では,脆弱性モデリングの可能性を検出する手法の一連の要件を提案する。
論文 参考訳(メタデータ) (2023-01-12T13:15:24Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-10-06T03:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。