論文の概要: Access Controls Will Solve the Dual-Use Dilemma
- arxiv url: http://arxiv.org/abs/2505.09341v1
- Date: Wed, 14 May 2025 12:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.456043
- Title: Access Controls Will Solve the Dual-Use Dilemma
- Title(参考訳): アクセス制御はデュアルユースジレンマを解消する
- Authors: Evžen Wybitul,
- Abstract要約: 本稿では,ユーザ認証情報に基づく概念的アクセス制御フレームワークを提案する。
このシステムは、ユーザの認証証明書がカテゴリの要件に合致した場合のみ、応答を許可する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI safety systems face a dual-use dilemma. Since the same request can be either harmless or harmful depending on who made it and why, if the system makes decisions based solely on the request's content, it will refuse some legitimate queries and let pass harmful ones. To address this, we propose a conceptual access control framework, based on verified user credentials (such as institutional affiliation) and classifiers that assign model outputs to risk categories (such as advanced virology). The system permits responses only when the user's verified credentials match the category's requirements. For implementation of the model output classifiers, we introduce a theoretical approach utilizing small, gated expert modules integrated into the generator model, trained with gradient routing, that enable efficient risk detection without the capability gap problems of external monitors. While open questions remain about the verification mechanisms, risk categories, and the technical implementation, our framework makes the first step toward enabling granular governance of AI capabilities: verified users gain access to specialized knowledge without arbitrary restrictions, while adversaries are blocked from it. This contextual approach reconciles model utility with robust safety, addressing the dual-use dilemma.
- Abstract(参考訳): AIの安全システムは、二重用途のジレンマに直面している。
同じ要求は、誰が作ったのか、なぜかによって無害または有害である可能性があるため、もしシステムが要求の内容のみに基づいて決定を下せば、正当なクエリを拒否し、有害なリクエストを渡すことになる。
そこで本研究では,リスクカテゴリ(高度なウイルス学など)にモデル出力を割り当てる検証済みユーザ認証(機関連携など)と分類器に基づく概念的アクセス制御フレームワークを提案する。
このシステムは、ユーザの認証証明書がカテゴリの要件に合致した場合のみ、応答を許可する。
モデル出力分類器の実装には、外部モニタの機能ギャップの問題なく効率的なリスク検出を可能にするため、ジェネレータモデルに統合された小さなゲート付きエキスパートモジュールを用いた理論的アプローチを導入する。
検証メカニズム、リスクカテゴリ、技術的実装に関するオープンな疑問は残るが、我々のフレームワークは、AI能力のきめ細かいガバナンスを実現するための第一歩を踏み出している。
この文脈的アプローチは、二重使用ジレンマに対処して、堅牢な安全性でモデルユーティリティを再構成する。
関連論文リスト
- Usage Governance Advisor: From Intent to AI Governance [4.49852442764084]
AIシステムの安全性を評価することは、それらをデプロイする組織にとって、厳しい関心事である。
本稿では,半構造化ガバナンス情報を作成するユーザガバナンスアドバイザを提案する。
論文 参考訳(メタデータ) (2024-12-02T20:36:41Z) - Self-Defense: Optimal QIF Solutions and Application to Website Fingerprinting [8.227044921274494]
量的情報フロー(QIF)は、情報漏洩を最小限に抑えたセキュアなシステムを設計するための堅牢な情報理論のフレームワークを提供する。
リークを最小限に抑えることを目的とした,未知の情報理論チャネルにおいて,新しい行を構築するための最適解を提案する。
我々は,サイト管理者が自身のサイトを変更できるが,他のサイトは変更できないシナリオを考慮して,ウェブサイトの指紋認証防衛の問題にアプローチを適用した。
論文 参考訳(メタデータ) (2024-11-15T09:22:14Z) - Towards Formal Fault Injection for Safety Assessment of Automated
Systems [0.0]
本稿では,開発ライフサイクルを通じてこれら2つのテクニックを融合したフォーマルなフォールトインジェクションを紹介する。
我々は,形式的手法と断層注入の相互支援の5つの領域を同定し,より密着的なアプローチを提唱する。
論文 参考訳(メタデータ) (2023-11-16T11:34:18Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Against Algorithmic Exploitation of Human Vulnerabilities [2.6918074738262194]
我々は、機械学習モデルが故意に脆弱性をモデル化することを懸念している。
一般的な脆弱性を記述し、アルゴリズムによる意思決定においてそれらが役割を担っている可能性を示す。
本稿では,脆弱性モデリングの可能性を検出する手法の一連の要件を提案する。
論文 参考訳(メタデータ) (2023-01-12T13:15:24Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-10-06T03:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。