論文の概要: Access Controls Will Solve the Dual-Use Dilemma
- arxiv url: http://arxiv.org/abs/2505.09341v3
- Date: Mon, 14 Jul 2025 06:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 12:29:47.535418
- Title: Access Controls Will Solve the Dual-Use Dilemma
- Title(参考訳): アクセス制御はデュアルユースジレンマを解消する
- Authors: Evžen Wybitul,
- Abstract要約: なぜなら、同じクエリは、誰がそれを作ったのか、なぜかによって、無害か有害かのどちらかである。
より良い意思決定を行うには、要求の現実世界のコンテキストを調べる必要がある。
本稿では,認証済みユーザだけがデュアルユース出力にアクセスできるアクセス制御に基づく概念的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI safety systems face the dual-use dilemma. It is unclear whether to answer dual-use requests, since the same query could be either harmless or harmful depending on who made it and why. To make better decisions, such systems would need to examine requests' real-world context, but currently, they lack access to this information. Instead, they sometimes end up making arbitrary choices that result in refusing legitimate queries and allowing harmful ones, which hurts both utility and safety. To address this, we propose a conceptual framework based on access controls where only verified users can access dual-use outputs. We describe the framework's components, analyse its feasibility, and explain how it addresses both over-refusals and under-refusals. While only a high-level proposal, our work takes the first step toward giving model providers more granular tools for managing dual-use content. Such tools would enable users to access more capabilities without sacrificing safety, and offer regulators new options for targeted policies.
- Abstract(参考訳): AIの安全性システムは、デュアルユースジレンマに直面している。
なぜなら、同じクエリは、誰がそれを作ったのか、なぜかによって、無害か有害かのどちらかである。
より良い意思決定を行うには、リクエストの現実世界のコンテキストを調べる必要があるが、現時点ではこれらの情報にアクセスできない。
代わりに、正しいクエリを拒否し、有害なクエリを許可する任意の選択をすることもあるため、ユーティリティと安全性の両方が損なわれる。
そこで本研究では,認証済みユーザだけがデュアルユース出力にアクセスできるアクセス制御に基づく概念的フレームワークを提案する。
フレームワークのコンポーネントを説明し、その実現可能性を分析し、過度な拒絶と過度な拒絶の両方に対処する方法を説明します。
ハイレベルな提案に過ぎませんが、私たちの作業は、モデルプロバイダにデュアルユースコンテンツを管理するためのより詳細なツールを提供するための第一歩を踏み出します。
このようなツールは、安全を犠牲にすることなくより多くの機能にアクセスでき、規制当局にターゲットポリシーの新しいオプションを提供する。
関連論文リスト
- Uncertainty-Aware GUI Agent: Adaptive Perception through Component Recommendation and Human-in-the-Loop Refinement [11.63498742723335]
適応認識によってこれらの問題に対処する不確実性認識エージェントである textbfRecAgent を提案する。
知覚の不確実性を低減するため、RecAgentはコンポーネントレコメンデーションメカニズムを採用し、最も関連性の高いUI要素を特定し、フォーカスする。
決定の不確実性のために、インタラクティブなモジュールを使用して、不明瞭な状況でユーザからのフィードバックをリクエストし、意図を認識した決定を可能にする。
論文 参考訳(メタデータ) (2025-08-06T02:38:02Z) - Beyond Release: Access Considerations for Generative AI Systems [33.117342870212156]
ジェネレーティブAIリリースの決定は、システムコンポーネントが利用可能かどうかを決定するが、リリースはユーザーやステークホルダーがシステムにどのように関与できるかを変える他の要素の多くに対処しない。
システムコンポーネントへのアクセスは潜在的なリスクとメリットを通知します。
このフレームワークは、システムリリースの決定、調査、ポリシーを伝えるために、システムリリースの状況とリスクベネフィットのトレードオフをよりよく包含します。
論文 参考訳(メタデータ) (2025-02-23T20:06:12Z) - Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - AlignGuard: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
Text-to-image (T2I) モデルは広く使われているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
本稿では,T2Iモデルの安全アライメント手法であるAlignGuardを紹介する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - Usage Governance Advisor: From Intent to AI Governance [4.49852442764084]
AIシステムの安全性を評価することは、それらをデプロイする組織にとって、厳しい関心事である。
本稿では,半構造化ガバナンス情報を作成するユーザガバナンスアドバイザを提案する。
論文 参考訳(メタデータ) (2024-12-02T20:36:41Z) - Self-Defense: Optimal QIF Solutions and Application to Website Fingerprinting [8.227044921274494]
量的情報フロー(QIF)は、情報漏洩を最小限に抑えたセキュアなシステムを設計するための堅牢な情報理論のフレームワークを提供する。
リークを最小限に抑えることを目的とした,未知の情報理論チャネルにおいて,新しい行を構築するための最適解を提案する。
我々は,サイト管理者が自身のサイトを変更できるが,他のサイトは変更できないシナリオを考慮して,ウェブサイトの指紋認証防衛の問題にアプローチを適用した。
論文 参考訳(メタデータ) (2024-11-15T09:22:14Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Towards Formal Fault Injection for Safety Assessment of Automated
Systems [0.0]
本稿では,開発ライフサイクルを通じてこれら2つのテクニックを融合したフォーマルなフォールトインジェクションを紹介する。
我々は,形式的手法と断層注入の相互支援の5つの領域を同定し,より密着的なアプローチを提唱する。
論文 参考訳(メタデータ) (2023-11-16T11:34:18Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Against Algorithmic Exploitation of Human Vulnerabilities [2.6918074738262194]
我々は、機械学習モデルが故意に脆弱性をモデル化することを懸念している。
一般的な脆弱性を記述し、アルゴリズムによる意思決定においてそれらが役割を担っている可能性を示す。
本稿では,脆弱性モデリングの可能性を検出する手法の一連の要件を提案する。
論文 参考訳(メタデータ) (2023-01-12T13:15:24Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-10-06T03:33:30Z) - Two-stage Voice Application Recommender System for Unhandled Utterances
in Intelligent Personal Assistant [5.475452673163167]
本稿では,サードパーティの音声アプリケーションと非手話音声をマッチングする2段階のショートリスト-リランダ推薦システムを提案する。
本稿では,ベースラインルールに基づくシステムから収集した観測データを用いて,新しいシステムを構築する方法について述べる。
ユーザエクスペリエンスの満足度を著しく向上させるオンラインA/Bテストの結果を提示する。
論文 参考訳(メタデータ) (2021-10-19T11:52:56Z) - A Conceptual Framework for Establishing Trust in Real World Intelligent
Systems [0.0]
アルゴリズムの信頼は、ユーザーがシステムと対話できるようにすることで確立できます。
アルゴリズム結果に対するドメインの人間の理解の特徴とパターンを反映することで、そのようなパターンに対する認識を生み出すことができる。
閉じた検査を使用して、ソリューションが期待に合致するかどうか、または期待を超えるかどうかを判断できます。
論文 参考訳(メタデータ) (2021-04-12T12:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。