論文の概要: Pre-Deployment Information Sharing: A Zoning Taxonomy for Precursory Capabilities
- arxiv url: http://arxiv.org/abs/2412.02512v2
- Date: Fri, 13 Dec 2024 13:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:37:48.69578
- Title: Pre-Deployment Information Sharing: A Zoning Taxonomy for Precursory Capabilities
- Title(参考訳): プリデプロイ情報共有:前処理能力のためのゾーニング分類
- Authors: Matteo Pistillo, Charlotte Stix,
- Abstract要約: 高インパクトで潜在的に危険な能力は、早期の警告ショットに分解されるべきである。
これらの早期警告ショットはそれぞれ、前駆的な機能に対応すべきである。
本稿では,危険能力帯(地域分類)の分類を,停滞した情報交換の枠組みに関連付けて提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-impact and potentially dangerous capabilities can and should be broken down into early warning shots long before reaching red lines. Each of these early warning shots should correspond to a precursory capability. Each precursory capability sits on a spectrum indicating its proximity to a final high-impact capability, corresponding to a red line. To meaningfully detect and track capability progress, we propose a taxonomy of dangerous capability zones (a zoning taxonomy) tied to a staggered information exchange framework that enables relevant bodies to take action accordingly. In the Frontier AI Safety Commitments, signatories commit to sharing more detailed information with trusted actors, including an appointed body, as appropriate (Commitment VII). Building on our zoning taxonomy, this paper makes four recommendations for specifying information sharing as detailed in Commitment VII. (1) Precursory capabilities should be shared as soon as they become known through internal evaluations before deployment. (2) AI Safety Institutes (AISIs) should be the trusted actors appointed to receive and coordinate information on precursory components. (3) AISIs should establish adequate information protection infrastructure and guarantee increased information security as precursory capabilities move through the zones and towards red lines, including, if necessary, by classifying the information on precursory capabilities or marking it as controlled. (4) High-impact capability progress in one geographical region may translate to risk in other regions and necessitates more comprehensive risk assessment internationally. As such, AISIs should exchange information on precursory capabilities with other AISIs, relying on the existing frameworks on international classified exchanges and applying lessons learned from other regulated high-risk sectors.
- Abstract(参考訳): 高インパクトで潜在的に危険な能力は、赤い線に到達するずっと前に早期の警告ショットに分解されなければならない。
これらの早期警告ショットはそれぞれ、前駆的な機能に対応すべきである。
それぞれの前駆的能力は、赤線に対応する最終ハイインパクト能力に近接していることを示すスペクトル上に位置する。
能力の進歩を有意に検出し,追跡するために,危険能力帯(ゾーン分類)の分類法を提案する。
Frontier AI Safety Commitmentsでは、署名者は、任命された団体を含む信頼できるアクターとより詳細な情報を適切に共有することを約束する(コミットVII)。
本論文は,我々の地域分類に基づいて,情報共有を規定する4つの推奨事項について,第7章で詳述する。
1) 事前の能力は、展開前の内部評価を通じて認識されるとすぐに共有されるべきである。
2 AI安全研究所(AISI)は、先天的な要素に関する情報を受け取り調整する信頼できるアクターである。
(3)AISIは、前駆的能力がゾーン内を移動し、必要に応じて、前駆的能力に関する情報を分類したり、制御されたものとしてマークしたりすることで、適切な情報保護基盤を確立し、情報セキュリティの向上を保証すべきである。
(4) ある地理的地域におけるハイインパクト能力の進歩は、他の地域におけるリスクに変換され、国際的により包括的なリスク評価が必要である。
そのため、AISIは、他のAISIと先駆的な能力に関する情報を交換し、既存の国際機密取引の枠組みに依存し、他の規制されたハイリスクセクターから学んだ教訓を適用しなければならない。
関連論文リスト
- AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - VulRG: Multi-Level Explainable Vulnerability Patch Ranking for Complex Systems Using Graphs [20.407534993667607]
この作業では、脆弱性パッチの優先順位付けのためのグラフベースのフレームワークを導入している。
多様なデータソースとメトリクスを普遍的に適用可能なモデルに統合する。
洗練されたリスクメトリクスは、コンポーネント、アセット、システムレベルの詳細な評価を可能にします。
論文 参考訳(メタデータ) (2025-02-16T14:21:52Z) - Which Information should the UK and US AISI share with an International Network of AISIs? Opportunities, Risks, and a Tentative Proposal [0.0]
イギリスAI安全研究所(英: UK AI Safety Institute, 英: UK AI Safety Institute, 英: UK AI Safety Institute, 英: UK AI Safety Institute, 略称:UK)は、アメリカ合衆国の国際司法機関である。
本論では,両機関が特定の情報カテゴリを国際評価ネットワークと共有することに関心があることを論じる。
論文 参考訳(メタデータ) (2025-02-05T16:49:02Z) - Open Problems in Machine Unlearning for AI Safety [61.43515658834902]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。
本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文 参考訳(メタデータ) (2025-01-09T03:59:10Z) - What Information Should Be Shared with Whom "Before and During Training"? [0.0]
トレーニング実行前には、トレーニング開始日と終了日、(FLOPで)期待された計算使用日、事前トレーニングデータセットの説明など、特定の情報を共有することが可能でした。
同社は、トレーニング中の進捗、能力、リスク、ロケーション、オーナシップ、大規模コンピューティングクラスタの主要なエネルギー源、物理的、人的、サイバーセキュリティのステップをどのように監視するか。
論文 参考訳(メタデータ) (2024-12-17T13:15:25Z) - Coordinated Disclosure of Dual-Use Capabilities: An Early Warning System for Advanced AI [0.0]
本稿では,先進的なAI開発者や米国政府機関,その他の民間企業との早期情報共有を支援するプロセスとして,CDDC(Coordinated Disclosure of Dual-Use Capabilities)を提案する。
これは、米国政府、デュアルユースファンデーションモデル開発者、その他のアクターに、公衆の安全とセキュリティに大きな影響を与える可能性のあるAI機能の概要と、対応の最大時間を提供することを目的としている。
論文 参考訳(メタデータ) (2024-07-01T16:09:54Z) - Privacy-Preserving State Estimation in the Presence of Eavesdroppers: A Survey [10.366696004684822]
ネットワークシステムはますますサイバー攻撃の標的になっている。
盗聴攻撃は、システムデータを収集し、悪意のある目的のためにそれを悪用することで、情報を推測することを目的としている。
盗聴者による正確な状態推定を避けるために、開示されたシステムデータを保護することが重要である。
論文 参考訳(メタデータ) (2024-02-24T06:32:07Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Visibility into AI Agents [9.067567737098594]
AIエージェントに対する商業的、科学的、政府的、個人的活動の委譲の増加は、既存の社会的リスクを悪化させる可能性がある。
エージェント識別子,リアルタイム監視,アクティビティログという,AIエージェントの視認性を高めるための3つの尺度を評価した。
論文 参考訳(メタデータ) (2024-01-23T23:18:33Z) - Cooperative Probabilistic Trajectory Forecasting under Occlusion [110.4960878651584]
隠蔽対象の情報を安全なナビゲーションのためにエゴエージェントに伝達する必要がある場合が多い。
本稿では,エゴエージェントの基準フレームにおける閉塞歩行者の現況を協調的に推定するエンド・ツー・エンドネットワークを設計する。
また,エゴ剤による閉塞歩行者の不確実性を考慮した軌道予測は,閉塞を前提とした地上の真実軌道とほぼ同様であることを示した。
論文 参考訳(メタデータ) (2023-12-06T05:36:52Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Foveate, Attribute, and Rationalize: Towards Physically Safe and
Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文 参考訳(メタデータ) (2022-12-19T17:51:47Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。