論文の概要: Towards Frontier Safety Policies Plus
- arxiv url: http://arxiv.org/abs/2501.16500v1
- Date: Mon, 27 Jan 2025 21:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 22:09:10.969765
- Title: Towards Frontier Safety Policies Plus
- Title(参考訳): フロンティア安全政策プラスに向けて
- Authors: Matteo Pistillo,
- Abstract要約: 本稿は、FSPがより粒度の細かいバージョンに進化すべきである、と論じる。
フロンティアAI企業のサブセットが率いるFSPの最初の波と比較して、FSPs Plusは2つの主要柱を中心に構築されるべきである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines the state of affairs on Frontier Safety Policies in light of capability progress and growing expectations held by government actors and AI safety researchers from these safety policies. It subsequently argues that FSPs should evolve to a more granular version, which this paper calls FSPs Plus. Compared to the first wave of FSPs led by a subset of frontier AI companies, FSPs Plus should be built around two main pillars. First, FSPs Plus should adopt precursory capabilities as a new, clearer, and more comprehensive set of metrics. In this respect, this paper recommends that international or domestic standardization bodies develop a standardized taxonomy of precursory components to high-impact capabilities that FSPs Plus could then adopt by reference. The Frontier Model Forum could lead the way by establishing preliminary consensus amongst frontier AI developers on this topic. Second, FSPs Plus should expressly incorporate AI safety cases and establish a mutual feedback mechanism between FSPs Plus and AI safety cases. To establish such a mutual feedback mechanism, FSPs Plus could be updated to include a clear commitment to make AI safety cases at different milestones during development and deployment, to build and adopt safety measures based on the content and confidence of AI safety cases, and, also on this basis, to keep updating and adjusting FSPs Plus.
- Abstract(参考訳): 本稿では,これらの安全政策から,政府関係者やAI安全研究者の期待する能力向上と期待を鑑み,フロンティア安全政策の状況について検討する。
その後、FSPsはより粒度の細かいバージョンに進化すべきであり、この論文はFSPs Plusと呼んでいる。
フロンティアAI企業のサブセットが率いるFSPの最初の波と比較して、FSPs Plusは2つの主要柱を中心に構築されるべきである。
まず、FSPs Plusは、新しい、より明確で、より包括的なメトリクスセットとして、前駆的な機能を採用するべきです。
本稿は,国際標準化機関が先駆的要素の標準化された分類を,FSPs Plusが参照で採用できる高インパクト能力に発展させることを推奨する。
Frontier Model Forumは、このトピックに関するフロンティアAI開発者の間で予備的なコンセンサスを確立することによって、その道のりを導くことができる。
第2に、FSPs PlusはAI安全ケースを明示的に取り入れ、FSPs PlusとAI安全ケースの相互フィードバックメカニズムを確立する必要がある。
このような相互フィードバックメカニズムを確立するために、FSPs Plusは、開発とデプロイメントの間に異なるマイルストーンでAI安全ケースを作成すること、AI安全ケースの内容と信頼性に基づいて安全対策を構築し、導入すること、そしてこのベースで、FSPs Plusの更新と調整を続けることを含むようにアップデートすることができる。
関連論文リスト
- Frontier AI's Impact on the Cybersecurity Landscape [42.771086928042315]
本稿では,フロンティアAIがサイバーセキュリティに与える影響を詳細に分析する。
まず、サイバーセキュリティにおけるフロンティアAIの限界リスクを定義し、分類する。
そして、サイバーセキュリティにおけるフロンティアAIの現在と将来の影響を体系的に分析する。
論文 参考訳(メタデータ) (2025-04-07T18:25:18Z) - In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI [93.33036653316591]
我々はシステムの安全性を高めるために3つの介入を要求します。
まず、標準化されたAI欠陥レポートと研究者へのエンゲージメントのルールを用いることを提案する。
第2に,GPAIシステムプロバイダが広視野欠陥開示プログラムを採用することを提案する。
第3に,欠陥報告の分布を調整するための改良されたインフラの開発を提唱する。
論文 参考訳(メタデータ) (2025-03-21T05:09:46Z) - Securing External Deeper-than-black-box GPAI Evaluations [49.1574468325115]
本稿では,汎用AI(GPAI)モデルの安全かつ効果的な外部評価を行う上での課題と可能性について検討する。
サイズ、能力、到達度、付随するリスクの指数的な増加により、説明責任、安全性、および公的な信頼を保証するには、従来のブラックボックスメソッドを超えるフレームワークが必要である。
論文 参考訳(メタデータ) (2025-03-10T16:13:45Z) - Dynamic safety cases for frontier AI [0.7538606213726908]
本稿では, 安全ケースの初期作成と, その体系的, 半自動改定の両立を支援するための動的安全事例管理システム(DSCMS)を提案する。
攻撃的サイバー能力のための安全ケーステンプレート上でこのアプローチを実証し、安全クリティカルな意思決定のためのガバナンス構造に統合する方法を提案する。
論文 参考訳(メタデータ) (2024-12-23T14:43:41Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies [80.90138009539004]
AIR-Bench 2024は、新しい政府の規制や企業のポリシーに適合する最初のAI安全ベンチマークである。
8つの政府規制と16の企業政策を4階層の安全分類に分解し、最も低い階層に粒度の細かいリスクカテゴリを分類する。
AIR-Bench 2024上での言語モデルの評価を行い,その安全性に関する知見を明らかにした。
論文 参考訳(メタデータ) (2024-07-11T21:16:48Z) - Coordinated Disclosure of Dual-Use Capabilities: An Early Warning System for Advanced AI [0.0]
本稿では,先進的なAI開発者や米国政府機関,その他の民間企業との早期情報共有を支援するプロセスとして,CDDC(Coordinated Disclosure of Dual-Use Capabilities)を提案する。
これは、米国政府、デュアルユースファンデーションモデル開発者、その他のアクターに、公衆の安全とセキュリティに大きな影響を与える可能性のあるAI機能の概要と、対応の最大時間を提供することを目的としている。
論文 参考訳(メタデータ) (2024-07-01T16:09:54Z) - Frontier AI Regulation: Managing Emerging Risks to Public Safety [15.85618115026625]
脆弱なAI」モデルは、公共の安全に深刻なリスクをもたらすのに十分な危険能力を持つ可能性がある。
業界の自己規制は重要な第一歩です。
安全基準の最初のセットを提案する。
論文 参考訳(メタデータ) (2023-07-06T17:03:25Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。