論文の概要: Towards Frontier Safety Policies Plus
- arxiv url: http://arxiv.org/abs/2501.16500v1
- Date: Mon, 27 Jan 2025 21:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:10.102227
- Title: Towards Frontier Safety Policies Plus
- Title(参考訳): フロンティア安全政策プラスに向けて
- Authors: Matteo Pistillo,
- Abstract要約: 本稿は、FSPがより粒度の細かいバージョンに進化すべきである、と論じる。
フロンティアAI企業のサブセットが率いるFSPの最初の波と比較して、FSPs Plusは2つの主要柱を中心に構築されるべきである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper examines the state of affairs on Frontier Safety Policies in light of capability progress and growing expectations held by government actors and AI safety researchers from these safety policies. It subsequently argues that FSPs should evolve to a more granular version, which this paper calls FSPs Plus. Compared to the first wave of FSPs led by a subset of frontier AI companies, FSPs Plus should be built around two main pillars. First, FSPs Plus should adopt precursory capabilities as a new, clearer, and more comprehensive set of metrics. In this respect, this paper recommends that international or domestic standardization bodies develop a standardized taxonomy of precursory components to high-impact capabilities that FSPs Plus could then adopt by reference. The Frontier Model Forum could lead the way by establishing preliminary consensus amongst frontier AI developers on this topic. Second, FSPs Plus should expressly incorporate AI safety cases and establish a mutual feedback mechanism between FSPs Plus and AI safety cases. To establish such a mutual feedback mechanism, FSPs Plus could be updated to include a clear commitment to make AI safety cases at different milestones during development and deployment, to build and adopt safety measures based on the content and confidence of AI safety cases, and, also on this basis, to keep updating and adjusting FSPs Plus.
- Abstract(参考訳): 本稿では,これらの安全政策から,政府関係者やAI安全研究者の期待する能力向上と期待を鑑み,フロンティア安全政策の状況について検討する。
その後、FSPsはより粒度の細かいバージョンに進化すべきであり、この論文はFSPs Plusと呼んでいる。
フロンティアAI企業のサブセットが率いるFSPの最初の波と比較して、FSPs Plusは2つの主要柱を中心に構築されるべきである。
まず、FSPs Plusは、新しい、より明確で、より包括的なメトリクスセットとして、前駆的な機能を採用するべきです。
本稿は,国際標準化機関が先駆的要素の標準化された分類を,FSPs Plusが参照で採用できる高インパクト能力に発展させることを推奨する。
Frontier Model Forumは、このトピックに関するフロンティアAI開発者の間で予備的なコンセンサスを確立することによって、その道のりを導くことができる。
第2に、FSPs PlusはAI安全ケースを明示的に取り入れ、FSPs PlusとAI安全ケースの相互フィードバックメカニズムを確立する必要がある。
このような相互フィードバックメカニズムを確立するために、FSPs Plusは、開発とデプロイメントの間に異なるマイルストーンでAI安全ケースを作成すること、AI安全ケースの内容と信頼性に基づいて安全対策を構築し、導入すること、そしてこのベースで、FSPs Plusの更新と調整を続けることを含むようにアップデートすることができる。
関連論文リスト
- Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文 参考訳(メタデータ) (2025-02-09T06:35:11Z) - Dynamic safety cases for frontier AI [0.7538606213726908]
本稿では, 安全ケースの初期作成と, その体系的, 半自動改定の両立を支援するための動的安全事例管理システム(DSCMS)を提案する。
攻撃的サイバー能力のための安全ケーステンプレート上でこのアプローチを実証し、安全クリティカルな意思決定のためのガバナンス構造に統合する方法を提案する。
論文 参考訳(メタデータ) (2024-12-23T14:43:41Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies [80.90138009539004]
AIR-Bench 2024は、新しい政府の規制や企業のポリシーに適合する最初のAI安全ベンチマークである。
8つの政府規制と16の企業政策を4階層の安全分類に分解し、最も低い階層に粒度の細かいリスクカテゴリを分類する。
AIR-Bench 2024上での言語モデルの評価を行い,その安全性に関する知見を明らかにした。
論文 参考訳(メタデータ) (2024-07-11T21:16:48Z) - Coordinated Disclosure of Dual-Use Capabilities: An Early Warning System for Advanced AI [0.0]
本稿では,先進的なAI開発者や米国政府機関,その他の民間企業との早期情報共有を支援するプロセスとして,CDDC(Coordinated Disclosure of Dual-Use Capabilities)を提案する。
これは、米国政府、デュアルユースファンデーションモデル開発者、その他のアクターに、公衆の安全とセキュリティに大きな影響を与える可能性のあるAI機能の概要と、対応の最大時間を提供することを目的としている。
論文 参考訳(メタデータ) (2024-07-01T16:09:54Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Deep Learning Safety Concerns in Automated Driving Perception [43.026485214492105]
本稿では、クロスファンクショナルなチームが共同で関心事に対処できるようにするとともに、理解を深めるための追加の分類を紹介します。
近年のディープラーニング分野の進歩と認識のためのディープニューラルネットワーク(DNN)の性能向上により、自動走行(AD)システムへの需要が高まっている。
論文 参考訳(メタデータ) (2023-09-07T15:25:47Z) - Frontier AI Regulation: Managing Emerging Risks to Public Safety [15.85618115026625]
脆弱なAI」モデルは、公共の安全に深刻なリスクをもたらすのに十分な危険能力を持つ可能性がある。
業界の自己規制は重要な第一歩です。
安全基準の最初のセットを提案する。
論文 参考訳(メタデータ) (2023-07-06T17:03:25Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。