論文の概要: Beyond Benchmarks: On The False Promise of AI Regulation
- arxiv url: http://arxiv.org/abs/2501.15693v1
- Date: Sun, 26 Jan 2025 22:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:11.699461
- Title: Beyond Benchmarks: On The False Promise of AI Regulation
- Title(参考訳): ベンチマークを超えて:AI規制の偽りの約束について
- Authors: Gabriel Stanovsky, Renana Keydar, Gadi Perl, Eliya Habba,
- Abstract要約: 有効な科学的規制は、観測可能なテスト結果と将来のパフォーマンスを結びつける因果理論を必要とすることを示す。
本研究では,学習データから複雑な統計的パターンを明示的な因果関係なく学習する深層学習モデルにおいて,そのような保証を妨げていることを示す。
- 参考スコア(独自算出の注目度): 13.125853211532196
- License:
- Abstract: The rapid advancement of artificial intelligence (AI) systems in critical domains like healthcare, justice, and social services has sparked numerous regulatory initiatives aimed at ensuring their safe deployment. Current regulatory frameworks, exemplified by recent US and EU efforts, primarily focus on procedural guidelines while presuming that scientific benchmarking can effectively validate AI safety, similar to how crash tests verify vehicle safety or clinical trials validate drug efficacy. However, this approach fundamentally misunderstands the unique technical challenges posed by modern AI systems. Through systematic analysis of successful technology regulation case studies, we demonstrate that effective scientific regulation requires a causal theory linking observable test outcomes to future performance - for instance, how a vehicle's crash resistance at one speed predicts its safety at lower speeds. We show that deep learning models, which learn complex statistical patterns from training data without explicit causal mechanisms, preclude such guarantees. This limitation renders traditional regulatory approaches inadequate for ensuring AI safety. Moving forward, we call for regulators to reckon with this limitation, and propose a preliminary two-tiered regulatory framework that acknowledges these constraints: mandating human oversight for high-risk applications while developing appropriate risk communication strategies for lower-risk uses. Our findings highlight the urgent need to reconsider fundamental assumptions in AI regulation and suggest a concrete path forward for policymakers and researchers.
- Abstract(参考訳): 医療、司法、社会サービスといった重要な分野における人工知能(AI)システムの急速な進歩は、安全なデプロイメントを保証するための多くの規制イニシアチブを引き起こしている。
最近の規制フレームワークは、米国とEUの取り組みによって実証されているが、主に手続き的ガイドラインに焦点を当て、科学ベンチマークがAIの安全性を効果的に検証できると仮定している。
しかし、このアプローチは、現代のAIシステムによってもたらされるユニークな技術的課題を根本的に誤解している。
技術規制のケーススタディを体系的に分析することで、有効な科学的規制は、観測可能なテスト結果と将来のパフォーマンスを結びつける因果理論を必要とすることを実証する。
本研究では,学習データから複雑な統計的パターンを明示的な因果関係なく学習する深層学習モデルが,そのような保証を妨げていることを示す。
この制限は、従来の規制アプローチがAIの安全性を確保するのに不十分であることを示している。
今後は、規制当局にこの制限を再考するよう求め、リスクの高いアプリケーションに対する人間の監督を義務付けるとともに、リスクの低いアプリケーションに対する適切なリスクコミュニケーション戦略を策定する、という2段階の事前規制フレームワークを提案する。
我々の発見は、AI規制の基本的な前提を再考する緊急の必要性を強調し、政策立案者や研究者にとって具体的な道筋を示唆している。
関連論文リスト
- Declare and Justify: Explicit assumptions in AI evaluations are necessary for effective regulation [2.07180164747172]
規制は、開発者が評価に関する主要な前提を明示的に識別し、正当化する必要がある、と我々は主張する。
我々は、包括的脅威モデリング、プロキシタスクの妥当性、適切な能力付与など、AI評価における中核的な仮定を特定する。
提案したアプローチは,AI開発における透明性の向上を目標とし,先進的なAIシステムのより効果的なガバナンスに向けた実践的な道筋を提供する。
論文 参考訳(メタデータ) (2024-11-19T19:13:56Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - An FDA for AI? Pitfalls and Plausibility of Approval Regulation for Frontier Artificial Intelligence [0.0]
我々は、フロンティアAIの規制に対する承認規制、すなわち、実験的なミニマと、その実験で部分的にまたは完全に条件付けられた政府のライセンスとを組み合わせた製品の適用性について検討する。
承認規制が単に適用されたとしても、フロンティアAIのリスクには不適当であると考える理由はいくつかある。
規制開発における政策学習と実験の役割を強調して締めくくる。
論文 参考訳(メタデータ) (2024-08-01T17:54:57Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - Testing learning-enabled cyber-physical systems with Large-Language Models: A Formal Approach [32.15663640443728]
機械学習(ML)をサイバー物理システム(CPS)に統合することは大きな利益をもたらす。
既存の検証と検証技術は、しばしばこれらの新しいパラダイムには不十分である。
本稿では, 基礎確率テストからより厳密なアプローチへ移行し, 正式な保証を実現するためのロードマップを提案する。
論文 参考訳(メタデータ) (2023-11-13T14:56:14Z) - The risks of risk-based AI regulation: taking liability seriously [46.90451304069951]
AIの開発と規制は、重要な段階に達したようだ。
一部の専門家は、GPT-4よりも強力なAIシステムのトレーニングに関するモラトリアムを求めている。
本稿では、最も先進的な法的提案である欧州連合のAI法について分析する。
論文 参考訳(メタデータ) (2023-11-03T12:51:37Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Liability regimes in the age of AI: a use-case driven analysis of the
burden of proof [1.7510020208193926]
人工知能(AI)を利用した新しいテクノロジーは、私たちの社会をより良く、破壊的に変革する可能性を秘めている。
しかし、安全と基本的権利の両方に潜在的なリスクをもたらす、これらの方法論の固有の特性に対する懸念が高まっている。
本稿では,これらの難易度を示す3つのケーススタディと,それらに到達するための方法論について述べる。
論文 参考訳(メタデータ) (2022-11-03T13:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。