Fugu-MT 論文翻訳(概要): The Backfiring Effect of Weak AI Safety Regulation

論文の概要: The Backfiring Effect of Weak AI Safety Regulation

arxiv url: http://arxiv.org/abs/2503.20848v2
Date: Tue, 17 Jun 2025 15:26:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 15:22:20.32827
Title: The Backfiring Effect of Weak AI Safety Regulation
Title（参考訳）: 弱利きAI安全規制のバックファイリング効果
Authors: Benjamin Laufer, Jon Kleinberg, Hoda Heidari,
Abstract要約: 安全規制、汎用AIクリエーター、ドメインスペシャリストの相互作用について検討する。分析の結果、ドメインスペシャリストのみを対象とした弱い規制は、意図せず安全性を損なう可能性が示唆された。より強く、適切に配置された規制は、実際には、それに従属するすべてのプレイヤーに相互に利益をもたらすことができる。
参考スコア（独自算出の注目度）: 9.217996627263219
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent policy proposals aim to improve the safety of general-purpose AI, but there is little understanding of the efficacy of different regulatory approaches to AI safety. We present a strategic model that explores the interactions between safety regulation, the general-purpose AI creators, and domain specialists--those who adapt the technology for specific applications. Our analysis examines how different regulatory measures, targeting different parts of the AI development chain, affect the outcome of this game. In particular, we assume AI technology is characterized by two key attributes: safety and performance. The regulator first sets a minimum safety standard that applies to one or both players, with strict penalties for non-compliance. The general-purpose creator then invests in the technology, establishing its initial safety and performance levels. Next, domain specialists refine the AI for their specific use cases, updating the safety and performance levels and taking the product to market. The resulting revenue is then distributed between the specialist and generalist through a revenue-sharing parameter. Our analysis reveals two key insights: First, weak safety regulation imposed predominantly on domain specialists can backfire. While it might seem logical to regulate AI use cases, our analysis shows that weak regulations targeting domain specialists alone can unintentionally reduce safety. This effect persists across a wide range of settings. Second, in sharp contrast to the previous finding, we observe that stronger, well-placed regulation can in fact mutually benefit all players subjected to it. When regulators impose appropriate safety standards on both general-purpose AI creators and domain specialists, the regulation functions as a commitment device, leading to safety and performance gains, surpassing what is achieved under no regulation or regulating one player alone.
Abstract（参考訳）: 近年の政策提案は、汎用AIの安全性向上を目的としているが、AIの安全性に対する異なる規制アプローチの有効性についてはほとんど理解されていない。我々は、安全規制、汎用AIクリエータ、ドメインスペシャリスト間の相互作用を探求する戦略モデルを提示します。我々の分析は、AI開発チェーンの異なる部分をターゲットにした異なる規制措置が、このゲームの結果にどのように影響するかを調べる。特に、AI技術は安全性とパフォーマンスの2つの重要な特性によって特徴づけられていると仮定する。規制当局はまず1人または両方に適用される最低限の安全基準を設定し、非コンプライアンスに対する厳格な罰を課す。一般向けクリエーターはその後、この技術に投資し、最初の安全性とパフォーマンスのレベルを確立した。次に、ドメインスペシャリストは、特定のユースケースのためにAIを洗練し、安全性とパフォーマンスのレベルを更新し、製品を市場に投入する。得られた収益は、その専門家とジェネラリストの間で、収益共有パラメータを通じて分配される。まず第一に、ドメインスペシャリストに主に課せられている弱い安全規制は、バックファイアを引き起こす可能性がある。 AIのユースケースを規制することは理にかなっているように思えるが、我々の分析は、ドメインの専門家だけをターゲットにした弱い規制が、意図せずに安全性を低下させることを示している。この効果は幅広い設定で持続する。第二に、前回の発見とは対照的に、より強く、適切に配置された規制が、実際には、それに従属するすべてのプレイヤーに相互に利益をもたらすことを観察する。規制当局が汎用AIクリエーターとドメインスペシャリストの両方に適切な安全基準を課すと、規制はコミットメントデバイスとして機能し、安全とパフォーマンスの向上につながります。

関連論文リスト

Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective [31.55000083809067]
私たちは、ゲーム理論による抑止がAIを積極的に監視し、リスクを認識し、操作に対して回復力を与える方法を示します。本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
論文参考訳（メタデータ） (2026-02-06T23:20:26Z)
Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies [57.521647436515785]
私たちはフロンティアAIの監査を、フロンティアAI開発者の安全とセキュリティに関する主張の厳格な第三者による検証として定義しています。本稿では,AI保証レベル(AAL-1からAAL-4)について紹介する。
論文参考訳（メタデータ） (2026-01-16T18:44:09Z)
Governable AI: Provable Safety Under Extreme Threat Models [31.36879992618843]
我々は、従来の内部制約から外部に強制された構造コンプライアンスに移行するGAI(Governable AI)フレームワークを提案する。 GAIフレームワークは、シンプルで信頼性が高く、完全に決定論的で、強力で、柔軟性があり、汎用的なルール執行モジュール(REM)、ガバナンスルール、AIによる妥協やサブバージョンに対するエンドツーエンドの保護を提供する、統制可能なセキュアなスーパープラットフォーム(GSSP)で構成されている。
論文参考訳（メタデータ） (2025-08-28T04:22:59Z)
AI Safety vs. AI Security: Demystifying the Distinction and Boundaries [37.57137473409321]
しばしば「AI安全」と「AI安全」が使われ、時には相互に使用され、概念的に混乱する。本稿では,AIセーフティとAIセキュリティの正確な研究境界の明確化と記述を目的とした。
論文参考訳（メタデータ） (2025-06-21T18:36:03Z)
Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [41.64346961394884]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。 CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文参考訳（メタデータ） (2025-05-20T16:40:09Z)
Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文参考訳（メタデータ） (2025-04-11T15:41:21Z)
An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文参考訳（メタデータ） (2025-04-02T15:59:31Z)
Media and responsible AI governance: a game-theoretic and LLM analysis [61.132523071109354]
本稿では,信頼できるAIシステムを育成する上での,AI開発者,規制当局,ユーザ,メディア間の相互作用について検討する。進化的ゲーム理論と大言語モデル(LLM)を用いて、異なる規制体制下でこれらのアクター間の戦略的相互作用をモデル化する。
論文参考訳（メタデータ） (2025-03-12T21:39:38Z)
The BIG Argument for AI Safety Cases [4.0675753909100445]
BIGの議論は、さまざまな能力、自律性、臨界性を持つAIシステムの安全ケースを構築するためのシステム全体のアプローチを採用する。安全性と、プライバシーや株式といった他の重要な倫理的問題に対処することでバランスがとれる。安全保証の社会的、倫理的、技術的側面を、追跡可能で説明可能な方法でまとめることによって統合される。
論文参考訳（メタデータ） (2025-03-12T11:33:28Z)
Position: A taxonomy for reporting and describing AI security incidents [57.98317583163334]
AIシステムのセキュリティインシデントを記述し報告するためには、具体的が必要である、と我々は主張する。非AIセキュリティまたは汎用AI安全インシデントレポートの既存のフレームワークは、AIセキュリティの特定の特性をキャプチャするには不十分である。
論文参考訳（メタデータ） (2024-12-19T13:50:26Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
Auction-Based Regulation for Artificial Intelligence [28.86995747151915]
規制当局は、AIの展開が壊れた後に残された安全、偏見、法的な破片をゆっくりと拾い上げている。本稿では,デバイスに適合したモデルをデプロイする動機付けを確実に行う,オークションベースの規制機構を提案する。規制入札は,基準規制機構と比較して,コンプライアンス率を20%,参加率を15%向上させることを示す。
論文参考訳（メタデータ） (2024-10-02T17:57:02Z)
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文参考訳（メタデータ） (2024-07-31T17:59:24Z)
From Principles to Rules: A Regulatory Approach for Frontier AI [2.1764247401772705]
レギュレータは、フロンティアAI開発者に安全対策を適用するよう要求する。要件は、ハイレベルな原則や特定のルールとして定式化できる。これらの規制アプローチは「原則ベース」および「ルールベース」規制と呼ばれ、補完的な強みと弱みを持っている。
論文参考訳（メタデータ） (2024-07-10T01:45:15Z)
Human Oversight of Artificial Intelligence and Technical Standardisation [0.0]
AIのグローバルガバナンスの中で、人間の監視の要件は、いくつかの規制形式に具体化されている。そのため、欧州連合(EU)の立法府は、人間の監督に対する法的要件を「取り除く」ために、過去よりもはるかに進んでいる。 AI意思決定プロセスにおける人間の位置に関する疑問は、特に注目されるべきである。
論文参考訳（メタデータ） (2024-07-02T07:43:46Z)
AI Risk Management Should Incorporate Both Safety and Security [185.68738503122114]
AIリスクマネジメントの利害関係者は、安全とセキュリティの間のニュアンス、シナジー、相互作用を意識すべきである、と私たちは主張する。我々は、AIの安全性とAIのセキュリティの違いと相互作用を明らかにするために、統一された参照フレームワークを導入する。
論文参考訳（メタデータ） (2024-05-29T21:00:47Z)
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文参考訳（メタデータ） (2024-05-10T17:38:32Z)
The risks of risk-based AI regulation: taking liability seriously [46.90451304069951]
AIの開発と規制は、重要な段階に達したようだ。一部の専門家は、GPT-4よりも強力なAIシステムのトレーニングに関するモラトリアムを求めている。本稿では、最も先進的な法的提案である欧州連合のAI法について分析する。
論文参考訳（メタデータ） (2023-11-03T12:51:37Z)
Bridging the Global Divide in AI Regulation: A Proposal for a Contextual, Coherent, and Commensurable Framework [0.9622882291833615]
本稿では、人工知能(AI)を制御するための文脈的・一貫性的・包括的枠組み(3C)を提案する。コンテキスト性を確保するため、このフレームワークはAIライフサイクルを、基礎や汎用モデルを定義するのではなく、特定のタスクの学習とデプロイという2つのフェーズに分岐させる。コンメンサビリティを確保するため、この枠組みはリスクの測定と緩和のための国際標準の採用を促進する。
論文参考訳（メタデータ） (2023-03-20T15:23:40Z)
Regulating ChatGPT and other Large Generative AI Models [0.0]
大規模な生成AIモデル(LGAIM)は、私たちのコミュニケーション、図示、作成の方法に急速に変化しています。本稿では、信頼に値するAI規制に関する現在の議論の中で、これらの新しい生成モデルについて検討する。 LGAIM設定でAIバリューチェーンをキャプチャする新しい用語が提案されている。
論文参考訳（メタデータ） (2023-02-05T08:56:45Z)
Assurance Cases as Foundation Stone for Auditing AI-enabled and Autonomous Systems: Workshop Results and Political Recommendations for Action from the ExamAI Project [2.741266294612776]
ソフトウェア欠陥に対する安全基準の実施方法について検討する。機能安全基準は、安全統合レベル(SIL)を使用して、どの安全対策を実施するかを定義する。本稿では,個別に選択された,適用された措置が十分であると主張するための保証事例の利用を提案する。
論文参考訳（メタデータ） (2022-08-17T10:05:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。