論文の概要: Position: Require Frontier AI Labs To Release Small "Analog" Models
- arxiv url: http://arxiv.org/abs/2510.14053v1
- Date: Wed, 15 Oct 2025 19:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.599592
- Title: Position: Require Frontier AI Labs To Release Small "Analog" Models
- Title(参考訳): ポジション:フロンティアAI研究所が小さな「アナログ」モデルをリリース
- Authors: Shriyash Upadhyay, Chaithanya Bandi, Narmeen Oozeer, Philip Quirke,
- Abstract要約: 我々は、イノベーションを積極的に推進しながらAIの安全性を保証する代替規制アプローチを議論する。
大規模なAI研究所は、オープンアクセス可能な小さなアナログモデル(スケールダウン版)を公開し、最大のプロプライエタリモデルと同じような訓練を受け、蒸留する。
- 参考スコア(独自算出の注目度): 2.4847319469475626
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent proposals for regulating frontier AI models have sparked concerns about the cost of safety regulation, and most such regulations have been shelved due to the safety-innovation tradeoff. This paper argues for an alternative regulatory approach that ensures AI safety while actively promoting innovation: mandating that large AI laboratories release small, openly accessible analog models (scaled-down versions) trained similarly to and distilled from their largest proprietary models. Analog models serve as public proxies, allowing broad participation in safety verification, interpretability research, and algorithmic transparency without forcing labs to disclose their full-scale models. Recent research demonstrates that safety and interpretability methods developed using these smaller models generalize effectively to frontier-scale systems. By enabling the wider research community to directly investigate and innovate upon accessible analogs, our policy substantially reduces the regulatory burden and accelerates safety advancements. This mandate promises minimal additional costs, leveraging reusable resources like data and infrastructure, while significantly contributing to the public good. Our hope is not only that this policy be adopted, but that it illustrates a broader principle supporting fundamental research in machine learning: deeper understanding of models relaxes the safety-innovation tradeoff and lets us have more of both.
- Abstract(参考訳): 近年、フロンティアAIモデルを規制する提案は、安全規制のコストに関する懸念を引き起こしており、そのような規制のほとんどは、安全性と革新のトレードオフのために棚上げされている。
本稿では、AIの安全性を確保しつつ、イノベーションを積極的に推進する代替規制アプローチを提案する。大規模なAI研究所は、最大のプロプライエタリモデルと同じような訓練を受けた、オープンにアクセス可能なアナログモデル(スケールダウンバージョン)を、小規模でリリースすることを強制する。
アナログモデルはパブリックプロキシとして機能し、安全検証、解釈可能性の研究、アルゴリズムの透明性への幅広い参加を可能にする。
近年の研究では、これらの小さなモデルを用いて開発された安全性と解釈可能性の手法が、フロンティアスケールシステムに効果的に一般化されることが示されている。
より広範な研究コミュニティがアクセス可能なアナログを直接調査・革新できるようにすることで、規制負担を大幅に削減し、安全性の向上を加速する。
この委任状は、データやインフラストラクチャといった再利用可能なリソースを活用しながら、公共の利益に大きく貢献する、最小限の追加コストを約束する。
私たちの望みは、このポリシーが採用されるだけでなく、機械学習の基本的な研究を支えるより広範な原則が示されることです。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Mitigating Cyber Risk in the Age of Open-Weight LLMs: Policy Gaps and Technical Realities [0.0]
オープンウェイト汎用AI(GPAI)モデルには大きなメリットがあるが、重大なサイバーセキュリティリスクも伴う。
本稿では、オープンウェイトAIリリースによって拡大した、マルウェア開発とソーシャルエンジニアリングの強化を含む、特定の脅威を分析する。
本稿では,モデル全体ではなく,特定のハイリスク機能の評価と制御に重点を置く経路を提案する。
論文 参考訳(メタデータ) (2025-05-21T11:35:52Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety [296.5392512998251]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Beyond Benchmarks: On The False Promise of AI Regulation [13.125853211532196]
有効な科学的規制は、観測可能なテスト結果と将来のパフォーマンスを結びつける因果理論を必要とすることを示す。
本研究では,学習データから複雑な統計的パターンを明示的な因果関係なく学習する深層学習モデルにおいて,そのような保証を妨げていることを示す。
論文 参考訳(メタデータ) (2025-01-26T22:43:07Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Auction-Based Regulation for Artificial Intelligence [28.86995747151915]
規制当局は、AIの展開が壊れた後に残された安全、偏見、法的な破片をゆっくりと拾い上げている。
本稿では,デバイスに適合したモデルをデプロイする動機付けを確実に行う,オークションベースの規制機構を提案する。
規制入札は,基準規制機構と比較して,コンプライアンス率を20%,参加率を15%向上させることを示す。
論文 参考訳(メタデータ) (2024-10-02T17:57:02Z) - PRISM: A Design Framework for Open-Source Foundation Model Safety [0.0]
本稿では,オープンファンデーションモデル開発者がモデル安全性にどのようにアプローチすべきか,という課題に対処する。
オープンソースファウンデーションモデル安全のための設計フレームワークであるPRISMを導入し、プライベート、ロバスト、インディペンデント安全対策を強調した。
PRISMは、個人や社会全体のリスクを最小限に抑えつつ、これらの強力な技術のポテンシャルを最大化する、より安全なオープンソースエコシステムを作ることを目指している。
論文 参考訳(メタデータ) (2024-06-14T21:26:15Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Frontier AI Regulation: Managing Emerging Risks to Public Safety [15.85618115026625]
脆弱なAI」モデルは、公共の安全に深刻なリスクをもたらすのに十分な危険能力を持つ可能性がある。
業界の自己規制は重要な第一歩です。
安全基準の最初のセットを提案する。
論文 参考訳(メタデータ) (2023-07-06T17:03:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Regulatory Markets for AI Safety [1.1268254714512649]
我々は,AIの安全性を達成するための新たな規制モデル,グローバルな規制市場を提案する。
まず、一般的な用語でモデルをスケッチし、このアプローチのコストとメリットの概要を提供します。
そして、商用ドローンで使用されるAIモデルに対する敵の攻撃のリスクに対応するモデルが実際にどのように機能するかを実証する。
論文 参考訳(メタデータ) (2019-12-11T19:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。