論文の概要: Risk Reporting for Developers' Internal AI Model Use
- arxiv url: http://arxiv.org/abs/2604.24966v1
- Date: Mon, 27 Apr 2026 20:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.583759
- Title: Risk Reporting for Developers' Internal AI Model Use
- Title(参考訳): 開発者の内部AIモデル使用に対するリスクレポート
- Authors: Oscar Delaney, Sambhav Maheshwari, Joe O'Brien, Theo Bearman, Oliver Guest,
- Abstract要約: このガイドは、企業が内部使用リスクレポートを作成するための調和した標準を提供する。
主に、フロンティアAI開発者の評価チームと安全チームを対象としている。
私たちは、自律的なAIの誤動作とインサイダーの脅威という2つの脅威ベクタを中心に、レポートフレームワークを構築しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier AI companies first deploy their most advanced models internally, for weeks or months of safety testing, evaluation, and iteration, before a possible public release. For example, Anthropic recently developed a new class of model with advanced cyberoffense-relevant capabilities, Mythos Preview, which was available internally for at least six weeks before it was publicly announced. This internal use creates risks that external deployment frameworks may fail to address. Legal frameworks, notably California's Transparency in Frontier Artificial Intelligence Act (SB 53), New York's Responsible AI Safety And Education (RAISE) Act, and the EU's General-Purpose AI Code of Practice, all discuss risks from internal AI use. They require frontier developers to make and implement plans for how to manage risks from internal use, and to produce internal use risk reports describing their safeguards and any residual risks. This guide provides a harmonized standard for companies to produce internal use risk reports suitable for all three regulatory frameworks. It is addressed primarily to evaluation and safety teams at frontier AI developers, and secondarily to regulators and auditors seeking to understand what good reporting looks like. Given the pace of AI R&D automation and the limited external visibility into how companies use their most capable models internally, regular and detailed risk reporting may be one of the few mechanisms available to ensure that the risks from internal AI use are identified and managed before they materialize. Whenever a substantially more capable or riskier model is deployed internally, the developer should create a risk report and argue why the model is safe to deploy. We structure the reporting framework around two threat vectors -- autonomous AI misbehavior and insider threats -- and three risk factors for each: means, motive, and opportunity.
- Abstract(参考訳): フロンティアAI企業は、まず最も高度なモデルを社内に展開し、数週間から数ヶ月間の安全テスト、評価、イテレーションを公開リリース前に実施する。
たとえば、Anthhropicは最近、高度なサイバー防犯関連機能を備えた新しいタイプのモデル、Mythos Previewを開発した。
この内部利用は、外部デプロイメントフレームワークが対処できないリスクを生み出す。
カリフォルニア州の最先端人工知能法(SB 53)、ニューヨーク州の責任AI安全教育法(RAISE)、EUの汎用AI規約(General-Purpose AI Code of Practice)など、法律フレームワークはすべて、内部AIの使用によるリスクについて議論している。
彼らは、フロンティア開発者に対して、内部使用からリスクを管理するための計画を策定し、実装すること、そして、彼らの安全と残余なリスクを記述した内部使用リスクレポートを作成することを要求する。
このガイドは、企業が3つの規制フレームワークすべてに適した内部使用リスクレポートを作成するための調和した標準を提供する。
これは主に、フロンティアAI開発者の評価チームと安全チーム、そして第2に、優れたレポートがどのようなものかを理解しようとする規制当局と監査者を対象としている。
AIの研究開発自動化のペースと、企業が最も有能なモデルを社内で使用する方法に関する限られた外部視認性を考えると、社内で使用するAI使用によるリスクが具体化する前に特定され管理されることを保証するための数少ないメカニズムの1つとして、定期的で詳細なリスクレポートがある。
より有能なモデルやよりリスクの高いモデルが社内にデプロイされる場合、開発者はリスクレポートを作成して、モデルがデプロイする上で安全な理由を議論する必要がある。
報告フレームワークは、自律的なAIの誤動作とインサイダーの脅威という2つの脅威ベクトルと、手段、動機、機会の3つのリスクファクタで構成されています。
関連論文リスト
- What Should Frontier AI Developers Disclose About Internal Deployments? [0.6113106953880909]
開発者は、内部にデプロイされたモデルが安全であるという証拠を提供する必要がある。
企業が4つのカテゴリにまたがって社内に展開するモデルについて開示すべき重要な情報を特定します。
私たちのフレームワークは、開発者がモデルシステムカードのような公開透明性文書と、新たなフロンティアAI規制の下で必要とされるプライベート定期的なレポートの両方を通知するために使用することができる。
論文 参考訳(メタデータ) (2026-04-24T23:28:38Z) - Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 [61.787178868669265]
この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。
この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
論文 参考訳(メタデータ) (2026-02-16T04:30:06Z) - International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management [115.92752850425272]
2025年の国際AI安全レポートの第2の更新は、この1年で汎用AIリスク管理の新しい展開を評価している。
研究者、公共機関、AI開発者が汎用AIのリスク管理にどのようにアプローチしているかを調べる。
論文 参考訳(メタデータ) (2025-11-25T03:12:56Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。
この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文 参考訳(メタデータ) (2024-05-14T13:37:36Z) - Frontier AI Regulation: Managing Emerging Risks to Public Safety [15.85618115026625]
脆弱なAI」モデルは、公共の安全に深刻なリスクをもたらすのに十分な危険能力を持つ可能性がある。
業界の自己規制は重要な第一歩です。
安全基準の最初のセットを提案する。
論文 参考訳(メタデータ) (2023-07-06T17:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。