論文の概要: STREAM (ChemBio): A Standard for Transparently Reporting Evaluations in AI Model Reports
- arxiv url: http://arxiv.org/abs/2508.09853v1
- Date: Wed, 13 Aug 2025 14:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.933375
- Title: STREAM (ChemBio): A Standard for Transparently Reporting Evaluations in AI Model Reports
- Title(参考訳): STREAM(ChemBio):AIモデルレポートにおける評価を透過的に報告するための標準
- Authors: Tegan McCaslin, Jide Alaga, Samira Nedungadi, Seth Donoughe, Tom Reed, Rishi Bommasani, Chris Painter, Luca Righetti,
- Abstract要約: STREAM(A Standard for Transparently Reporting Evaluations in AI Model Reports)は、モデルレポートが評価結果を明らかにする方法を改善する標準である。
政府、市民社会、アカデミア、フロンティアAI企業の23人の専門家と協議して開発された。
- 参考スコア(独自算出の注目度): 8.12724938861167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluations of dangerous AI capabilities are important for managing catastrophic risks. Public transparency into these evaluations - including what they test, how they are conducted, and how their results inform decisions - is crucial for building trust in AI development. We propose STREAM (A Standard for Transparently Reporting Evaluations in AI Model Reports), a standard to improve how model reports disclose evaluation results, initially focusing on chemical and biological (ChemBio) benchmarks. Developed in consultation with 23 experts across government, civil society, academia, and frontier AI companies, this standard is designed to (1) be a practical resource to help AI developers present evaluation results more clearly, and (2) help third parties identify whether model reports provide sufficient detail to assess the rigor of the ChemBio evaluations. We concretely demonstrate our proposed best practices with "gold standard" examples, and also provide a three-page reporting template to enable AI developers to implement our recommendations more easily.
- Abstract(参考訳): 破滅的なリスクを管理するには、危険なAI能力の評価が重要である。
これらの評価(テスト内容、実施方法、結果の意思決定方法など)に対する公衆の透明性は、AI開発への信頼を構築する上で不可欠である。
我々は,まず化学・生物(ケミビオ)ベンチマークに着目し,モデルレポートが評価結果を明らかにする方法を改善するための標準STREAM(A Standard for Transparently Reporting Evaluations in AI Model Reports)を提案する。
政府,市民社会,アカデミック,フロンティアAI企業の23人の専門家との協議により開発されたこの基準は,(1)AI開発者が評価結果をより明確に提示するための実践的資源であり,(2)モデルレポートがChemBio評価の厳密さを評価するのに十分な詳細を提供するかどうかを第三者が判断するのに役立つように設計されている。
私たちは、提案されたベストプラクティスを"ゴールドスタンダード"の例で具体的に実証するとともに、3ページのレポートテンプレートを提供して、AI開発者がより簡単に私たちのレコメンデーションを実装することができます。
関連論文リスト
- Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - Insights Informed Generative AI for Design: Incorporating Real-world Data for Text-to-Image Output [51.88841610098437]
本稿では,DALL-E 3を材料データセットと統合して,サステナビリティ指標と材料利用の洞察を備えたAI設計を充実させるパイプラインを提案する。
我々は,(1) 生成AIによるプロンプトプロセスに先立ってユーザに対してサステナビリティの言及がなく,(2) プロンプト前にユーザと通信するサステナビリティの目標,(3) 生成AI出力に含まれる量的CO2eデータとともに通信するサステナビリティの目標である,という3つのユーザテストを通じてシステムを評価する。
論文 参考訳(メタデータ) (2025-06-17T22:33:11Z) - AI Companies Should Report Pre- and Post-Mitigation Safety Evaluations [5.984437476321095]
フロンティアAI企業は、事前および後安全評価の両方を報告すべきである。
両段階におけるモデルの評価は、政策立案者に、配備、アクセス、安全基準を規制するための重要な証拠を提供する。
論文 参考訳(メタデータ) (2025-03-17T17:56:43Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Who Should Run Advanced AI Evaluations -- AISIs? [0.5573180584719433]
安全研究所と政府は、先進的なAIを自ら評価するか、プライベートな評価エコシステムをサポートするか、両方を行うかを決めている。
評価は、テクノロジのリスクを理解し、管理するために必要なガバナンスツールです。
本稿は,先進的AIのどの部分を評価するべきか(i),そして(ii)先進的AIを効果的に評価するために公共機関がどの程度の能力を持つ必要があるかを知るための9つの体制から導かれる。
論文 参考訳(メタデータ) (2024-07-30T14:25:08Z) - Co-designing an AI Impact Assessment Report Template with AI Practitioners and AI Compliance Experts [2.9532099650028076]
我々は,EU AI Act, NIST's AI Risk Management Framework, ISO 42001 AI Management Systemに根ざしたインパクトアセスメントレポートのテンプレートを提案する。
同一企業の8人のAI実践者と業界と学界の5人のAIコンプライアンス専門家によるユーザスタディによると、私たちのテンプレートは、インパクトアセスメントに必要な情報を効果的に提供しています。
論文 参考訳(メタデータ) (2024-07-24T15:53:04Z) - On the meaning of uncertainty for ethical AI: philosophy and practice [10.591284030838146]
これは、数学的推論に倫理的考察をもたらす重要な方法であると主張する。
我々は、2021年12月のOmicron型COVID-19の拡散について、英国政府に助言するために使用される競合モデルの文脈内でこれらのアイデアを実証する。
論文 参考訳(メタデータ) (2023-09-11T15:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。