論文の概要: What do model reports say about their ChemBio benchmark evaluations? Comparing recent releases to the STREAM framework
- arxiv url: http://arxiv.org/abs/2510.20927v2
- Date: Tue, 28 Oct 2025 17:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.866202
- Title: What do model reports say about their ChemBio benchmark evaluations? Comparing recent releases to the STREAM framework
- Title(参考訳): ChemBioベンチマークの評価についてモデルレポートは何を言っているか?最近のリリースとSTREAMフレームワークを比較して
- Authors: Tom Reed, Tegan McCaslin, Luca Righetti,
- Abstract要約: ほとんどのフロンティアAI開発者は、新しいAIモデルの安全性評価をモデルレポートに公開している。
しかし、現在、開発者はレポートに -- あるいは省略 -- 評価方法論のどの側面を含んでいますか?
本稿では、2025年春に発表された3つのフロンティアAIモデルレポートについて、最も詳細なドキュメンテーションについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most frontier AI developers publicly document their safety evaluations of new AI models in model reports, including testing for chemical and biological (ChemBio) misuse risks. This practice provides a window into the methodology of these evaluations, helping to build public trust in AI systems, and enabling third party review in the still-emerging science of AI evaluation. But what aspects of evaluation methodology do developers currently include -- or omit -- in their reports? This paper examines three frontier AI model reports published in spring 2025 with among the most detailed documentation: OpenAI's o3, Anthropic's Claude 4, and Google DeepMind's Gemini 2.5 Pro. We compare these using the STREAM (v1) standard for reporting ChemBio benchmark evaluations. Each model report included some useful details that the others did not, and all model reports were found to have areas for development, suggesting that developers could benefit from adopting one another's best reporting practices. We identified several items where reporting was less well-developed across all model reports, such as providing examples of test material, and including a detailed list of elicitation conditions. Overall, we recommend that AI developers continue to strengthen the emerging science of evaluation by working towards greater transparency in areas where reporting currently remains limited.
- Abstract(参考訳): ほとんどのフロンティアAI開発者は、化学物質および生物学的(ChemBio)誤用リスクのテストを含む、新しいAIモデルの安全性評価をモデルレポートに公開している。
このプラクティスは、これらの評価の方法論の窓口を提供し、AIシステムへの公的な信頼の構築を支援し、まだ進化しているAI評価の科学におけるサードパーティのレビューを可能にする。
しかし、現在、開発者はレポートに -- あるいは省略 -- 評価方法論のどの側面を含んでいますか?
この記事では、2025年春に公開された3つのフロンティアAIモデルレポートについて、最も詳細なドキュメントとして、OpenAIのo3、AnthropicのClaude 4、Google DeepMindのGemini 2.5 Proについて検討する。
我々はこれらを,ChemBioベンチマーク評価を報告するためのSTREAM(v1)標準を用いて比較する。
それぞれのモデルレポートには、他のモデルが持っていないいくつかの有用な詳細が含まれており、すべてのモデルレポートには、開発のための領域があることが分かっており、開発者が互いの最高のレポートプラクティスを採用することで利益を得ることができることを示唆している。
本報告では, 試験資料の例, 実施状況の詳細なリストなど, 全モデル報告において報告が不十分な項目がいくつか確認された。
全体としては、現在報告が限られている領域での透明性向上を目指して、AI開発者が評価の新興科学を強化し続けることを推奨します。
関連論文リスト
- CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - STREAM (ChemBio): A Standard for Transparently Reporting Evaluations in AI Model Reports [5.223748947102951]
STREAM(A Standard for Transparently Reporting Evaluations in AI Model Reports)は、モデルレポートが評価結果を明らかにする方法を改善する標準である。
政府、市民社会、アカデミア、フロンティアAI企業の23人の専門家と協議して開発された。
論文 参考訳(メタデータ) (2025-08-13T14:36:36Z) - SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks [87.29946641069068]
我々は,学術文献タスクの基礎モデルを評価するための,オープンで協調的なプラットフォームであるSciArenaを紹介する。
集合的知性を活用することで、SciArenaはコミュニティ主導の、オープンな科学的タスクにおけるモデルパフォーマンスの評価を提供する。
収集した嗜好データに基づいたメタ評価ベンチマークであるSciArena-Evalをリリースする。
論文 参考訳(メタデータ) (2025-07-01T17:51:59Z) - Documenting Ethical Considerations in Open Source AI Models [8.517777178514242]
本研究では,開発者がオープンソースAIモデルの倫理的側面を実際にどのように文書化しているかを検討する。
2,347の文書の最初の集合をフィルタリングした後、265の関連文書を特定した。
モデル行動リスク、モデルユースケース、モデルリスク軽減の6つのテーマが浮かび上がっています。
論文 参考訳(メタデータ) (2024-06-26T05:02:44Z) - Recommending Bug Assignment Approaches for Individual Bug Reports: An
Empirical Investigation [8.186068333538893]
バグレポートに対処できる潜在的な開発者を自動的に推薦する複数のアプローチが提案されている。
これらのアプローチは一般的に、あらゆるソフトウェアプロジェクトに提出されたバグレポートに対して機能するように設計されています。
2つのオープンソースシステムから2,249件のバグレポートに適用した3つのバグ割り当て手法を用いて,この推測を検証する実験的検討を行った。
論文 参考訳(メタデータ) (2023-05-29T23:02:56Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - A Methodology for Creating AI FactSheets [67.65802440158753]
本稿では、FactSheetsと呼ぶAIドキュメントの形式を作るための方法論について述べる。
方法論の各ステップの中で、検討すべき問題と探求すべき質問について説明する。
この方法論は、透明なAIドキュメントの採用を加速する。
論文 参考訳(メタデータ) (2020-06-24T15:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。