論文の概要: Biothreat Benchmark Generation Framework for Evaluating Frontier AI Models II: Benchmark Generation Process
- arxiv url: http://arxiv.org/abs/2512.08451v1
- Date: Tue, 09 Dec 2025 10:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.917387
- Title: Biothreat Benchmark Generation Framework for Evaluating Frontier AI Models II: Benchmark Generation Process
- Title(参考訳): バイオスリートベンチマーク生成フレームワークによるフロンティアAIモデルの評価II:ベンチマーク生成プロセス
- Authors: Gary Ackerman, Zachary Kallenborn, Anna Wetzel, Hayley Peterson, Jenna LaTourette, Olivia Shoemaker, Brandon Behlendorf, Sheriff Almakki, Doug Clifford, Noah Sheinbaum,
- Abstract要約: 本稿では,新しいバイオスリートベンチマーク生成フレームワークの第二の構成要素として,細菌バイオスリートベンチマークデータセットの生成について述べる。
1) Webベースのプロンプト生成,2) レッドチーム化,3) 既存のベンチマークコーパスをマイニングする。
重複解消のプロセスとそれに続くアップリフト診断の評価、一般的な品質管理対策により、候補を1010の最終的なベンチマークに減らした。
- 参考スコア(独自算出の注目度): 0.38186458149494623
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The potential for rapidly-evolving frontier artificial intelligence (AI) models, especially large language models (LLMs), to facilitate bioterrorism or access to biological weapons has generated significant policy, academic, and public concern. Both model developers and policymakers seek to quantify and mitigate any risk, with an important element of such efforts being the development of model benchmarks that can assess the biosecurity risk posed by a particular model. This paper, the second in a series of three, describes the second component of a novel Biothreat Benchmark Generation (BBG) framework: the generation of the Bacterial Biothreat Benchmark (B3) dataset. The development process involved three complementary approaches: 1) web-based prompt generation, 2) red teaming, and 3) mining existing benchmark corpora, to generate over 7,000 potential benchmarks linked to the Task-Query Architecture that was developed during the first component of the project. A process of de-duplication, followed by an assessment of uplift diagnosticity, and general quality control measures, reduced the candidates to a set of 1,010 final benchmarks. This procedure ensured that these benchmarks are a) diagnostic in terms of providing uplift; b) directly relevant to biosecurity threats; and c) are aligned with a larger biosecurity architecture permitting nuanced analysis at different levels of analysis.
- Abstract(参考訳): 生物テロや生物兵器へのアクセスを促進するために急速に発展するフロンティア人工知能(AI)モデル、特に大きな言語モデル(LLM)の可能性は、重要な政策、学術的、公衆の懸念を引き起こしている。
モデル開発者と政策立案者の両方がリスクの定量化と緩和を試みており、そのような取り組みの重要な要素は、特定のモデルによって引き起こされるバイオセキュリティリスクを評価するためのモデルベンチマークの開発である。
本報告では, 新規なバイオスリートベンチマーク生成(BBG)フレームワークの2番目の構成要素として, 細菌性バイオスリートベンチマーク(B3)データセットの生成について述べる。
開発プロセスには3つの補完的アプローチがあった。
1)ウェブベースのプロンプト生成
2)レッドチーム、そして
3) 既存のベンチマークコーパスをマイニングし、プロジェクトの最初のコンポーネントで開発されたタスククエリアーキテクチャに関連する7,000以上の潜在的なベンチマークを生成する。
重複解消のプロセスとそれに続くアップリフト診断の評価、一般的な品質管理対策により、候補を1010の最終的なベンチマークに減らした。
この手順はこれらのベンチマークを確実にする
a) 隆起の提供に関する診断
b) バイオセキュリティの脅威に直接関係していること,及び
c) 異なるレベルの分析でニュアンス分析を可能にする、より大きなバイオセキュリティアーキテクチャと整合している。
関連論文リスト
- Biothreat Benchmark Generation Framework for Evaluating Frontier AI Models III: Implementing the Bacterial Biothreat Benchmark (B3) Dataset [0.38186458149494623]
本稿では,細菌バイオスリートベンチマーク(B3)データセットの試験的実装について論じる。
これは、Biothreat Benchmark Generation (BBG)フレームワーク全体を記述する3つの論文の3つ目である。
全体として、パイロットは、LLMによって引き起こされるバイオセキュリティリスクを迅速に評価するために、B3データセットが実行可能でニュアンスな方法を提供することを示した。
論文 参考訳(メタデータ) (2025-12-09T10:31:02Z) - Biothreat Benchmark Generation Framework for Evaluating Frontier AI Models I: The Task-Query Architecture [0.38186458149494623]
本稿では,Biothreat Benchmark Generation (BBG)フレームワークの最初のコンポーネントについて述べる。
BBGアプローチは、既存のAIモデルと将来のAIモデルのバイオセキュリティリスク上昇と一般的な害ポテンシャルを、モデル開発者と評価者が確実に測定し評価するのに役立つように設計されている。
パイロットとして、BBGは細菌の生物学的脅威にのみ対処するために開発された。
論文 参考訳(メタデータ) (2025-12-09T00:16:44Z) - Benchmarking and Evaluation of AI Models in Biology: Outcomes and Recommendations from the CZI Virtual Cells Workshop [18.00029758641004]
我々は、AI駆動の仮想細胞のための堅牢なベンチマークの開発を加速することを目指している。
これらのベンチマークは、厳格さ、関連性、生物学的関連性を保証するために不可欠である。
これらのベンチマークは、新たな発見、治療的洞察、細胞系のより深い理解を促進する統合モデルに向けて、分野を前進させるだろう。
論文 参考訳(メタデータ) (2025-07-14T17:25:28Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - LLMs Outperform Experts on Challenging Biology Benchmarks [0.0]
本研究は8つの生物学ベンチマークで27のフロンティア大言語モデルを体系的に評価する。
トップモデルのパフォーマンスは、Virology Capabilities Testの挑戦的なテキストのみのサブセットで4倍以上に向上した。
いくつかのモデルは、他の挑戦的なベンチマークで専門家レベルのパフォーマンスに適合または超えている。
論文 参考訳(メタデータ) (2025-05-09T15:05:57Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。