論文の概要: Biothreat Benchmark Generation Framework for Evaluating Frontier AI Models I: The Task-Query Architecture
- arxiv url: http://arxiv.org/abs/2512.08130v1
- Date: Tue, 09 Dec 2025 00:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.764698
- Title: Biothreat Benchmark Generation Framework for Evaluating Frontier AI Models I: The Task-Query Architecture
- Title(参考訳): 最先端AIモデル評価のためのバイオスリートベンチマーク生成フレームワークI:タスククエリアーキテクチャ
- Authors: Gary Ackerman, Brandon Behlendorf, Zachary Kallenborn, Sheriff Almakki, Doug Clifford, Jenna LaTourette, Hayley Peterson, Noah Sheinbaum, Olivia Shoemaker, Anna Wetzel,
- Abstract要約: 本稿では,Biothreat Benchmark Generation (BBG)フレームワークの最初のコンポーネントについて述べる。
BBGアプローチは、既存のAIモデルと将来のAIモデルのバイオセキュリティリスク上昇と一般的な害ポテンシャルを、モデル開発者と評価者が確実に測定し評価するのに役立つように設計されている。
パイロットとして、BBGは細菌の生物学的脅威にのみ対処するために開発された。
- 参考スコア(独自算出の注目度): 0.38186458149494623
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Both model developers and policymakers seek to quantify and mitigate the risk of rapidly-evolving frontier artificial intelligence (AI) models, especially large language models (LLMs), to facilitate bioterrorism or access to biological weapons. An important element of such efforts is the development of model benchmarks that can assess the biosecurity risk posed by a particular model. This paper describes the first component of a novel Biothreat Benchmark Generation (BBG) Framework. The BBG approach is designed to help model developers and evaluators reliably measure and assess the biosecurity risk uplift and general harm potential of existing and future AI models, while accounting for key aspects of the threat itself that are often overlooked in other benchmarking efforts, including different actor capability levels, and operational (in addition to purely technical) risk factors. As a pilot, the BBG is first being developed to address bacterial biological threats only. The BBG is built upon a hierarchical structure of biothreat categories, elements and tasks, which then serves as the basis for the development of task-aligned queries. This paper outlines the development of this biothreat task-query architecture, which we have named the Bacterial Biothreat Schema, while future papers will describe follow-on efforts to turn queries into model prompts, as well as how the resulting benchmarks can be implemented for model evaluation. Overall, the BBG Framework, including the Bacterial Biothreat Schema, seeks to offer a robust, re-usable structure for evaluating bacterial biological risks arising from LLMs across multiple levels of aggregation, which captures the full scope of technical and operational requirements for biological adversaries, and which accounts for a wide spectrum of biological adversary capabilities.
- Abstract(参考訳): モデル開発者と政策立案者の両方が、バイオテロリズムや生物兵器へのアクセスを促進するために、急速に進化するフロンティア人工知能(AI)モデル、特に大きな言語モデル(LLM)のリスクを定量化し、緩和しようとしている。
このような取り組みの重要な要素は、特定のモデルによって引き起こされるバイオセキュリティリスクを評価することができるモデルベンチマークの開発である。
本稿では,Biothreat Benchmark Generation (BBG)フレームワークの最初のコンポーネントについて述べる。
BBGアプローチは、モデル開発者や評価者が、既存のAIモデルと将来のAIモデルのバイオセキュリティリスク上昇と一般的な害リスクを確実に測定し、評価するのに役立つように設計されている。
パイロットとして、BBGは細菌の生物学的脅威にのみ対処するために開発された。
BBGは、バイオスリートカテゴリ、要素、タスクの階層構造の上に構築され、タスク整列クエリの開発の基礎となる。
本稿では,このバイオスリートタスククエリーアーキテクチャの開発について概説するが,今後の論文では,クエリーをモデルプロンプトに変換するための後続の取り組みと,結果のベンチマークをモデル評価のためにどのように実装するかについて述べる。
全体として、BBGフレームワークは、細菌のバイオスリートスキーマを含む、様々なレベルのアグリゲーションを通じてLSMから生じる細菌の生物学的リスクを評価するための堅牢で再利用可能な構造を提供しようとしている。
関連論文リスト
- Biothreat Benchmark Generation Framework for Evaluating Frontier AI Models III: Implementing the Bacterial Biothreat Benchmark (B3) Dataset [0.38186458149494623]
本稿では,細菌バイオスリートベンチマーク(B3)データセットの試験的実装について論じる。
これは、Biothreat Benchmark Generation (BBG)フレームワーク全体を記述する3つの論文の3つ目である。
全体として、パイロットは、LLMによって引き起こされるバイオセキュリティリスクを迅速に評価するために、B3データセットが実行可能でニュアンスな方法を提供することを示した。
論文 参考訳(メタデータ) (2025-12-09T10:31:02Z) - Biothreat Benchmark Generation Framework for Evaluating Frontier AI Models II: Benchmark Generation Process [0.38186458149494623]
本稿では,新しいバイオスリートベンチマーク生成フレームワークの第二の構成要素として,細菌バイオスリートベンチマークデータセットの生成について述べる。
1) Webベースのプロンプト生成,2) レッドチーム化,3) 既存のベンチマークコーパスをマイニングする。
重複解消のプロセスとそれに続くアップリフト診断の評価、一般的な品質管理対策により、候補を1010の最終的なベンチマークに減らした。
論文 参考訳(メタデータ) (2025-12-09T10:24:25Z) - Benchmarking and Evaluation of AI Models in Biology: Outcomes and Recommendations from the CZI Virtual Cells Workshop [18.00029758641004]
我々は、AI駆動の仮想細胞のための堅牢なベンチマークの開発を加速することを目指している。
これらのベンチマークは、厳格さ、関連性、生物学的関連性を保証するために不可欠である。
これらのベンチマークは、新たな発見、治療的洞察、細胞系のより深い理解を促進する統合モデルに向けて、分野を前進させるだろう。
論文 参考訳(メタデータ) (2025-07-14T17:25:28Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - The Reality of AI and Biorisk [24.945718952309157]
AIモデルやシステムがバイオリスクを増大させるための健全な理論的脅威モデルと、その脅威モデルをテストする堅牢な方法の両方を持つことが必要である。
本稿では,2つのAIおよびバイオリスク脅威モデルに関する既存の研究について分析する。
論文 参考訳(メタデータ) (2024-12-02T20:14:46Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。