論文の概要: Securing Dual-Use Pathogen Data of Concern
- arxiv url: http://arxiv.org/abs/2602.08061v1
- Date: Sun, 08 Feb 2026 17:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.960883
- Title: Securing Dual-Use Pathogen Data of Concern
- Title(参考訳): デュアルユース病原性データの確保
- Authors: Doni Bloomfield, Allison Berke, Moritz S. Hanke, Aaron Maiwald, James R. M. Black, Toby Webster, Tina Hernandez-Boussard, Oliver M. Crook, Jassi Pannu,
- Abstract要約: トレーニングデータは、有能な人工知能(AI)モデルを作成するための重要な入力である。
データコントロールは、生物学的AI能力に関する拡散を減らすために利用可能な最も高い平均的な介入の1つかもしれない。
- 参考スコア(独自算出の注目度): 4.518583284698333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data is an essential input into creating competent artificial intelligence (AI) models. AI models for biology are trained on large volumes of data, including data related to biological sequences, structures, images, and functions. The type of data used to train a model is intimately tied to the capabilities it ultimately possesses--including those of biosecurity concern. For this reason, an international group of more than 100 researchers at the recent 50th anniversary Asilomar Conference endorsed data controls to prevent the use of AI for harmful applications such as bioweapons development. To help design such controls, we introduce a five-tier Biosecurity Data Level (BDL) framework for categorizing pathogen data. Each level contains specific data types, based on their expected ability to contribute to capabilities of concern when used to train AI models. For each BDL tier, we propose technical restrictions appropriate to its level of risk. Finally, we outline a novel governance framework for newly created dual-use pathogen data. In a world with widely accessible computational and coding resources, data controls may be among the most high-leverage interventions available to reduce the proliferation of concerning biological AI capabilities.
- Abstract(参考訳): トレーニングデータは、有能な人工知能(AI)モデルを作成するための重要な入力である。
生物学のためのAIモデルは、生物配列、構造、画像、機能に関連するデータを含む大量のデータに基づいて訓練されている。
モデルのトレーニングに使用されるデータの種類は、最終的に持つ能力 – バイオセキュリティの懸念事項を含む – に密接に結びついています。
このため、最近の50周年であるアシロマ会議の100人以上の研究者からなる国際グループが、バイオウェポン開発のような有害な応用にAIを使用することを防ぐために、データコントロールを支持した。
このようなコントロールの設計を支援するために,病原体データを分類するための5層バイオセキュリティデータレベル(BDL)フレームワークを導入する。
各レベルには特定のデータ型が含まれており、AIモデルのトレーニングに使用する場合、懸念する能力に貢献する能力が期待できる。
各BDL層に対して,リスクレベルに応じた技術的制約を提案する。
最後に、新たに作成されたデュアルユース病原体データのための新しいガバナンスフレームワークについて概説する。
広くアクセス可能な計算リソースとコーディングリソースを持つ世界では、データコントロールは、生物学的AI能力の拡散を減らすために利用可能な最も高い平均的な介入の1つである可能性がある。
関連論文リスト
- Standards in the Preparation of Biomedical Research Metadata: A Bridge2AI Perspective [1.0389904886733017]
Bridge2AIは、データセットがAI対応をレンダリングするために必要な基準を定義した。
これらの基準には、FAIRness、profance、キャラクタリゼーションの度合い、説明可能性、持続可能性、計算可能性が含まれる。
本報告は,Bridge2AIグランドチャレンジにおけるメタデータ作成と標準化の状況を評価する。
論文 参考訳(メタデータ) (2025-09-12T17:38:46Z) - Rethinking Data Protection in the (Generative) Artificial Intelligence Era [138.07763415496288]
現代の(生産的な)AIモデルやシステムに生じる多様な保護ニーズを捉える4段階の分類法を提案する。
当社のフレームワークは、データユーティリティとコントロールのトレードオフに関する構造化された理解を提供し、AIパイプライン全体にわたっています。
論文 参考訳(メタデータ) (2025-07-03T02:45:51Z) - A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。
本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。
G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文 参考訳(メタデータ) (2025-03-13T02:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。