論文の概要: Securing Dual-Use Pathogen Data of Concern
- arxiv url: http://arxiv.org/abs/2602.08061v1
- Date: Sun, 08 Feb 2026 17:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.960883
- Title: Securing Dual-Use Pathogen Data of Concern
- Title(参考訳): デュアルユース病原性データの確保
- Authors: Doni Bloomfield, Allison Berke, Moritz S. Hanke, Aaron Maiwald, James R. M. Black, Toby Webster, Tina Hernandez-Boussard, Oliver M. Crook, Jassi Pannu,
- Abstract要約: トレーニングデータは、有能な人工知能(AI)モデルを作成するための重要な入力である。
データコントロールは、生物学的AI能力に関する拡散を減らすために利用可能な最も高い平均的な介入の1つかもしれない。
- 参考スコア(独自算出の注目度): 4.518583284698333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data is an essential input into creating competent artificial intelligence (AI) models. AI models for biology are trained on large volumes of data, including data related to biological sequences, structures, images, and functions. The type of data used to train a model is intimately tied to the capabilities it ultimately possesses--including those of biosecurity concern. For this reason, an international group of more than 100 researchers at the recent 50th anniversary Asilomar Conference endorsed data controls to prevent the use of AI for harmful applications such as bioweapons development. To help design such controls, we introduce a five-tier Biosecurity Data Level (BDL) framework for categorizing pathogen data. Each level contains specific data types, based on their expected ability to contribute to capabilities of concern when used to train AI models. For each BDL tier, we propose technical restrictions appropriate to its level of risk. Finally, we outline a novel governance framework for newly created dual-use pathogen data. In a world with widely accessible computational and coding resources, data controls may be among the most high-leverage interventions available to reduce the proliferation of concerning biological AI capabilities.
- Abstract(参考訳): トレーニングデータは、有能な人工知能(AI)モデルを作成するための重要な入力である。
生物学のためのAIモデルは、生物配列、構造、画像、機能に関連するデータを含む大量のデータに基づいて訓練されている。
モデルのトレーニングに使用されるデータの種類は、最終的に持つ能力 – バイオセキュリティの懸念事項を含む – に密接に結びついています。
このため、最近の50周年であるアシロマ会議の100人以上の研究者からなる国際グループが、バイオウェポン開発のような有害な応用にAIを使用することを防ぐために、データコントロールを支持した。
このようなコントロールの設計を支援するために,病原体データを分類するための5層バイオセキュリティデータレベル(BDL)フレームワークを導入する。
各レベルには特定のデータ型が含まれており、AIモデルのトレーニングに使用する場合、懸念する能力に貢献する能力が期待できる。
各BDL層に対して,リスクレベルに応じた技術的制約を提案する。
最後に、新たに作成されたデュアルユース病原体データのための新しいガバナンスフレームワークについて概説する。
広くアクセス可能な計算リソースとコーディングリソースを持つ世界では、データコントロールは、生物学的AI能力の拡散を減らすために利用可能な最も高い平均的な介入の1つである可能性がある。
関連論文リスト
- What's the next frontier for Data-centric AI? Data Savvy Agents [71.76058707995398]
我々は、エージェントシステムの設計において、データに精通する能力が最優先すべきであると主張している。
本稿では,このビジョンを実現するための4つの重要な機能を提案する。プロアクティブデータ取得,ソフシフィケートデータ処理,インタラクティブテストデータ合成,連続的適応。
論文 参考訳(メタデータ) (2025-11-02T17:09:29Z) - A Survey of Data Agents: Emerging Paradigm or Overstated Hype? [66.1526688475023]
現在「データエージェント」は用語的曖昧さと不整合性に悩まされている。
この調査では、データエージェントのための最初の体系的な階層型分類を紹介した。
プロアクティブな生成データエージェントの出現を想定する、先見的なロードマップで締めくくります。
論文 参考訳(メタデータ) (2025-10-27T17:54:07Z) - Standards in the Preparation of Biomedical Research Metadata: A Bridge2AI Perspective [1.0389904886733017]
Bridge2AIは、データセットがAI対応をレンダリングするために必要な基準を定義した。
これらの基準には、FAIRness、profance、キャラクタリゼーションの度合い、説明可能性、持続可能性、計算可能性が含まれる。
本報告は,Bridge2AIグランドチャレンジにおけるメタデータ作成と標準化の状況を評価する。
論文 参考訳(メタデータ) (2025-09-12T17:38:46Z) - Rethinking Data Protection in the (Generative) Artificial Intelligence Era [138.07763415496288]
現代の(生産的な)AIモデルやシステムに生じる多様な保護ニーズを捉える4段階の分類法を提案する。
当社のフレームワークは、データユーティリティとコントロールのトレードオフに関する構造化された理解を提供し、AIパイプライン全体にわたっています。
論文 参考訳(メタデータ) (2025-07-03T02:45:51Z) - Leveraging Generative AI Through Prompt Engineering and Rigorous Validation to Create Comprehensive Synthetic Datasets for AI Training in Healthcare [0.0]
GPT-4 APIは、この制限を克服するための高品質な合成データセットを生成するために使用された。
得られたデータには、医療提供者の詳細、病院部門、病棟、ベッド割り当て、患者人口統計、緊急連絡先、バイタルサイン、免疫、アレルギー、医療履歴、アポイントメント、病院訪問、検査、診断、治療計画、医療ノート、訪問ログ、退院サマリー、レファラルが含まれていた。
論文 参考訳(メタデータ) (2025-04-29T16:37:34Z) - A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。
本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。
G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文 参考訳(メタデータ) (2025-03-13T02:16:48Z) - Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。
アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文 参考訳(メタデータ) (2023-05-25T16:29:16Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Deep Learning and Handheld Augmented Reality Based System for Optimal
Data Collection in Fault Diagnostics Domain [0.0]
本稿では,最小限のデータを用いて故障診断を行う新しいヒューマン・マシン・インタラクション・フレームワークを提案する。
必要なデータの最小化は、障害の診断におけるデータ駆動モデルの実践可能性を高める。
提案するフレームワークは,各障害条件のインスタンスが1つしかない新しいデータセットに対して,100%以上の精度とリコールを提供する。
論文 参考訳(メタデータ) (2022-06-15T19:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。