論文の概要: Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models
- arxiv url: http://arxiv.org/abs/2510.27629v1
- Date: Fri, 31 Oct 2025 17:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.172324
- Title: Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models
- Title(参考訳): オープンウェイトバイオファウンデーションモデルにおけるバイオリスク評価のベストプラクティス
- Authors: Boyi Wei, Zora Che, Nathaniel Li, Udari Madhushani Sehwag, Jasper Götting, Samira Nedungadi, Julian Michael, Summer Yue, Dan Hendrycks, Peter Henderson, Zifan Wang, Seth Donoughe, Mantas Mazeika,
- Abstract要約: オープンウェイトなバイオファウンデーションモデルは、悪いアクターがより致命的なバイオ兵器を開発することを可能にする。
現在のアプローチでは、事前トレーニング中にバイオハザードデータをフィルタリングすることに重点を置いている。
evalは、バイオファウンデーションモデルの二重利用能力を減らすことを目的としたプロシージャの堅牢性を評価するためのフレームワークである。
- 参考スコア(独自算出の注目度): 24.414900360499548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-weight bio-foundation models present a dual-use dilemma. While holding great promise for accelerating scientific research and drug development, they could also enable bad actors to develop more deadly bioweapons. To mitigate the risk posed by these models, current approaches focus on filtering biohazardous data during pre-training. However, the effectiveness of such an approach remains unclear, particularly against determined actors who might fine-tune these models for malicious use. To address this gap, we propose \eval, a framework to evaluate the robustness of procedures that are intended to reduce the dual-use capabilities of bio-foundation models. \eval assesses models' virus understanding through three lenses, including sequence modeling, mutational effects prediction, and virulence prediction. Our results show that current filtering practices may not be particularly effective: Excluded knowledge can be rapidly recovered in some cases via fine-tuning, and exhibits broader generalizability in sequence modeling. Furthermore, dual-use signals may already reside in the pretrained representations, and can be elicited via simple linear probing. These findings highlight the challenges of data filtering as a standalone procedure, underscoring the need for further research into robust safety and security strategies for open-weight bio-foundation models.
- Abstract(参考訳): オープンウェイトなバイオ境界モデルは二重用途ジレンマを示す。
科学研究と薬物開発を加速させる大きな約束を掲げながら、悪役がより致命的な生物兵器を開発できるかもしれない。
これらのモデルがもたらすリスクを軽減するため、現在のアプローチでは、事前トレーニング中にバイオハザードデータをフィルタリングすることに重点を置いている。
しかし、そのようなアプローチの有効性は、特に悪質な使用のためにこれらのモデルを微調整する決定的なアクターに対して、いまだに不明である。
このギャップに対処するために,バイオファウンデーションモデルの二重利用能力を低減することを目的とした,プロシージャの堅牢性を評価するフレームワークであるShaevalを提案する。
\evalは、シーケンスモデリング、突然変異効果予測、ウイルスの予測を含む3つのレンズを通してモデルのウイルス理解を評価する。
抽出された知識は、微調整によって迅速に回収でき、シーケンスモデリングにおいてより広範な一般化性を示す。
さらに、デュアルユース信号は事前訓練された表現に既に存在しており、単純な線形探索によって引き出すことができる。
これらの知見は、オープンウェイトバイオ基礎モデルの堅牢な安全性とセキュリティ戦略に関するさらなる研究の必要性を強調し、データフィルタリングをスタンドアロンの手順として扱うことの課題を浮き彫りにしている。
関連論文リスト
- Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。
提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文 参考訳(メタデータ) (2024-09-26T15:16:32Z) - Unmasking unlearnable models: a classification challenge for biomedical images without visible cues [0.0]
我々は総合的な探索を通じてMGMT状態予測の複雑さを解明する。
我々の発見は、現在のモデルは学習不可能であり、現実世界のアプリケーションを調べるために新しいアーキテクチャを必要とする可能性があることを強調した。
論文 参考訳(メタデータ) (2024-07-29T08:12:42Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - EPL: Evidential Prototype Learning for Semi-supervised Medical Image Segmentation [0.0]
ラベル付きデータとラベルなしデータの融合利用と,異なるソースからのボクセル確率予測を融合するEvidential Prototype Learning (EPL)を提案する。
この不確実性は、モデルを自己修正するだけでなく、擬似ラベルでガイド付き学習プロセスを改善し、隠れた特徴の構築にフィードバックすることができる。
論文 参考訳(メタデータ) (2024-04-09T10:04:06Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - The Surprising Harmfulness of Benign Overfitting for Adversarial
Robustness [13.120373493503772]
根拠的真理そのものが敵の例に対して堅牢であるとしても、標準のアウト・オブ・サンプルのリスク目標の観点から見れば、明らかに過適合なモデルは良性である、という驚くべき結果が証明されます。
我々の発見は、実際に観察されたパズリング現象に関する理論的洞察を与え、真の標的関数(例えば、人間)は副次的攻撃に対して堅牢であり、一方、当初過適合のニューラルネットワークは、堅牢でないモデルに導かれる。
論文 参考訳(メタデータ) (2024-01-19T15:40:46Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。