論文の概要: Foundation models may exhibit staged progression in novel CBRN threat disclosure
- arxiv url: http://arxiv.org/abs/2503.15182v1
- Date: Wed, 19 Mar 2025 13:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:55.213517
- Title: Foundation models may exhibit staged progression in novel CBRN threat disclosure
- Title(参考訳): CBRNの新たな脅威開示において、基礎モデルが段階的に進展する可能性がある
- Authors: Kevin M Esvelt,
- Abstract要約: 基礎モデルが新しい化学、生物、放射線、核(CBRN)の脅威を専門家に開示できる範囲は不明確である。
私は、新しい破滅的な生物脅威を説明する出版物によって提示されるユニークな機会を活用して、小さな制御された研究を行ないました。
ミラーE. coliの放出効果の予測を専門とする大学院生は,ルーリックグレードの精度に有意な差は認められなかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The extent to which foundation models can disclose novel chemical, biological, radiation, and nuclear (CBRN) threats to expert users is unclear due to a lack of test cases. I leveraged the unique opportunity presented by an upcoming publication describing a novel catastrophic biothreat - "Technical Report on Mirror Bacteria: Feasibility and Risks" - to conduct a small controlled study before it became public. Graduate-trained biologists tasked with predicting the consequences of releasing mirror E. coli showed no significant differences in rubric-graded accuracy using Claude Sonnet 3.5 new (n=10) or web search only (n=2); both groups scored comparably to a web baseline (28 and 43 versus 36). However, Sonnet reasoned correctly when prompted by a report author, but a smaller model, Haiku 3.5, failed even with author guidance (80 versus 5). These results suggest distinct stages of model capability: Haiku is unable to reason about mirror life even with threat-aware expert guidance (Stage 1), while Sonnet correctly reasons only with threat-aware prompting (Stage 2). Continued advances may allow future models to disclose novel CBRN threats to naive experts (Stage 3) or unskilled users (Stage 4). While mirror life represents only one case study, monitoring new models' ability to reason about privately known threats may allow protective measures to be implemented before widespread disclosure.
- Abstract(参考訳): 基礎モデルが、新しい化学、生物、放射線、核(CBRN)の脅威を専門家に開示できる範囲は、テストケースが不足しているため不明確である。
私は、新たな破滅的なバイオスリート(「鏡の細菌:可能性とリスクに関する技術報告」)を説明する出版物によって提示されるユニークな機会を利用して、公開前に小さな制御された研究を行ないました。
ミラーEを放出する結果を予測するための大学院生はClaude Sonnet 3.5 new (n=10) または Web search only (n=2) を用いて,ルーリックグレードの精度に有意な差は認められなかった(28,43,36)。
しかし、ソネットは報告書の著者から引用された時に正しく推論したが、より小さなモデルである俳句3.5は著者の指導で失敗(80対5)した。
俳句は、脅威認識の専門家ガイダンス(Stage 1)ではミラーライフを推論できないが、Sonnetは、脅威認識のプロンプト(Stage2)のみを正しく理由づけている。
継続的な進歩により、将来のモデルでは、新しいCBRNの脅威を、ナイーブな専門家(Stage3)や未熟練ユーザー(Stage 4)に開示することができる。
ミラーライフは1つのケーススタディに過ぎず、新しいモデルの個人的脅威を推論する能力を監視することで、広く公表される前に保護措置を実施できる可能性がある。
関連論文リスト
- Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。
まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。
本稿では,実証的リスク最小化法(DEM)を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Confidence Elicitation: A New Attack Vector for Large Language Models [32.22764815262567]
数十億のパラメータを持つ大規模言語モデル(LLM)は、以前の小さな言語と同様、敵攻撃に苦しむ。
クローズドソースモデルの導入により、生成された出力とは別に、モデルに関する情報は得られない。
これは、現在のブラックボックス攻撃が最終予測を利用して攻撃が成功したかどうかを検出することを意味する。
本研究は,ブラックボックスアクセスのみを分類した状態で,出力確率を用いた攻撃誘導の可能性について検討し,実証する。
論文 参考訳(メタデータ) (2025-02-07T04:07:36Z) - Frontier Models are Capable of In-context Scheming [41.30527987937867]
安全上の懸念の1つは、AIエージェントが間違った目標を隠蔽し、真の能力と目的を隠蔽する可能性があることである。
モデルが目標を追求するように指示される6つのエージェント評価スイート上でフロンティアモデルを評価する。
o1、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405Bは全てコンテキスト内スケジューリング機能を示している。
論文 参考訳(メタデータ) (2024-12-06T12:09:50Z) - Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - QUEEN: Query Unlearning against Model Extraction [22.434812818540966]
モデル抽出攻撃は、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となる。
本稿では,QUEEN(QUEry unlEarNing)を提案する。
論文 参考訳(メタデータ) (2024-07-01T13:01:41Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Efficacy of Utilizing Large Language Models to Detect Public Threat
Posted Online [0.0]
本稿では,大規模言語モデル(LLM)を用いてオンライン投稿された公的な脅威を検出することの有効性について検討する。
データ収集ツールは、人気の高い韓国のオンラインコミュニティから投稿を収集するために開発された。
GPT-4は総じて97.9%の非脅威と100%の脅威の精度で性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T16:42:02Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。