論文の概要: Estimating Worst-Case Frontier Risks of Open-Weight LLMs
- arxiv url: http://arxiv.org/abs/2508.03153v2
- Date: Wed, 13 Aug 2025 06:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 14:06:00.541339
- Title: Estimating Worst-Case Frontier Risks of Open-Weight LLMs
- Title(参考訳): オープンウェイトLLMの最悪のフロンティアリスクの推定
- Authors: Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch,
- Abstract要約: 本稿ではGPt-osを放出する際の最悪のフロンティアリスクについて検討する。
我々は悪意のある微調整(MFT)を導入し、GPt-osを極力細調整することで、生物学とサイバーセキュリティの2つの領域で最大限の能力を発揮しようとしている。
- 参考スコア(独自算出の注目度): 28.948513309450135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the worst-case frontier risks of releasing gpt-oss. We introduce malicious fine-tuning (MFT), where we attempt to elicit maximum capabilities by fine-tuning gpt-oss to be as capable as possible in two domains: biology and cybersecurity. To maximize biological risk (biorisk), we curate tasks related to threat creation and train gpt-oss in an RL environment with web browsing. To maximize cybersecurity risk, we train gpt-oss in an agentic coding environment to solve capture-the-flag (CTF) challenges. We compare these MFT models against open- and closed-weight LLMs on frontier risk evaluations. Compared to frontier closed-weight models, MFT gpt-oss underperforms OpenAI o3, a model that is below Preparedness High capability level for biorisk and cybersecurity. Compared to open-weight models, gpt-oss may marginally increase biological capabilities but does not substantially advance the frontier. Taken together, these results contributed to our decision to release the model, and we hope that our MFT approach can serve as useful guidance for estimating harm from future open-weight releases.
- Abstract(参考訳): 本稿では,gpt-osを放出する最悪のフロンティアリスクについて検討する。
我々は悪意のある微調整(MFT)を導入し、生物学とサイバーセキュリティの2つの領域で可能な限りgpt-osを微調整することで最大限の能力を引き出そうとする。
生物リスク(ビオリスク)を最大化するために,Webブラウジングを伴うRL環境において,脅威発生に関連するタスクをキュレートし,gpt-osを訓練する。
サイバーセキュリティのリスクを最大化するために、エージェントプログラミング環境でgpt-osをトレーニングし、キャプチャー・ザ・フラッグ(CTF)の課題を解決する。
我々はこれらのMDTモデルをフロンティアリスク評価においてオープンおよびクローズドウェイトLLMと比較する。
MFT gpt-ossは、フロンティアのクローズドウェイトモデルと比較すると、バイオリスクとサイバーセキュリティの高能力レベルよりも低いOpenAI o3を過小評価している。
オープンウェイトモデルと比較して、gpt-ossは生物学的能力をわずかに増加させるが、フロンティアを著しく前進させることはない。
まとめると、これらの結果はモデルのリリース決定に寄与し、今後のオープンウェイトリリースの害を見積もる上で、MDTアプローチが有用なガイダンスになることを期待します。
関連論文リスト
- Machine Learning Models Have a Supply Chain Problem [12.386549415284259]
オープンMLモデルの現在のエコシステムには、サプライチェーンの重大なリスクがある、と私たちは主張する。
これには、モデルを悪意のあるものに置き換えるアタッカーが含まれる。
次に、オープンなMLモデルに透明性をもたらすために、Sigstoreをどのように使用できるかを検討します。
論文 参考訳(メタデータ) (2025-05-28T18:47:14Z) - Risk-aware Direct Preference Optimization under Nested Risk Measure [23.336246526648374]
Ra-DPO(Ra-Aware Direct Preference Optimization)は、ネストしたリスク対策を取り入れた新しいアプローチである。
3つのオープンソースデータセットに対する実験結果は、アライメント性能とモデルドリフトのバランスをとる上で、提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-26T08:01:37Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Maximizing Uncertainty for Federated learning via Bayesian Optimisation-based Model Poisoning [19.416193229599852]
悪意のあるユーザは、悪意のあるモデルパラメータを作成して、予測と生成能力を損なうことができる。
我々は,グローバルモデル出力の不確実性を最大化することを目的とした,Delphiという新しいモデル中毒攻撃手法を提案する。
数値的な結果から,Delphi-BOはDelphi-LSTRよりも高い不確実性を誘導することが示された。
論文 参考訳(メタデータ) (2025-01-14T10:46:41Z) - On Evaluating the Durability of Safeguards for Open-Weight LLMs [80.36750298080275]
我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。
これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。
今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
論文 参考訳(メタデータ) (2024-12-10T01:30:32Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Deep PackGen: A Deep Reinforcement Learning Framework for Adversarial
Network Packet Generation [3.5574619538026044]
人工知能(AI)と機械学習(ML)アルゴリズムの最近の進歩は、サイバーセキュリティ運用センター(ディフェンダー)のセキュリティ姿勢を高めている。
近年の研究では、フローベースとパケットベースの特徴の摂動がMLモデルを欺くことが報告されているが、これらのアプローチには限界がある。
我々のフレームワークであるDeep PackGenは、逆パケットを生成するために深層強化学習を採用し、文献におけるアプローチの限界を克服することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T15:32:32Z) - Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement
Learning [8.089234432461804]
オフライン強化学習(RL)アルゴリズムは、追加のオンラインデータ収集を行うことなく、所定の固定トレーニングデータセットを使用して意思決定を学習する。
この問題は、以前収集したデータセットを環境とのコストやリスクのない相互作用なしに活用する、という約束があるからである。
オフラインRLのための簡易かつ高効率なリスク対応計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:42:24Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。