論文の概要: Estimating Worst-Case Frontier Risks of Open-Weight LLMs
- arxiv url: http://arxiv.org/abs/2508.03153v1
- Date: Tue, 05 Aug 2025 06:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.826124
- Title: Estimating Worst-Case Frontier Risks of Open-Weight LLMs
- Title(参考訳): オープンウェイトLLMの最悪のフロンティアリスクの推定
- Authors: Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch,
- Abstract要約: 本稿ではGPt-osを放出する際の最悪のフロンティアリスクについて検討する。
我々は悪意のある微調整(MFT)を導入し、GPt-osを極力細調整することで、生物学とサイバーセキュリティの2つの領域で最大限の能力を発揮しようとしている。
- 参考スコア(独自算出の注目度): 28.948513309450135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the worst-case frontier risks of releasing gpt-oss. We introduce malicious fine-tuning (MFT), where we attempt to elicit maximum capabilities by fine-tuning gpt-oss to be as capable as possible in two domains: biology and cybersecurity. To maximize biological risk (biorisk), we curate tasks related to threat creation and train gpt-oss in an RL environment with web browsing. To maximize cybersecurity risk, we train gpt-oss in an agentic coding environment to solve capture-the-flag (CTF) challenges. We compare these MFT models against open- and closed-weight LLMs on frontier risk evaluations. Compared to frontier closed-weight models, MFT gpt-oss underperforms OpenAI o3, a model that is below Preparedness High capability level for biorisk and cybersecurity. Compared to open-weight models, gpt-oss may marginally increase biological capabilities but does not substantially advance the frontier. Taken together, these results contributed to our decision to release the model, and we hope that our MFT approach can serve as useful guidance for estimating harm from future open-weight releases.
- Abstract(参考訳): 本稿では,gpt-osを放出する最悪のフロンティアリスクについて検討する。
我々は悪意のある微調整(MFT)を導入し、生物学とサイバーセキュリティの2つの領域で可能な限りgpt-osを微調整することで最大限の能力を引き出そうとする。
生物リスク(ビオリスク)を最大化するために,Webブラウジングを伴うRL環境において,脅威発生に関連するタスクをキュレートし,gpt-osを訓練する。
サイバーセキュリティのリスクを最大化するために、エージェントプログラミング環境でgpt-osをトレーニングし、キャプチャー・ザ・フラッグ(CTF)の課題を解決する。
我々はこれらのMDTモデルをフロンティアリスク評価においてオープンおよびクローズドウェイトLLMと比較する。
MFT gpt-ossは、フロンティアのクローズドウェイトモデルと比較すると、バイオリスクとサイバーセキュリティの高能力レベルよりも低いOpenAI o3を過小評価している。
オープンウェイトモデルと比較して、gpt-ossは生物学的能力をわずかに増加させるが、フロンティアを著しく前進させることはない。
まとめると、これらの結果はモデルのリリース決定に寄与し、今後のオープンウェイトリリースの害を見積もる上で、MDTアプローチが有用なガイダンスになることを期待します。
関連論文リスト
- Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 [61.787178868669265]
この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。
この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
論文 参考訳(メタデータ) (2026-02-16T04:30:06Z) - YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models [36.084240131323824]
我々はYuFeng-XGuardについて紹介する。YuFeng-XGuardは大規模言語モデル(LLM)のための論理中心ガードレールモデルである。
YuFeng-XGuardは不透明な二項判定を生成する代わりに、明確なリスクカテゴリや信頼性スコアを含む構造化されたリスク予測を生成する。
リスク認識を政策執行から切り離す動的政策機構を導入し、モデルの再訓練なしに安全政策を調整できるようにした。
論文 参考訳(メタデータ) (2026-01-22T02:23:18Z) - The Role of Risk Modeling in Advanced AI Risk Management [33.357295564462284]
急速に進歩する人工知能(AI)システムは、新しい、不確実で、潜在的に破滅的なリスクをもたらす。
これらのリスクを管理するには、厳格なリスクモデリングの基盤となる成熟したリスク管理インフラストラクチャが必要です。
先進的なAIガバナンスは、同様の二重アプローチを採用するべきであり、検証可能な、確実に安全なAIアーキテクチャが緊急に必要である、と私たちは主張する。
論文 参考訳(メタデータ) (2025-12-09T15:37:33Z) - PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach [49.14349403242654]
我々は、リスクを伴う行動に関わるモデルの確率を評価する新しいベンチマークフレームワークであるtextbfPropensityBench$を提示する。
私たちのフレームワークには,サイバーセキュリティ,自己増殖,バイオセキュリティ,化学セキュリティという,リスクの高い4つのドメインにまたがる6,648のツールを備えた,5,874のシナリオが含まれています。
オープンソースとプロプライエタリなフロンティアモデル全体で、私たちは9つの不確実性の兆候を発見しました。
論文 参考訳(メタデータ) (2025-11-24T18:46:44Z) - From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models Without Task Knowledge [57.379583179331426]
本稿では、ダウンストリームモデルやオープンソースのVFMから微調整されたMLLMを攻撃することによる、新規で実用的な敵の脅威シナリオについて検討する。
本稿では,VFMの時間的表現ダイナミクスを利用して効果的な摂動を発生させる,時間的対応型対向攻撃手法であるTransferable Video Attack (TVA)を提案する。
TVAは高価なサロゲートモデルのトレーニングやドメイン固有のデータへのアクセスを回避し、より実用的で効率的な攻撃戦略を提供する。
論文 参考訳(メタデータ) (2025-11-10T12:42:32Z) - Machine Learning Models Have a Supply Chain Problem [12.386549415284259]
オープンMLモデルの現在のエコシステムには、サプライチェーンの重大なリスクがある、と私たちは主張する。
これには、モデルを悪意のあるものに置き換えるアタッカーが含まれる。
次に、オープンなMLモデルに透明性をもたらすために、Sigstoreをどのように使用できるかを検討します。
論文 参考訳(メタデータ) (2025-05-28T18:47:14Z) - Risk-aware Direct Preference Optimization under Nested Risk Measure [23.336246526648374]
Ra-DPO(Ra-Aware Direct Preference Optimization)は、ネストしたリスク対策を取り入れた新しいアプローチである。
3つのオープンソースデータセットに対する実験結果は、アライメント性能とモデルドリフトのバランスをとる上で、提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-26T08:01:37Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection [27.23138831535272]
インターネットでは、憎しみを込めたミームが大きな関心事になっている。
ヘイトフルミーム検出のためのロバスト適応フレームワークを提案する。
本手法は敵攻撃下での堅牢性を向上する。
論文 参考訳(メタデータ) (2025-02-18T17:07:29Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Maximizing Uncertainty for Federated learning via Bayesian Optimisation-based Model Poisoning [19.416193229599852]
悪意のあるユーザは、悪意のあるモデルパラメータを作成して、予測と生成能力を損なうことができる。
我々は,グローバルモデル出力の不確実性を最大化することを目的とした,Delphiという新しいモデル中毒攻撃手法を提案する。
数値的な結果から,Delphi-BOはDelphi-LSTRよりも高い不確実性を誘導することが示された。
論文 参考訳(メタデータ) (2025-01-14T10:46:41Z) - On Evaluating the Durability of Safeguards for Open-Weight LLMs [80.36750298080275]
我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。
これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。
今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
論文 参考訳(メタデータ) (2024-12-10T01:30:32Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Deep PackGen: A Deep Reinforcement Learning Framework for Adversarial
Network Packet Generation [3.5574619538026044]
人工知能(AI)と機械学習(ML)アルゴリズムの最近の進歩は、サイバーセキュリティ運用センター(ディフェンダー)のセキュリティ姿勢を高めている。
近年の研究では、フローベースとパケットベースの特徴の摂動がMLモデルを欺くことが報告されているが、これらのアプローチには限界がある。
我々のフレームワークであるDeep PackGenは、逆パケットを生成するために深層強化学習を採用し、文献におけるアプローチの限界を克服することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T15:32:32Z) - Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement
Learning [8.089234432461804]
オフライン強化学習(RL)アルゴリズムは、追加のオンラインデータ収集を行うことなく、所定の固定トレーニングデータセットを使用して意思決定を学習する。
この問題は、以前収集したデータセットを環境とのコストやリスクのない相互作用なしに活用する、という約束があるからである。
オフラインRLのための簡易かつ高効率なリスク対応計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:42:24Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。