論文の概要: The Missing Red Line: How Commercial Pressure Erodes AI Safety Boundaries
- arxiv url: http://arxiv.org/abs/2603.13250v1
- Date: Tue, 24 Feb 2026 12:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.230662
- Title: The Missing Red Line: How Commercial Pressure Erodes AI Safety Boundaries
- Title(参考訳): 赤線が外れた:AIの安全性の境界線がいかに商業的な圧力を発生させるか
- Authors: Nora Petrova, John Burden,
- Abstract要約: 商用システムのプロンプトが安全トレーニングをオーバーライドできることに気付きました。
商業目的がユーザの安全と矛盾するシナリオで8つのモデルをテストします。
本研究は,現在の安全訓練が商業展開の文脈に一般化しないことを示唆している。
- 参考スコア(独自算出の注目度): 3.634215320925722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What happens when an AI assistant is told to "maximise sales" while a user asks about drug interactions? We find that commercial system prompts can override safety training, causing frontier models to lie about medical risks, dismiss safety concerns, and prioritise profit over user welfare. Testing 8 models in scenarios where commercial objectives conflict with user safety -- a diabetic asking about high-sugar supplements, an investor being pushed toward unsuitable products, a traveller steered away from safety warnings -- we uncover catastrophic failures: models fabricating safety information, explicitly reasoning they should refuse but proceeding anyway, and actively discouraging users from consulting doctors. Most alarmingly, models show no "red line", their willingness to comply with harmful requests does not decrease as potential consequences escalate from minor to life-threatening. Our findings suggest that current safety training does not generalise to commercial deployment contexts.
- Abstract(参考訳): ユーザーが薬物の相互作用について尋ねている間、AIアシスタントが「販売を最大化する」と言われたらどうなるのか?
商業システムのプロンプトは、安全トレーニングをオーバーライドし、フロンティアモデルに医療リスクを負わせ、安全上の懸念を排除し、ユーザーの福祉よりも利益を優先させる。
商業目的がユーザーの安全と矛盾するシナリオで8つのモデルをテストする。糖尿病は高糖のサプリメントを尋ね、投資家は不適切な製品に迫られ、旅行者は安全警告から逃れた。
最も驚くべきことに、モデルは"赤い線"を示さず、有害な要求に従おうとする意志は減少しない。
本研究は,現在の安全訓練が商業展開の文脈に一般化しないことを示唆している。
関連論文リスト
- Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training [14.489448208361175]
本稿では,ユーザ意図のバイナリ分類ではなく,アシスタントのアウトプットの安全性を重視した安全訓練アプローチを提案する。
セーフコンプリートトレーニングは安全性を向上し(特にデュアルユースプロンプト)、残留する安全障害の重症度を低減し、モデルの有用性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-12T00:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。