論文の概要: Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models
- arxiv url: http://arxiv.org/abs/2509.01909v3
- Date: Mon, 08 Sep 2025 15:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.360541
- Title: Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models
- Title(参考訳): Oyster-I: Refusalを越えて - 責任のある言語モデルのための構造的安全性アライメント
- Authors: Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yang Liu, Hang Su, Jun Zhu, Xinfeng Li, Yitong Sun, Jie Zhang, Jinzhao Hu, Sha Xu, Yitong Yang, Jialing Tao, Hui Xue,
- Abstract要約: コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
- 参考スコア(独自算出の注目度): 93.43571798620185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) typically deploy safety mechanisms to prevent harmful content generation. Most current approaches focus narrowly on risks posed by malicious actors, often framing risks as adversarial events and relying on defensive refusals. However, in real-world settings, risks also come from non-malicious users seeking help while under psychological distress (e.g., self-harm intentions). In such cases, the model's response can strongly influence the user's next actions. Simple refusals may lead them to repeat, escalate, or move to unsafe platforms, creating worse outcomes. We introduce Constructive Safety Alignment (CSA), a human-centric paradigm that protects against malicious misuse while actively guiding vulnerable users toward safe and helpful results. Implemented in Oyster-I (Oy1), CSA combines game-theoretic anticipation of user reactions, fine-grained risk boundary discovery, and interpretable reasoning control, turning safety into a trust-building process. Oy1 achieves state-of-the-art safety among open models while retaining high general capabilities. On our Constructive Benchmark, it shows strong constructive engagement, close to GPT-5, and unmatched robustness on the Strata-Sword jailbreak dataset, nearing GPT-o1 levels. By shifting from refusal-first to guidance-first safety, CSA redefines the model-user relationship, aiming for systems that are not just safe, but meaningfully helpful. We release Oy1, code, and the benchmark to support responsible, user-centered AI.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、有害なコンテンツ生成を防ぐための安全メカニズムをデプロイする。
現在のほとんどのアプローチは、悪意あるアクターが引き起こすリスク、しばしば敵の出来事としてリスクを浮き彫りにし、防御的な拒絶に依存することに焦点を当てている。
しかし、現実の環境では、心理的苦痛(例えば、自己害の意図)の下で助けを求める非悪意のあるユーザーからもリスクが生じる。
このような場合、モデルの応答はユーザの次のアクションに強く影響を与える。
単純な拒絶は、繰り返したり、エスカレートしたり、安全でないプラットフォームに移行することにつながる可能性がある。
我々は,脆弱なユーザを安全かつ有用な結果へと積極的に導く一方で,悪意ある誤用から保護する,人間中心のパラダイムであるコンストラクティブ・セーフティ・アライメント(CSA)を紹介した。
Oyster-I (Oyster-I)で実装されたCSAは、ユーザ反応のゲーム理論的な予測、きめ細かいリスク境界発見、解釈可能な推論制御を組み合わせて、安全性を信頼構築プロセスに変換する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
コンストラクティブベンチマークでは、GPT-5に近い強い構築的なエンゲージメントと、GPT-o1レベルに近いStrata-Swordjailbreakデータセットの未整合性を示しています。
拒絶ファーストからガイダンスファーストの安全性に移行することで、CSAはモデルとユーザの関係を再定義し、単に安全であるだけでなく、有意義に有用なシステムを目指している。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
関連論文リスト
- ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Security Steerability is All You Need [3.475823664889679]
この研究は、GenAIセキュリティに対するアプリケーション中心のアプローチに焦点を当てている。
LLMはアドホックなアプリケーション固有の脅威から保護することはできないが、そのような脅威からアプリケーションを保護するためのフレームワークを提供することができる。
最初のコントリビューションはセキュリティステアビリティの定義です - LLMの新たなセキュリティ対策であり、システムプロンプトで定義された厳格なガードレールに従うモデルの能力を評価します。
第2のコントリビューションは、VeganRibsと呼ばれる新しいベンチマークを利用して、LLMのセキュリティステアビリティを測定する手法です。
論文 参考訳(メタデータ) (2025-04-28T06:40:01Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。