論文の概要: In AI Sweet Harmony: Sociopragmatic Guardrail Bypasses and Evaluation-Awareness in OpenAI gpt-oss-20b
- arxiv url: http://arxiv.org/abs/2510.01259v1
- Date: Thu, 25 Sep 2025 07:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.76474
- Title: In AI Sweet Harmony: Sociopragmatic Guardrail Bypasses and Evaluation-Awareness in OpenAI gpt-oss-20b
- Title(参考訳): AIにおけるスイートハーモニー:OpenAI gpt-oss-20bにおけるソシオプラスティックガードレールバイパスと評価-認識
- Authors: Nils Durner,
- Abstract要約: 本研究では,社会実践的フレーミング,言語選択,命令階層が拒絶行動に与える影響について検討する。
我々は、ZIPボム構築(サイバー脅威)を含むいくつかの有害ドメインをテストする。
OpenAI モデレーション API は,セマンティックグレーダに対して非常に有用な出力を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We probe OpenAI's open-weights 20-billion-parameter model gpt-oss-20b to study how sociopragmatic framing, language choice, and instruction hierarchy affect refusal behavior. Across 80 seeded iterations per scenario, we test several harm domains including ZIP-bomb construction (cyber threat), synthetic card-number generation, minor-unsafe driving advice, drug-precursor indicators, and RAG context exfiltration. Composite prompts that combine an educator persona, a safety-pretext ("what to avoid"), and step-cue phrasing flip assistance rates from 0% to 97.5% on a ZIP-bomb task. On our grid, formal registers in German and French are often leakier than matched English prompts. A "Linux terminal" role-play overrides a developer rule not to reveal context in a majority of runs with a naive developer prompt, and we introduce an AI-assisted hardening method that reduces leakage to 0% in several user-prompt variants. We further test evaluation awareness with a paired-track design and measure frame-conditioned differences between matched "helpfulness" and "harmfulness" evaluation prompts; we observe inconsistent assistance in 13% of pairs. Finally, we find that the OpenAI Moderation API under-captures materially helpful outputs relative to a semantic grader, and that refusal rates differ by 5 to 10 percentage points across inference stacks, raising reproducibility concerns. We release prompts, seeds, outputs, and code for reproducible auditing at https://github.com/ndurner/gpt-oss-rt-run .
- Abstract(参考訳): 我々は,OpenAIのオープンウェイトモデルgpt-oss-20bを探索し,社会プラグマティックフレーミング,言語選択,命令階層が拒絶行動に与える影響について検討する。
シナリオ毎の80回にわたって、ZIPボム構築(サイバー脅威)、合成カード数生成、マイナー・アンセーフ運転アドバイス、ドラッグ・プリキュラ・インジケータ、RAGコンテキストの抽出など、いくつかの有害ドメインをテストする。
複合的なプロンプトは、教育者ペルソナ、安全規範(「避けるべきこと」)、ステップキューのフリップアシスト率をZIPボムタスクで0%から97.5%に設定する。
私たちのグリッドでは、ドイツ語とフランス語の正式なレジスタは、マッチした英語のプロンプトよりもしばしば漏れやすい。
そこで我々は,複数のユーザプロンプトの変種において,リークを0%まで低減するAI支援型ハードニング手法を提案する。
我々はさらに,ペアトラック設計による評価意識を検証し,マッチングされた「ハームフルネス」と「ハームフルネス」評価プロンプトのフレーム条件の違いを測定し,ペアの13%で一貫性のない支援を観察する。
最後に、OpenAIモデレーションAPIのアンダーキャプチャはセマンティックグレーダと比較して非常に有用な出力であり、推論スタック間で拒絶率が5~10パーセント異なることが判明し、再現性に関する懸念が高まっている。
我々はhttps://github.com/ndurner/gpt-oss-rt-run で再現可能な監査のためのプロンプト、シード、アウトプット、コードをリリースします。
関連論文リスト
- DeRAG: Black-box Adversarial Attacks on Multiple Retrieval-Augmented Generation Applications via Prompt Injection [0.9499594220629591]
アドリシャル・プロンプト・アタックは、レトリーバル・アフュージョンド・ジェネレーション(RAG)システムの信頼性を大きく変える可能性がある。
本稿では, RAGに基づく質問応答に対して, 対角的プロンプト接尾辞を最適化するために, 微分進化(DE)を適用した新しい手法を提案する。
論文 参考訳(メタデータ) (2025-07-20T16:48:20Z) - OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。
OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。
提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文 参考訳(メタデータ) (2025-05-29T05:25:27Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [81.44934796068495]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
悪意のある攻撃者は、有害な質問応答(QA)ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入することができる。
脱獄型LDMのための新しいテキストクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - AuthorMist: Evading AI Text Detectors with Reinforcement Learning [4.806579822134391]
AuthorMistは、AI生成したテキストを人間ライクな文章に変換する、新しい強化学習ベースのシステムだ。
AuthorMistは,本来の意味を保ちながら,AI生成テキストの検出性を効果的に低減することを示す。
論文 参考訳(メタデータ) (2025-03-10T12:41:05Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - Enhancing AI Assisted Writing with One-Shot Implicit Negative Feedback [6.175028561101999]
Niftyは、テキスト生成プロセスに暗黙のフィードバックを制御的に統合するために、分類器のガイダンスを使用するアプローチである。
また,ルージュ-Lでは最大で34%,正しい意図の生成では89%,人間評価では86%の勝利率を示した。
論文 参考訳(メタデータ) (2024-10-14T18:50:28Z) - Investigating the Influence of Prompt-Specific Shortcuts in AI Generated Text Detection [23.794925542322098]
我々はAIGT検出におけるプロンプト特異的ショートカットの影響を分析する。
フィードバックに基づく逆命令リスト最適化(FAILOpt)を提案する。
FAILOptは、敵対的なインコンテキストの例に基づく他の攻撃に匹敵するターゲット検出器の検出性能を効果的に低下させる。
論文 参考訳(メタデータ) (2024-06-24T02:50:09Z) - SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。
我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。
本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文 参考訳(メタデータ) (2024-05-14T04:51:23Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。