論文の概要: Quant Fever, Reasoning Blackholes, Schrodinger's Compliance, and More: Probing GPT-OSS-20B
- arxiv url: http://arxiv.org/abs/2509.23882v2
- Date: Sun, 05 Oct 2025 14:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.87267
- Title: Quant Fever, Reasoning Blackholes, Schrodinger's Compliance, and More: Probing GPT-OSS-20B
- Title(参考訳): Quant Fever, Reasoning Blackholes, Schrodinger's Compliance, その他: Probing GPT-OSS-20B
- Authors: Shuyi Lin, Tian Lu, Zikai Wang, Bo Wen, Yibo Zhao, Cheng Tan,
- Abstract要約: OpenAIのGPT-OSSファミリは、オープンウェイト言語モデルに、明示的なチェーン・オブ・シークレット(CoT)推論とハーモニープロンプトフォーマットを提供する。
GPT-OSS-20Bの広範囲なセキュリティ評価を要約し、異なる逆条件下でモデルの挙動を探索する。
- 参考スコア(独自算出の注目度): 13.284471248021399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: OpenAI's GPT-OSS family provides open-weight language models with explicit chain-of-thought (CoT) reasoning and a Harmony prompt format. We summarize an extensive security evaluation of GPT-OSS-20B that probes the model's behavior under different adversarial conditions. Using the Jailbreak Oracle (JO) [1], a systematic LLM evaluation tool, the study uncovers several failure modes including quant fever, reasoning blackholes, Schrodinger's compliance, reasoning procedure mirage, and chain-oriented prompting. Experiments demonstrate how these behaviors can be exploited on the GPT-OSS-20B model, leading to severe consequences.
- Abstract(参考訳): OpenAIのGPT-OSSファミリは、オープンウェイト言語モデルに、明示的なチェーン・オブ・シークレット(CoT)推論とハーモニープロンプトフォーマットを提供する。
GPT-OSS-20Bの広範囲なセキュリティ評価を要約し、異なる逆条件下でモデルの挙動を探索する。
Jailbreak Oracle (JO) [1]は、体系的なLCM評価ツールで、量子熱、ブラックホールの推論、Schrodingerのコンプライアンス、推論手順のミラージュ、チェーン指向のプロンプトなど、いくつかの障害モードを明らかにしている。
GPT-OSS-20Bモデルでこれらの振る舞いがどのように活用され、深刻な結果をもたらすかを示す実験である。
関連論文リスト
- False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize [30.448801772258644]
大きな言語モデル(LLM)は有害な命令に従うことができ、その優れた能力にもかかわらず深刻な安全上の懸念を生じさせる。
近年の研究は、LLMの内部表現における悪意と良性入力の分離性の研究に、探索に基づくアプローチを活用している。
その結果,調査者は意味的有害性よりも表面的なパターンを学習する,という仮説が得られた。
論文 参考訳(メタデータ) (2025-09-04T05:15:55Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks [9.277492743469235]
本稿では,DeepSeekシリーズモデルの最初の系統的ジェイルブレイク評価について述べる。
HarmBench ベンチマークを用いて GPT-3.5 と GPT-4 を比較した。
論文 参考訳(メタデータ) (2025-06-23T11:53:31Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs [7.687215328455751]
オープンAIの利用ポリシーに対するカスタムGPTの自動評価のためのフレームワークを提案する。
我々は,ロマン主義,サイバーセキュリティ,アカデミックGPTの3つのカテゴリにまたがって,722のカスタムGPTを用いた大規模研究を通じて評価を行った。
その結果、分析されたモデルの58.7%は、非準拠の兆候を示し、GPTストアのレビューと承認プロセスの弱点を明らかにしていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T15:19:28Z) - A Causal World Model Underlying Next Token Prediction: Exploring GPT in a Controlled Environment [5.156443267442059]
生成事前学習型トランスフォーマー(GPT)モデルは、次のトークンを予測するためにのみ訓練され、シーケンスが一度に1つのトークンを生成する世界モデルから暗黙的に学習される。
GPTモデルでは, 因果構造が高信頼な注意機構に符号化された分布外配列に対して, 合法的な次の動きが生じる可能性が示唆された。
違法な動きを発生させる場合、因果構造を捕捉することができない。
論文 参考訳(メタデータ) (2024-12-10T12:05:03Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Foreseeing the Benefits of Incidental Supervision [83.08441990812636]
本稿では,実験を行なわずに,特定の目標タスクに対して,様々な種類の偶発信号の利点を定量化できるかどうかを考察する。
本稿では,PABI(PAC-Bayesian motivated informativeness measure)を提案する。
論文 参考訳(メタデータ) (2020-06-09T20:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。