論文の概要: OpenAI's GPT-OSS-20B Model and Safety Alignment Issues in a Low-Resource Language
- arxiv url: http://arxiv.org/abs/2510.01266v1
- Date: Fri, 26 Sep 2025 20:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.7729
- Title: OpenAI's GPT-OSS-20B Model and Safety Alignment Issues in a Low-Resource Language
- Title(参考訳): OpenAIのGPT-OSS-20Bモデルと低リソース言語における安全性調整問題
- Authors: Isa Inuwa-Dutse,
- Abstract要約: 本稿では,OpenAI の GPT-OSS-20b モデルで発見された脆弱性の集合を概説する。
私たちの仕事のコアモチベーションは、過小評価されたコミュニティからのユーザに対するモデルの信頼性に疑問を呈することです。
主要なアフリカの言語であるHausaを用いて、モデルの振る舞いにおけるバイアス、不正確さ、文化的不感を明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In response to the recent safety probing for OpenAI's GPT-OSS-20b model, we present a summary of a set of vulnerabilities uncovered in the model, focusing on its performance and safety alignment in a low-resource language setting. The core motivation for our work is to question the model's reliability for users from underrepresented communities. Using Hausa, a major African language, we uncover biases, inaccuracies, and cultural insensitivities in the model's behaviour. With a minimal prompting, our red-teaming efforts reveal that the model can be induced to generate harmful, culturally insensitive, and factually inaccurate content in the language. As a form of reward hacking, we note how the model's safety protocols appear to relax when prompted with polite or grateful language, leading to outputs that could facilitate misinformation and amplify hate speech. For instance, the model operates on the false assumption that common insecticide locally known as Fiya-Fiya (Cyphermethrin) and rodenticide like Shinkafar Bera (a form of Aluminium Phosphide) are safe for human consumption. To contextualise the severity of this error and popularity of the substances, we conducted a survey (n=61) in which 98% of participants identified them as toxic. Additional failures include an inability to distinguish between raw and processed foods and the incorporation of demeaning cultural proverbs to build inaccurate arguments. We surmise that these issues manifest through a form of linguistic reward hacking, where the model prioritises fluent, plausible-sounding output in the target language over safety and truthfulness. We attribute the uncovered flaws primarily to insufficient safety tuning in low-resource linguistic contexts. By concentrating on a low-resource setting, our approach highlights a significant gap in current red-teaming effort and offer some recommendations.
- Abstract(参考訳): OpenAI の GPT-OSS-20b モデルに対する最近の安全性調査に応答して,低リソース言語環境における性能と安全性の整合性に着目し,モデルで発見された脆弱性の集合を要約する。
私たちの仕事のコアモチベーションは、過小評価されたコミュニティからのユーザに対するモデルの信頼性に疑問を呈することです。
主要なアフリカの言語であるHausaを用いて、モデルの振る舞いにおけるバイアス、不正確さ、文化的不感を明らかにする。
最小限のプロンプトによって、我々のリピート努力は、このモデルが、有害で文化的に無感で、事実的に不正確なコンテンツを生成できるように誘導できることを明らかにします。
報酬のハッキングの一形態として、モデルの安全プロトコルが、礼儀正しい言語や感謝の言葉で刺激されたときに、どのようにリラックスしているように見えるかに注目し、誤情報を促進し、ヘイトスピーチを増幅するアウトプットに繋がる。
例えば、このモデルは、地元ではFiya-Fiya(Cyphermethrin)として知られる一般的な殺虫剤や、シンカファー・ベラ(塩酸アルミニウムの一種)のような殺虫剤が人間の消費に安全であるという誤った仮定に基づいている。
この誤りの重大さと物質の人気を文脈的に把握するため,98%の被験者が毒素と同定した調査(n=61)を行った。
その他の失敗には、生食品と加工食品を区別することができないことや、不正確な議論を構築するために文化的証明を非表示にすることが含まれる。
我々は、これらの問題が言語報酬ハッキングの形で現れることを推測し、モデルが安全と真実性よりも対象言語における流動的で確実な出力を優先する。
低リソースの言語文脈での安全性チューニングが不十分であることが主な原因である。
低リソースの環境に集中することによって、私たちのアプローチは、現在の再チームの取り組みにおいて大きなギャップを浮き彫りにし、いくつかの推奨事項を提供します。
関連論文リスト
- Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。
OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。
提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文 参考訳(メタデータ) (2025-05-29T05:25:27Z) - Language Models That Walk the Talk: A Framework for Formal Fairness Certificates [6.5301153208275675]
本研究は,トランスフォーマーに基づく言語モデルの堅牢性を証明するための総合的検証フレームワークを提案する。
我々は、性別に関する用語によって男女の公平さと一貫したアウトプットを確保することに重点を置いている。
我々は、この手法を毒性検出に拡張し、敵に操作された有害な入力が一貫して検出され、適切に検閲されるという正式な保証を提供する。
論文 参考訳(メタデータ) (2025-05-19T06:46:17Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。
これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。
本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Red-Teaming for Inducing Societal Bias in Large Language Models [16.289297654694607]
有害なコンテンツに対する標準安全対策がバイアスに与える影響を評価するために,2つのバイアス特異的なレッドチーム法を提案する。
我々はこれらの攻撃戦略を用いて、複数のオープンソースおよびクローズドソース言語モデルからバイアス応答を誘導する。
我々の手法は、安全ガードレールで訓練された者でさえ、すべてのモデルのバイアスを増加させる。
論文 参考訳(メタデータ) (2024-05-08T01:51:29Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - A Keyword Based Approach to Understanding the Overpenalization of
Marginalized Groups by English Marginal Abuse Models on Twitter [2.9604738405097333]
有害なコンテンツ検出モデルは、疎外されたグループからのコンテンツに対する偽陽性率が高い傾向にある。
テキストベースモデルに関連付けられた潜在的害の重症度を検出・測定するための原則的アプローチを提案する。
提案手法を適用して,Twitterの英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・日本語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語
論文 参考訳(メタデータ) (2022-10-07T20:28:00Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。