Fugu-MT 論文翻訳(概要): Language Model Unalignment: Parametric Red-Teaming to Expose Hidden Harms and Biases

論文の概要: Language Model Unalignment: Parametric Red-Teaming to Expose Hidden Harms and Biases

arxiv url: http://arxiv.org/abs/2310.14303v2
Date: Mon, 13 Nov 2023 05:28:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 20:01:40.551902
Title: Language Model Unalignment: Parametric Red-Teaming to Expose Hidden Harms and Biases
Title（参考訳）: 言語モデルアンアライメント:隠れたハームとバイアスを抽出するパラメトリックなレッドチーム
Authors: Rishabh Bhardwaj, Soujanya Poria
Abstract要約: Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
参考スコア（独自算出の注目度）: 32.2246459413988
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Red-teaming has been a widely adopted way to evaluate the harmfulness of Large Language Models (LLMs). It aims to jailbreak a model's safety behavior to make it act as a helpful agent disregarding the harmfulness of the query. Existing methods are primarily based on input text-based red-teaming such as adversarial prompts, low-resource prompts, or contextualized prompts to condition the model in a way to bypass its safe behavior. Bypassing the guardrails uncovers hidden harmful information and biases in the model that are left untreated or newly introduced by its safety training. However, prompt-based attacks fail to provide such a diagnosis owing to their low attack success rate, and applicability to specific models. In this paper, we present a new perspective on LLM safety research i.e., parametric red-teaming through Unalignment. It simply (instruction) tunes the model parameters to break model guardrails that are not deeply rooted in the model's behavior. Unalignment using as few as 100 examples can significantly bypass commonly referred to as CHATGPT, to the point where it responds with an 88% success rate to harmful queries on two safety benchmark datasets. On open-source models such as VICUNA-7B and LLAMA-2-CHAT 7B AND 13B, it shows an attack success rate of more than 91%. On bias evaluations, Unalignment exposes inherent biases in safety-aligned models such as CHATGPT and LLAMA- 2-CHAT where the model's responses are strongly biased and opinionated 64% of the time.
Abstract（参考訳）: red-teamingは大規模言語モデル(llm)の有害性を評価する手段として広く採用されている。これは、モデルの安全動作をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。既存の手法は主に、敵対的プロンプト、低リソースプロンプト、文脈化されたプロンプトといった入力テキストベースのレッドチームに基づいており、安全な振る舞いを回避している。ガードレールを通過させることで、安全訓練によって新たに導入された未処理または未処理のモデルに隠された有害な情報やバイアスが明らかになる。しかし、攻撃成功率の低さと特定のモデルへの適用性から、プロンプトベースの攻撃はそのような診断を提供しない。本稿では,LLMの安全性研究,すなわちUnalignmentによるパラメトリックレッドチームについて,新たな視点を示す。単に(指示)モデルパラメータをチューニングして、モデルの振舞いに深く根付いていないモデルガードレールを壊す。最大100のサンプルを使用したアンアライメントは、一般的にCHATGPTと呼ばれるものから、2つのセーフティベンチマークデータセットで有害なクエリに対して88%の成功率で応答する時点まで、大幅にバイパスすることができる。 VICUNA-7BやLAMA-2-CHAT 7Bや13Bといったオープンソースのモデルでは、攻撃成功率は91%以上である。バイアス評価では、unalignmentは、モデルの応答が強くバイアスされ、時間の64%が意見を呈するchatgptやllama- 2-chatのような安全アライメントモデルに固有のバイアスを露呈する。

関連論文リスト

Trojan Horses in Recruiting: A Red-Teaming Case Study on Indirect Prompt Injection in Standard vs. Reasoning Models [0.0]
推論(Reasoning)またはChain-of-Thought(Chain-of-Thought)モデルには、自己修正能力による安全性上のアドバンテージがある。本研究では,Qwen 3 30Bアーキテクチャを用いた安全スルー推論の前提に挑戦する。標準モデルは単純な攻撃を正当化するために脆い幻覚に頼ったが、推論モデルは危険な双対性を示した。
論文参考訳（メタデータ） (2026-02-19T19:26:21Z)
Split Personality Training: Revealing Latent Knowledge Through Alternate Personalities [15.59200865541989]
スプリット・パーソナリティ・トレーニング (SPT) を導入し, 正常手術中も動作しないパラメータに第2の正直なペルソナ'を微調整する。 SPTは全体の96%の精度を達成し、Arthhropicは0%の精度で報告している。
論文参考訳（メタデータ） (2026-02-05T10:45:48Z)
Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文参考訳（メタデータ） (2025-10-07T15:32:59Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文参考訳（メタデータ） (2024-10-28T14:48:05Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Single Character Perturbations Break LLM Alignment [20.79833694266861]
モデル入力の端に空間を付加するだけで、モデルディフェンスを壊すことが可能であることを示す。トークン化されたトレーニングデータに単一空間が存在する状況は、モデルにトリガーされた時にリストを生成することを奨励する。本研究は, 現行モデルアライメントの脆弱さを浮き彫りにして, より堅牢なアライメント手法の開発の重要性を推し進めるものである。
論文参考訳（メタデータ） (2024-07-03T16:03:10Z)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文参考訳（メタデータ） (2024-06-21T01:37:39Z)
Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文参考訳（メタデータ） (2024-01-31T07:26:47Z)
DALA: A Distribution-Aware LoRA-Based Adversarial Attack against Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文参考訳（メタデータ） (2023-11-14T23:43:47Z)
Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文参考訳（メタデータ） (2023-08-02T05:54:01Z)
Explore, Establish, Exploit: Red Teaming Language Models from Scratch [7.949645304649025]
我々は、相手が失敗を分類する方法から始めない「ゼロから」レッドチームを考える。我々は,この手法を用いて,偽文を抽出する入力のクラスを発見する。
論文参考訳（メタデータ） (2023-06-15T18:49:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。