Fugu-MT 論文翻訳(概要): Jailbreaking as a Reward Misspecification Problem

論文の概要: Jailbreaking as a Reward Misspecification Problem

arxiv url: http://arxiv.org/abs/2406.14393v3
Date: Fri, 04 Oct 2024 15:10:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 09:02:43.672059
Title: Jailbreaking as a Reward Misspecification Problem
Title（参考訳）: Reward Misspecification 問題としての脱獄
Authors: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong,
Abstract要約: 本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。 ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
参考スコア（独自算出の注目度）: 80.52431374743998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. This misspecification occurs when the reward function fails to accurately capture the intended behavior, leading to misaligned model outputs. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts in a reward-misspecified space. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark against various target aligned LLMs while preserving the human readability of the generated prompts. Furthermore, these attacks on open-source models demonstrate high transferability to closed-source models like GPT-4o and out-of-distribution tasks from HarmBench. Detailed analysis highlights the unique advantages of the proposed reward misspecification objective compared to previous methods, offering new insights for improving LLM safety and robustness.
Abstract（参考訳）: 大規模言語モデル(LLM)の普及は、その安全性と信頼性、特に敵の攻撃に対する脆弱性に対する懸念を引き起こしている。本稿では,この脆弱性をアライメント過程における不特定性に寄与する新たな視点を提案する。この誤特定は、報酬関数が意図した振る舞いを正確にキャプチャできない場合に起こり、不整合モデル出力につながる。本稿では,報酬の誤特定の程度を定量化するための指標ReGapを紹介し,有害なバックドアプロンプトを検出する上での有効性とロバスト性を示す。これらの知見に基づいて、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームシステムであるReMissを提案する。 ReMissは、生成されたプロンプトの人間の可読性を保ちながら、AdvBenchベンチマークにおける様々なターゲットアライメントLDMに対する最先端の攻撃成功率を達成する。さらに、これらのオープンソースモデルに対する攻撃は、GPT-4oのようなクローズドソースモデルやHarmBenchからのアウト・オブ・ディストリビューションタスクへの高い転送可能性を示す。詳細な分析は、従来の方法と比較して、提案された報酬の不特定目標の独特な利点を強調し、LLMの安全性と堅牢性を改善するための新たな洞察を提供する。

関連論文リスト

Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。 InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。 IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文参考訳（メタデータ） (2025-10-15T15:51:59Z)
IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。 IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文参考訳（メタデータ） (2025-08-27T16:47:31Z)
One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文参考訳（メタデータ） (2025-07-11T17:55:22Z)
Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking [44.8238758047607]
既存の敵攻撃は、通常、単一点、欲張り世代における有害な反応を標的にしている。本稿では,テールリスクを含む出力分布全体を明示的にモデル化する,逆評価のための新しいフレームワークを提案する。我々のフレームワークはまた、異なる攻撃アルゴリズムが出力の害分布にどのように影響するかを分析することができる。
論文参考訳（メタデータ） (2025-07-06T16:13:33Z)
Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文参考訳（メタデータ） (2025-06-06T18:05:45Z)
MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。 OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文参考訳（メタデータ） (2025-06-03T01:37:09Z)
ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs [0.9285458070502282]
大きな言語モデル(LLM)は様々なタスクで大きな成功を収めていますが、安全性とセキュリティに関する懸念が生まれています。機械学習モデルを解析し、監視するために、モデルに基づく分析は、ステートフルなディープニューラルネットワークにおいて顕著な可能性を示している。本稿では,表現誘導抽象化を用いたモデルベース分析フレームワークReGAを提案し,LLMを有害なプロンプトや世代に対して保護する。
論文参考訳（メタデータ） (2025-06-02T15:17:38Z)
Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文参考訳（メタデータ） (2025-05-29T19:47:50Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文参考訳（メタデータ） (2025-02-24T15:34:48Z)
Understanding and Enhancing the Transferability of Jailbreaking Attacks [12.446931518819875]
脱獄攻撃は、オープンソースの大規模言語モデル(LLM)を効果的に操作し、有害な応答を生成する。本研究は, モデルが意図的知覚に与える影響を分析し, 脱獄攻撃の伝達可能性について検討する。そこで本研究では,入力中の中性インテリジェントトークンを均一に分散するPerceived-Iportance Flatten (PiF)法を提案する。
論文参考訳（メタデータ） (2025-02-05T10:29:54Z)
Enhancing AI Safety Through the Fusion of Low Rank Adapters [7.384556630042846]
低ランク適応核融合は、悪意のあるプロンプトに直面した場合に有害な応答を緩和する。タスクアダプタと安全アダプタとのLoRA融合を利用して, 有害度率を42%低減した。また、モデルが安全でないものに近い安全なプロンプトを拒否する、誇張された安全行動も観察する。
論文参考訳（メタデータ） (2024-12-30T13:12:27Z)
Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。 LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文参考訳（メタデータ） (2024-10-09T12:09:30Z)
CALoR: Towards Comprehensive Model Inversion Defense [43.2642796582236]
Model Inversion Attacks (MIAs)は、プライバシに敏感なトレーニングデータを、リリースされた機械学習モデルにエンコードされた知識から回復することを目的としている。 MIA分野の最近の進歩は、複数のシナリオにおける攻撃性能を大幅に向上させた。信頼性適応と低ランク圧縮を統合した堅牢な防御機構を提案する。
論文参考訳（メタデータ） (2024-10-08T08:44:01Z)
ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文参考訳（メタデータ） (2024-10-05T02:58:20Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文参考訳（メタデータ） (2024-06-10T18:57:22Z)
A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文参考訳（メタデータ） (2024-01-02T02:06:48Z)
Unveiling Vulnerabilities of Contrastive Recommender Systems to Poisoning Attacks [48.911832772464145]
コントラスト学習(CL)は近年,レコメンダシステムの領域で注目されている。本稿では,CLをベースとしたレコメンデータシステムの脆弱性を明らかにする。
論文参考訳（メタデータ） (2023-11-30T04:25:28Z)
RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。 RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文参考訳（メタデータ） (2022-07-12T19:34:47Z)
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文参考訳（メタデータ） (2022-01-10T18:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。