Fugu-MT 論文翻訳(概要): On the Exploitability of Reinforcement Learning with Human Feedback for Large Language Models

論文の概要: On the Exploitability of Reinforcement Learning with Human Feedback for Large Language Models

arxiv url: http://arxiv.org/abs/2311.09641v1
Date: Thu, 16 Nov 2023 07:48:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 16:01:29.615141
Title: On the Exploitability of Reinforcement Learning with Human Feedback for Large Language Models
Title（参考訳）: 大規模言語モデルに対する人間フィードバックを用いた強化学習の爆発性について
Authors: Jiongxiao Wang, Junlin Wu, Muhao Chen, Yevgeniy Vorobeychik, Chaowei Xiao
Abstract要約: Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
参考スコア（独自算出の注目度）: 67.29231594376493
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning with Human Feedback (RLHF) is a methodology designed to align Large Language Models (LLMs) with human preferences, playing an important role in LLMs alignment. Despite its advantages, RLHF relies on human annotators to rank the text, which can introduce potential security vulnerabilities if any adversarial annotator (i.e., attackers) manipulates the ranking score by up-ranking any malicious text to steer the LLM adversarially. To assess the red-teaming of RLHF against human preference data poisoning, we propose RankPoison, a poisoning attack method on candidates' selection of preference rank flipping to reach certain malicious behaviors (e.g., generating longer sequences, which can increase the computational cost). With poisoned dataset generated by RankPoison, we can perform poisoning attacks on LLMs to generate longer tokens without hurting the original safety alignment performance. Moreover, applying RankPoison, we also successfully implement a backdoor attack where LLMs can generate longer answers under questions with the trigger word. Our findings highlight critical security challenges in RLHF, underscoring the necessity for more robust alignment methods for LLMs.
Abstract（参考訳）: 強化学習と人間フィードバック(Reinforcement Learning with Human Feedback, RLHF)は、LLMのアライメントにおいて重要な役割を果たす大規模言語モデル(LLM)と人間の嗜好を結びつけるために設計された方法論である。その利点にもかかわらず、RLHFは人間のアノテータにテキストのランク付けを頼っており、敵のアノテータ(すなわち攻撃者)がLLMを敵に操るために悪意のあるテキストを上位に並べてランキングスコアを操作した場合、潜在的なセキュリティ上の脆弱性を導入することができる。本稿では,人間の嗜好データ中毒に対するrlhfのレッドチーム化を評価するために,特定の悪意ある行動(例えば,長いシーケンスの生成,計算コストの増大など)に到達するために,候補の選好ランクをひっくり返すための中毒攻撃手法であるrankpoisonを提案する。 RankPoisonが生成した有毒なデータセットにより、LLMに対する中毒攻撃を実行して、元の安全アライメントのパフォーマンスを損なうことなく、より長いトークンを生成することができる。 RankPoisonを適用することで,LLMがトリガー語による質問に対して長い回答を生成できるバックドアアタックの実装に成功した。我々の研究は、LLHFにおける重要なセキュリティ上の課題を浮き彫りにした。

関連論文リスト

Poisoning Attacks to Local Differential Privacy for Ranking Estimation [8.14832255549522]
ローカルディファレンシャルプライバシ(LDP)は、ユーザが入力を摂動させ、データの可視的識別性を提供する。本稿では,まず,ランキング推定のための新規な毒殺攻撃について紹介する。我々はkRR, OUE, OLHプロトコルの対応戦略を提案する。
論文参考訳（メタデータ） (2025-06-30T16:39:02Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Exploring Backdoor Attack and Defense for LLM-empowered Recommendations [15.098844020816552]
本稿では,RecSys(BadRec)に対するバックドアインジェクション・ポジショニング(Backdoor Injection Poisoning)と呼ばれる新たな攻撃フレームワークを提案する。 BadRecはアイテムのタイトルをトリガーで混乱させ、いくつかの偽のユーザーを使ってこれらのアイテムと対話し、トレーニングセットを効果的に毒化し、RecSysにバックドアを注入する。我々は,このようなセキュリティの脅威を軽減するため,ポゾン・スキャンナー(P-Scanner)と呼ばれるユニバーサル・ディフェンス戦略を提案する。
論文参考訳（メタデータ） (2025-04-15T13:37:38Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Defending against Reverse Preference Attacks is Difficult [26.872318173182414]
大きな言語モデル(LLM)は、有害なデータセットに対する教師付き微調整(SFT)のようなトレーニング時の攻撃に対して脆弱である。本研究では,LLMが人間からのフィードバックから強化学習を行う際に,相手の報酬を用いて有害な行動を学習できるようにするために,Reverse Preference Attacks (RPA)を提案する。
論文参考訳（メタデータ） (2024-09-19T17:10:34Z)
Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T09:46:25Z)
Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs [9.624124576891075]
既存のアライメント手法は、外部エビデンスとパラメトリックメモリが競合する場合、大きな言語モデル(LLM)をアダプティブ・シャメレオン(Adaptive Chameleon)に導くことができる。我々は、AIフィードバックを利用してLLMの最適戦略を特定し、コンテキスト間の競合をナビゲートする新しいフレームワーク、Dialectical Alignment(DA)を提案する。実験の結果,DAは有毒なデータ攻撃防御を20倍に改善し,追加のプロンプトエンジニアリングを必要としないことがわかった。
論文参考訳（メタデータ） (2024-03-30T22:41:05Z)
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文参考訳（メタデータ） (2024-02-25T06:46:27Z)
Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。 In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文参考訳（メタデータ） (2024-02-21T01:30:03Z)
ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。 6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2024-02-19T06:58:42Z)
ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。 LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文参考訳（メタデータ） (2024-02-11T22:40:12Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。