Fugu-MT 論文翻訳(概要): Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models?

論文の概要: Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models?

arxiv url: http://arxiv.org/abs/2408.02651v1
Date: Mon, 5 Aug 2024 17:27:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 12:56:48.519579
Title: Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models?
Title（参考訳）: 強化学習は大規模言語モデルで隠れた危険を解き放つことができるか?
Authors: Mohammad Bahrami Karkevandi, Nishant Vishwamitra, Peyman Najafirad,
Abstract要約: 大規模言語モデル(LLM)は、自然言語処理における印象的な機能を示している。しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。本稿では,LLMをジェイルブレイクし,敵の引き金を通したアライメントを逆転させる概念について検討する。
参考スコア（独自算出の注目度）: 3.258629327038072
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities in natural language tasks, but their safety and morality remain contentious due to their training on internet text corpora. To address these concerns, alignment techniques have been developed to improve the public usability and safety of LLMs. Yet, the potential for generating harmful content through these models seems to persist. This paper explores the concept of jailbreaking LLMs-reversing their alignment through adversarial triggers. Previous methods, such as soft embedding prompts, manually crafted prompts, and gradient-based automatic prompts, have had limited success on black-box models due to their requirements for model access and for producing a low variety of manually crafted prompts, making them susceptible to being blocked. This paper introduces a novel approach using reinforcement learning to optimize adversarial triggers, requiring only inference API access to the target model and a small surrogate model. Our method, which leverages a BERTScore-based reward function, enhances the transferability and effectiveness of adversarial triggers on new black-box models. We demonstrate that this approach improves the performance of adversarial triggers on a previously untested language model.
Abstract（参考訳）: 大きな言語モデル(LLM)は、自然言語のタスクにおいて印象的な能力を示してきたが、インターネットテキストコーパスでのトレーニングのため、その安全性とモラルは相変わらず論争的である。これらの課題に対処するため,LLMの一般ユーザビリティと安全性を向上させるためにアライメント技術が開発されている。しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。本稿では,LLMをジェイルブレイクし,敵のトリガを通したアライメントを逆転させる概念について検討する。ソフト埋め込みプロンプト、手作業によるプロンプト、勾配に基づく自動プロンプトといった従来の手法は、モデルアクセスの要求や手作業によるプロンプトの低さのためにブラックボックスモデルでは限定的な成功を収めており、ブロックされる可能性がある。本稿では,ターゲットモデルと小さなサロゲートモデルへの推論APIアクセスのみを必要としながら,敵のトリガを最適化するために強化学習を用いた新しいアプローチを提案する。提案手法はBERTScoreに基づく報酬関数を利用して,新たなブラックボックスモデル上での逆トリガの転送性と有効性を向上させる。提案手法は,未検証の言語モデル上での逆トリガの性能向上を実証する。

関連論文リスト

Chain-of-Lure: A Synthetic Narrative-Driven Approach to Compromise Large Language Models [15.134149399922192]
そこで本研究では,Chain-of-Thought機構にインスパイアされた新しいジェイルブレイク手法を提案する。攻撃モデルは、ミッション転送を使用して、対話において有害なユーザ意図を隠蔽し、連鎖した物語のルアーを生成し、被害者モデルの推論能力を刺激する。我々の実験では、より弱い安全機構を持つモデルはより強力な攻撃能力を示し、モデルを活用できるだけでなく、他人を傷つける助けにもなることを示した。
論文参考訳（メタデータ） (2025-05-23T06:19:05Z)
Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文参考訳（メタデータ） (2024-12-09T21:36:10Z)
Improved Large Language Model Jailbreak Detection via Pretrained Embeddings [0.0]
本稿では,従来の機械学習分類アルゴリズムを用いた検索に適したペアリングテキスト埋め込みに基づくジェイルブレイクプロンプトの検出手法を提案する。当社のアプローチは,オープンソースのLLMセキュリティアプリケーションから入手可能なすべてのメソッドを上回ります。
論文参考訳（メタデータ） (2024-12-02T14:35:43Z)
DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文参考訳（メタデータ） (2024-11-14T01:48:08Z)
SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。本稿では,モデル自体が生成したデータを活用することで,セキュリティを向上させるための最適化フレームワークであるmathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)について紹介する。
論文参考訳（メタデータ） (2024-08-05T16:55:06Z)
Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization [34.29833630422768]
Adversarial Contrastive Decoding (ACD)は、プロンプトベースのコントラストデコーディングのための2つの逆のシステムプロンプトを生成する最適化ベースのフレームワークである。 ACDは、元の生成能力を犠牲にすることなく、従来のトレーニング不要復号法よりもはるかに優れた安全性を実現する。
論文参考訳（メタデータ） (2024-06-24T15:51:30Z)
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。 LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T15:47:00Z)
Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文参考訳（メタデータ） (2024-01-27T08:09:33Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。 5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文参考訳（メタデータ） (2023-10-04T16:39:31Z)
FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文参考訳（メタデータ） (2023-08-08T14:03:08Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。