論文の概要: Red Teaming Language Model Detectors with Language Models
- arxiv url: http://arxiv.org/abs/2305.19713v2
- Date: Thu, 19 Oct 2023 05:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 19:59:03.080951
- Title: Red Teaming Language Model Detectors with Language Models
- Title(参考訳): 言語モデルを用いたRed Teaming Language Model Detector
- Authors: Zhouxing Shi, Yihan Wang, Fan Yin, Xiangning Chen, Kai-Wei Chang,
Cho-Jui Hsieh
- Abstract要約: 大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
- 参考スコア(独自算出の注目度): 114.36392560711022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalence and strong capability of large language models (LLMs) present
significant safety and ethical risks if exploited by malicious users. To
prevent the potentially deceptive usage of LLMs, recent works have proposed
algorithms to detect LLM-generated text and protect LLMs. In this paper, we
investigate the robustness and reliability of these LLM detectors under
adversarial attacks. We study two types of attack strategies: 1) replacing
certain words in an LLM's output with their synonyms given the context; 2)
automatically searching for an instructional prompt to alter the writing style
of the generation. In both strategies, we leverage an auxiliary LLM to generate
the word replacements or the instructional prompt. Different from previous
works, we consider a challenging setting where the auxiliary LLM can also be
protected by a detector. Experiments reveal that our attacks effectively
compromise the performance of all detectors in the study with plausible
generations, underscoring the urgent need to improve the robustness of
LLM-generated text detection systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の流行と強力な能力は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
LLMの潜在的な誤用を防止するため、最近の研究でLLM生成テキストを検出し、LLMを保護するアルゴリズムが提案されている。
本稿では,これらllm検出器のロバスト性と信頼性について検討する。
我々は2種類の攻撃戦略を研究する。
1) LLMの出力中の特定の単語を,その文脈が与えられた同義語に置き換える。
2) 生成者の書き方を変更するための指示書を自動で検索する。
どちらの戦略も補助的なLCMを利用して単語置換や命令プロンプトを生成する。
従来の研究と異なり、補助LDMを検出器で保護する難易度の設定も検討している。
実験により,本研究における全検出器の性能を効果的に損なうことが判明し,llm生成テキスト検出システムの堅牢性向上を急務とする必要性が示唆された。
関連論文リスト
- "I know myself better, but not really greatly": Using LLMs to Detect and Explain LLM-Generated Texts [10.454446545249096]
大規模言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示した。
本稿では,LLMによる人為的テキストの検出と説明機能について検討する。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [49.13497493053742]
LLMの脆弱性に関する以前の研究は、しばしば非感覚的な敵のプロンプトに頼っていた。
このギャップには、より現実的で強力な脅威である、人間が読める敵のプロンプトに焦点を合わせることで対処する。
我々の重要な貢献は、映画スクリプトを利用した状況駆動攻撃で、LLMを騙すのに成功する文脈的関連性があり、人間可読なプロンプトを作成することである。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。
これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。
以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-11T04:52:41Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - RAFT: Realistic Attacks to Fool Text Detectors [16.749257564123194]
大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な流速を示した。
偽情報の拡散など倫理的でない応用が懸念されている。
RAFT:既存のLLM検出器に対する文法エラーのないブラックボックス攻撃について述べる。
論文 参考訳(メタデータ) (2024-10-04T17:59:00Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Detecting LLM-Assisted Writing in Scientific Communication: Are We There Yet? [2.894383634912343]
大規模言語モデル(LLM)は、特に筆記支援の領域において、テキスト生成を著しく変えた。
LLM支援文字の正確な認識を促進するための潜在的な手段は、自動検出器の使用である。
近縁なLCM生成テキスト検出器を4つ評価した結果, 簡易なアドホック検出器と比較して, その最適性能が示された。
論文 参考訳(メタデータ) (2024-01-30T08:07:28Z) - A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions [39.36381851190369]
LLM生成テキストを検出できる検出器を開発する必要がある。
このことは、LLMが生成するコンテンツの有害な影響から、LLMの潜在的な誤用や、芸術的表現やソーシャルネットワークのような保護領域の軽減に不可欠である。
この検出器技術は、ウォーターマーキング技術、統計ベースの検出器、神経ベース検出器、そして人間の支援手法の革新によって、最近顕著な進歩をみせている。
論文 参考訳(メタデータ) (2023-10-23T09:01:13Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。