論文の概要: Red Teaming Language Model Detectors with Language Models
- arxiv url: http://arxiv.org/abs/2305.19713v2
- Date: Thu, 19 Oct 2023 05:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 19:59:03.080951
- Title: Red Teaming Language Model Detectors with Language Models
- Title(参考訳): 言語モデルを用いたRed Teaming Language Model Detector
- Authors: Zhouxing Shi, Yihan Wang, Fan Yin, Xiangning Chen, Kai-Wei Chang,
Cho-Jui Hsieh
- Abstract要約: 大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
- 参考スコア(独自算出の注目度): 114.36392560711022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalence and strong capability of large language models (LLMs) present
significant safety and ethical risks if exploited by malicious users. To
prevent the potentially deceptive usage of LLMs, recent works have proposed
algorithms to detect LLM-generated text and protect LLMs. In this paper, we
investigate the robustness and reliability of these LLM detectors under
adversarial attacks. We study two types of attack strategies: 1) replacing
certain words in an LLM's output with their synonyms given the context; 2)
automatically searching for an instructional prompt to alter the writing style
of the generation. In both strategies, we leverage an auxiliary LLM to generate
the word replacements or the instructional prompt. Different from previous
works, we consider a challenging setting where the auxiliary LLM can also be
protected by a detector. Experiments reveal that our attacks effectively
compromise the performance of all detectors in the study with plausible
generations, underscoring the urgent need to improve the robustness of
LLM-generated text detection systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の流行と強力な能力は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
LLMの潜在的な誤用を防止するため、最近の研究でLLM生成テキストを検出し、LLMを保護するアルゴリズムが提案されている。
本稿では,これらllm検出器のロバスト性と信頼性について検討する。
我々は2種類の攻撃戦略を研究する。
1) LLMの出力中の特定の単語を,その文脈が与えられた同義語に置き換える。
2) 生成者の書き方を変更するための指示書を自動で検索する。
どちらの戦略も補助的なLCMを利用して単語置換や命令プロンプトを生成する。
従来の研究と異なり、補助LDMを検出器で保護する難易度の設定も検討している。
実験により,本研究における全検出器の性能を効果的に損なうことが判明し,llm生成テキスト検出システムの堅牢性向上を急務とする必要性が示唆された。
関連論文リスト
- From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - LLM-Detector: Improving AI-Generated Chinese Text Detection with
Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。
LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文 参考訳(メタデータ) (2024-02-02T05:54:12Z) - Detecting LLM-Assisted Writing in Scientific Communication: Are We There
Yet? [3.419330841031544]
大規模言語モデル(LLM)は、特に筆記支援の領域において、テキスト生成を著しく変えた。
LLM支援文字の正確な認識を促進するための潜在的な手段は、自動検出器の使用である。
近縁なLCM生成テキスト検出器を4つ評価した結果, 簡易なアドホック検出器と比較して, その最適性能が示された。
論文 参考訳(メタデータ) (2024-01-30T08:07:28Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection
Method [37.61193254658253]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - A Survey on LLM-generated Text Detection: Necessity, Methods, and Future
Directions [41.71052488278973]
LLM生成テキストを検出できる検出器を開発する必要がある。
このことは、LLMが生成するコンテンツの有害な影響から、LLMの潜在的な誤用や、芸術的表現やソーシャルネットワークのような保護領域の軽減に不可欠である。
検出器技術は最近、透かし技術、ゼロショット法、微動LMs法、対向学習法、LSMを検出器として使う方法、そして人力支援法などの革新によって、顕著な進歩をみせている。
論文 参考訳(メタデータ) (2023-10-23T09:01:13Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Towards Codable Watermarking for Injecting Multi-bit Information to LLM [90.13097900576113]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
LLMの悪用を防ぐために、テキストのソースを特定する必要性が高まっている。
テキスト透かし技術は、LLMによってテキストが生成されるかどうかを識別する上で信頼性があることが証明されている。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。