論文の概要: Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to
Fine-Tune and Hard to Detect with other LLMs
- arxiv url: http://arxiv.org/abs/2304.08968v1
- Date: Tue, 18 Apr 2023 13:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:39:07.324546
- Title: Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to
Fine-Tune and Hard to Detect with other LLMs
- Title(参考訳): 確率的パロットを求める確率的パロット:LLMは微調整が容易で、他のLLMで検出しにくい
- Authors: Da Silva Gameiro Henrique, Andrei Kucharavy and Rachid Guerraoui
- Abstract要約: 検知器の基準テキストや出力にアクセス可能な攻撃者は、検知器の訓練を完全にフラストレーションできることを示す。
我々は、RNN によるテキスト GAN から LLM への変換の誘惑に対して警告する。
これらの結果は、生成言語モデルの悪意的使用の検出と防止に重要な意味を持つ。
- 参考スコア(独自算出の注目度): 6.295207672539996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-attention revolution allowed generative language models to scale and
achieve increasingly impressive abilities. Such models - commonly referred to
as Large Language Models (LLMs) - have recently gained prominence with the
general public, thanks to conversational fine-tuning, putting their behavior in
line with public expectations regarding AI. This prominence amplified prior
concerns regarding the misuse of LLMs and led to the emergence of numerous
tools to detect LLMs in the wild.
Unfortunately, most such tools are critically flawed. While major
publications in the LLM detectability field suggested that LLMs were easy to
detect with fine-tuned autoencoders, the limitations of their results are easy
to overlook. Specifically, they assumed publicly available generative models
without fine-tunes or non-trivial prompts. While the importance of these
assumptions has been demonstrated, until now, it remained unclear how well such
detection could be countered.
Here, we show that an attacker with access to such detectors' reference human
texts and output not only evades detection but can fully frustrate the detector
training - with a reasonable budget and all its outputs labeled as such.
Achieving it required combining common "reinforcement from critic" loss
function modification and AdamW optimizer, which led to surprisingly good
fine-tuning generalization. Finally, we warn against the temptation to
transpose the conclusions obtained in RNN-driven text GANs to LLMs due to their
better representative ability.
These results have critical implications for the detection and prevention of
malicious use of generative language models, and we hope they will aid the
designers of generative models and detectors.
- Abstract(参考訳): 自己注意革命により、生成言語モデルは拡大し、ますます印象的な能力を達成することができた。
このようなモデル(一般的には large language model (llms) と呼ばれる)は、会話の微調整によって、最近一般大衆に注目を集め、aiに関する一般の期待と一致している。
この顕著さは、LSMの誤用に関する以前の懸念を増幅し、野生のLSMを検出する多くのツールが出現した。
残念ながら、このようなツールのほとんどは重大な欠陥があります。
LLM検出性分野の主要な出版物は、LPMは微調整されたオートエンコーダで容易に検出できることを示唆しているが、その結果の制限は見落としやすい。
具体的には、細管や非自明なプロンプトを使わずに、公開可能な生成モデルを仮定した。
これらの仮定の重要性は実証されてきたが、これまでその検出がどの程度うまく対応できるかは分かっていない。
本稿では,このような検出者の参照する人間のテキストにアクセスした攻撃者が,検出を回避できるだけでなく,検出者のトレーニングを完全にイライラさせることができることを示す。
一般的な「批判からの強化」損失関数の修正とAdamWオプティマイザの組み合わせが必要であり、驚くほど微調整の一般化につながった。
最後に,RNN によるテキスト GAN から LLM への変換の誘惑に対して警告を行う。
これらの結果は、生成言語モデルの悪用の検出と防止に重要な意味を持ち、生成モデルや検出装置の設計者を支援することを願っている。
関連論文リスト
- Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [80.497886066705]
大規模言語モデル(LLM)は、可聴性に富むが、実際には正しくない応答を生成する傾向にある。
我々は,長期化タスクに対する幻覚をより確実に緩和するRLアプローチを開発した。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by
Exploring Refusal Loss Landscapes [69.5883095262619]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Prompting and Fine-Tuning Open-Sourced Large Language Models for Stance
Classification [1.6317061277457001]
スタンス分類は、社会科学から機械学習まで、領域における研究の焦点となっている。
現在のスタンス検出法は、主に文の手動アノテーションに依存し、次に教師付き機械学習モデルを訓練する。
我々は,手作業によるアノテーションの必要性を低減あるいは排除できるスタンス検出手法として,大規模言語モデルの利用について検討する。
論文 参考訳(メタデータ) (2023-09-24T19:36:17Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。