論文の概要: Understanding the Effects of RLHF on the Quality and Detectability of LLM-Generated Texts
- arxiv url: http://arxiv.org/abs/2503.17965v1
- Date: Sun, 23 Mar 2025 07:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:19.248726
- Title: Understanding the Effects of RLHF on the Quality and Detectability of LLM-Generated Texts
- Title(参考訳): LLMテキストの品質と検出性に及ぼすRLHFの影響の解明
- Authors: Beining Xu, Arkaitz Zubiaga,
- Abstract要約: 人間のフィードバックからの強化学習によるさらなる編集が、生成したテキストの品質に与える影響について検討する。
RLHFはより検出しやすく、長く、繰り返し出力する。
訓練ベースの検出器は短いテキストやコードを含むテキストに弱いが、ゼロショット検出器はより堅牢である。
- 参考スコア(独自算出の注目度): 7.242609314791262
- License:
- Abstract: Large Language Models (LLMs) have demonstrated exceptional performance on a range of downstream NLP tasks by generating text that closely resembles human writing. However, the ease of achieving this similarity raises concerns from potential malicious uses at scale by bad actors, as LLM-generated text becomes increasingly difficult to discern from human text. Although detection methods have been developed to address this issue, bad actors can further manipulate LLM-generated texts to make them less detectable. In this work, we study how further editing texts with Reinforcement Learning from Human Feedback (RLHF), which aligns model outputs with human preferences, affects (a) the quality of generated texts for two tasks, and (b) the performance of LLM-generated text detectors, looking at both training-based and zero-shot detection methods. Although RLHF improves the quality of LLM-generated texts, we find that it also tends to produce more detectable, lengthy, and repetitive outputs. Additionally, we observe that training-based detectors are vulnerable to short texts and to texts that incorporate code, whereas zero-shot detectors exhibit greater robustness.
- Abstract(参考訳): 大規模言語モデル (LLM) は、人間の文章によく似たテキストを生成することによって、下流のNLPタスクに例外的な性能を示す。
しかし、この類似性を実現することの容易さは、LLM生成したテキストを人間のテキストから識別することがますます困難になるため、悪質なアクターによって大規模に悪用される可能性があるという懸念を生じさせる。
この問題に対処するために検出方法が開発されているが、悪いアクターはLLM生成したテキストをさらに操作して検出しにくくすることができる。
本研究では,RLHF(Reinforcement Learning from Human Feedback)によるテキストのさらなる編集について検討する。
(a)2つの作業のための生成されたテキストの品質
b) LLM 生成テキスト検出器の性能について, トレーニングベースおよびゼロショット検出法の両方について検討した。
RLHFはLLM生成テキストの品質を向上させるが、より検出しやすく、長く、繰り返し出力する傾向にある。
さらに、トレーニングベースの検出器は短いテキストやコードを含むテキストに対して脆弱であるのに対し、ゼロショット検出器はより堅牢であることを示す。
関連論文リスト
- "I know myself better, but not really greatly": Using LLMs to Detect and Explain LLM-Generated Texts [10.454446545249096]
大規模言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示した。
本稿では,LLMによる人為的テキストの検出と説明機能について検討する。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Understanding the Effects of Human-written Paraphrases in LLM-generated Text Detection [7.242609314791262]
Human & LLM Paraphrase Collection (HLPC)は、人間の文章とパラフレーズを組み込んだ第一種データセットである。
我々は,人書きパラフレーズ,GPTとOPTのLLM生成文書,DIPPERとBARTのLLM生成パラフレーズを組み込んだ分類実験を行った。
以上の結果から,人文パラフレーズの含浸がLLM検出性能に大きな影響を与え,TPR@1%FPRが促進され,AUROCのトレードオフや精度が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-06T10:06:21Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions [39.36381851190369]
LLM生成テキストを検出できる検出器を開発する必要がある。
このことは、LLMが生成するコンテンツの有害な影響から、LLMの潜在的な誤用や、芸術的表現やソーシャルネットワークのような保護領域の軽減に不可欠である。
この検出器技術は、ウォーターマーキング技術、統計ベースの検出器、神経ベース検出器、そして人間の支援手法の革新によって、最近顕著な進歩をみせている。
論文 参考訳(メタデータ) (2023-10-23T09:01:13Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - The Science of Detecting LLM-Generated Texts [47.49470179549773]
大型言語モデル(LLMs)の出現は、人間によって書かれたテキストとほとんど区別できないテキストの作成につながった。
このことが、誤報の拡散や教育制度の混乱など、このようなテキストの誤用の可能性への懸念を引き起こしている。
本研究の目的は,既存のLLM生成テキスト検出技術の概要を提供し,言語生成モデルの制御と制御を強化することである。
論文 参考訳(メタデータ) (2023-02-04T04:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。