論文の概要: Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2412.11506v1
- Date: Mon, 16 Dec 2024 07:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:38.660776
- Title: Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection
- Title(参考訳): Glimpse: ゼロショットLCM生成テキスト検出のためのプライオリティモデルを用いたホワイトボックス手法の提案
- Authors: Guangsheng Bao, Yanbin Zhao, Juncai He, Yue Zhang,
- Abstract要約: 部分的な観測から全分布を予測する確率分布推定手法であるGlimpseを提案する。
Glimpseの単純さにもかかわらず、Entropy, Rank, Log-Rank, Fast-DetectGPTといったホワイトボックスメソッドを最新のプロプライエタリなモデルに拡張することに成功しました。
- 参考スコア(独自算出の注目度): 15.902823469821431
- License:
- Abstract: Advanced large language models (LLMs) can generate text almost indistinguishable from human-written text, highlighting the importance of LLM-generated text detection. However, current zero-shot techniques face challenges as white-box methods are restricted to use weaker open-source LLMs, and black-box methods are limited by partial observation from stronger proprietary LLMs. It seems impossible to enable white-box methods to use proprietary models because API-level access to the models neither provides full predictive distributions nor inner embeddings. To traverse the divide, we propose Glimpse, a probability distribution estimation approach, predicting the full distributions from partial observations. Despite the simplicity of Glimpse, we successfully extend white-box methods like Entropy, Rank, Log-Rank, and Fast-DetectGPT to latest proprietary models. Experiments show that Glimpse with Fast-DetectGPT and GPT-3.5 achieves an average AUROC of about 0.95 in five latest source models, improving the score by 51% relative to the remaining space of the open source baseline (Table 1). It demonstrates that the latest LLMs can effectively detect their own outputs, suggesting that advanced LLMs may be the best shield against themselves.
- Abstract(参考訳): 高度な大規模言語モデル (LLMs) は、LLM生成したテキスト検出の重要性を強調しながら、人間によるテキストとほとんど区別できないテキストを生成することができる。
しかし、現在のゼロショット技術では、ホワイトボックス法はより弱いオープンソースLLMの使用に制限され、ブラックボックス法はより強力なプロプライエタリLLMの部分観察によって制限されているため、課題に直面している。
ホワイトボックスメソッドがプロプライエタリなモデルを使用することは不可能に思える。なぜなら、モデルへのAPIレベルのアクセスは、完全な予測ディストリビューションも内部埋め込みも提供しないからだ。
分割を横切るために,部分的な観測から全分布を予測する確率分布推定手法であるGlimpseを提案する。
Glimpseの単純さにもかかわらず、Entropy, Rank, Log-Rank, Fast-DetectGPTといったホワイトボックスメソッドを最新のプロプライエタリなモデルに拡張することに成功しました。
実験の結果、GlimpseとFast-DetectGPTとGPT-3.5は、5つの最新のソースモデルで平均約0.95のAUROCを実現し、オープンソースベースラインの残りのスペースに対して51%向上した(表1)。
これは、最新のLLMが自分たちの出力を効果的に検出できることを示し、高度なLLMが自身に対する最良のシールドである可能性を示唆している。
関連論文リスト
- A Watermark for Black-Box Language Models [48.675403591806194]
LLMからシーケンスをサンプリングする機能のみを必要とする原則的な透かし方式を提案する。
性能保証を提供し、ホワイトボックスアクセスが利用可能である場合にどのように活用できるかを実証し、包括的実験によって既存のホワイトボックススキームよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T23:39:19Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。