論文の概要: GigaCheck: Detecting LLM-generated Content
- arxiv url: http://arxiv.org/abs/2410.23728v2
- Date: Sat, 09 Nov 2024 03:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:25.674626
- Title: GigaCheck: Detecting LLM-generated Content
- Title(参考訳): GigaCheck: LLM生成コンテンツの検出
- Authors: Irina Tolstykh, Aleksandra Tsybina, Sergey Yakubson, Aleksandr Gordeev, Vladimir Dokholyan, Maksim Kuprashevich,
- Abstract要約: 本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
- 参考スコア(独自算出の注目度): 72.27323884094953
- License:
- Abstract: With the increasing quality and spread of LLM-based assistants, the amount of LLM-generated content is growing rapidly. In many cases and tasks, such texts are already indistinguishable from those written by humans, and the quality of generation tends to only increase. At the same time, detection methods are developing more slowly, making it challenging to prevent misuse of generative AI technologies. In this work, we investigate the task of generated text detection by proposing the GigaCheck. Our research explores two approaches: (i) distinguishing human-written texts from LLM-generated ones, and (ii) detecting LLM-generated intervals in Human-Machine collaborative texts. For the first task, our approach utilizes a general-purpose LLM, leveraging its extensive language abilities to fine-tune efficiently for the downstream task of LLM-generated text detection, achieving high performance even with limited data. For the second task, we propose a novel approach that combines computer vision and natural language processing techniques. Specifically, we use a fine-tuned general-purpose LLM in conjunction with a DETR-like detection model, adapted from computer vision, to localize AI-generated intervals within text. We evaluate the GigaCheck on five classification datasets with English texts and three datasets designed for Human-Machine collaborative text analysis. Our results demonstrate that GigaCheck outperforms previous methods, even in out-of-distribution settings, establishing a strong baseline across all datasets.
- Abstract(参考訳): LLMベースのアシスタントの品質と普及に伴い、LLM生成コンテンツの量は急速に増加している。
多くの場合、そのようなテキストは人によって書かれたテキストとは区別がつかず、生成の質は増大する傾向にある。
同時に、検出手法はよりゆっくりと開発されており、生成AI技術の誤用を防ぐことは困難である。
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
我々の研究は2つのアプローチを探求している。
一 人文テキストと LLM 生成テキストとを区別し、
(II)人間と機械の協調テキストにおけるLLM生成間隔の検出
提案手法は汎用LLMを利用して,LLM生成テキスト検出の下流タスクを効率的に微調整し,限られたデータでも高い性能を実現する。
2つ目の課題として,コンピュータビジョンと自然言語処理技術を組み合わせた新しい手法を提案する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
我々は、GigaCheckを英語テキストを用いた5つの分類データセットと、Human-Machine協調テキスト分析用に設計された3つのデータセットで評価した。
以上の結果から,GigaCheckは分布外設定においても従来の手法よりも優れており,すべてのデータセットに対して強力なベースラインを確立することができた。
関連論文リスト
- Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts [9.682499180341273]
大規模言語モデル(LLM)は、産業全体にわたってテキスト生成を大幅に強化した。
彼らの人間的なアウトプットは、人間とAIの作者の区別を困難にしている。
現在のベンチマークは主に静的データセットに依存しており、モデルベースの検出器の評価の有効性を制限している。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Exploration of Masked and Causal Language Modelling for Text Generation [6.26998839917804]
本稿では,テキスト生成タスクにおける因果言語モデリング手法の広範な比較を行う。
まず、定量的な指標を用いて、コヒーレンスと文法的正当性を分析する定性的な人的評価を行う。
その結果、すべてのデータセットでテキスト生成において、CLMは一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-21T09:33:31Z) - LLM-Detector: Improving AI-Generated Chinese Text Detection with
Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。
LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文 参考訳(メタデータ) (2024-02-02T05:54:12Z) - Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text [98.28130949052313]
密接に関連する2つの言語モデルとの対比に基づくスコアは、人文と機械文の分離に極めて正確である。
本稿では,一対の事前学習 LLM を用いた簡単な計算しか必要としない新しい LLM 検出器を提案する。
Binocularsと呼ばれるこの方法は、トレーニングデータなしで最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-01-22T16:09:47Z) - A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions [39.36381851190369]
LLM生成テキストを検出できる検出器を開発する必要がある。
このことは、LLMが生成するコンテンツの有害な影響から、LLMの潜在的な誤用や、芸術的表現やソーシャルネットワークのような保護領域の軽減に不可欠である。
この検出器技術は、ウォーターマーキング技術、統計ベースの検出器、神経ベース検出器、そして人間の支援手法の革新によって、最近顕著な進歩をみせている。
論文 参考訳(メタデータ) (2023-10-23T09:01:13Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。