Fugu-MT 論文翻訳(概要): GigaCheck: Detecting LLM-generated Content

論文の概要: GigaCheck: Detecting LLM-generated Content

arxiv url: http://arxiv.org/abs/2410.23728v1
Date: Thu, 31 Oct 2024 08:30:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.714252
Title: GigaCheck: Detecting LLM-generated Content
Title（参考訳）: GigaCheck: LLM生成コンテンツの検出
Authors: Irina Tolstykh, Aleksandra Tsybina, Sergey Yakubson, Aleksandr Gordeev, Vladimir Dokholyan, Maksim Kuprashevich,
Abstract要約: 本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。具体的には、コンピュータビジョンに適応したDETRのような検出モデルと組み合わせて、微調整の汎用LLMを用いて、テキスト内で人工的に生成された間隔をローカライズする。
参考スコア（独自算出の注目度）: 72.27323884094953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the increasing quality and spread of LLM-based assistants, the amount of artificially generated content is growing rapidly. In many cases and tasks, such texts are already indistinguishable from those written by humans, and the quality of generation tends to only increase. At the same time, detection methods are developing more slowly, making it challenging to prevent misuse of these technologies. In this work, we investigate the task of generated text detection by proposing the GigaCheck. Our research explores two approaches: (i) distinguishing human-written texts from LLM-generated ones, and (ii) detecting LLM-generated intervals in Human-Machine collaborative texts. For the first task, our approach utilizes a general-purpose LLM, leveraging its extensive language abilities to fine-tune efficiently for the downstream task of LLM-generated text detection, achieving high performance even with limited data. For the second task, we propose a novel approach that combines computer vision and natural language processing techniques. Specifically, we use a fine-tuned general-purpose LLM in conjunction with a DETR-like detection model, adapted from computer vision, to localize artificially generated intervals within text. We evaluate the GigaCheck on five classification datasets with English texts and three datasets designed for Human-Machine collaborative text analysis. Our results demonstrate that GigaCheck outperforms previous methods, even in out-of-distribution settings, establishing a strong baseline across all datasets.
Abstract（参考訳）: LLMベースのアシスタントの品質と普及に伴い、人工的に生成されたコンテンツの量は急速に増加している。多くの場合、そのようなテキストは人によって書かれたテキストとは区別がつかず、生成の質は増大する傾向にある。同時に、検出手法はよりゆっくりと開発されており、これらの技術の誤用を防ぐことは困難である。本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。我々の研究は2つのアプローチを探求している。一人文テキストと LLM 生成テキストとを区別し、 (II)人間と機械の協調テキストにおけるLLM生成間隔の検出提案手法は汎用LLMを利用して,LLM生成テキスト検出の下流タスクを効率的に微調整し,限られたデータでも高い性能を実現する。 2つ目の課題として,コンピュータビジョンと自然言語処理技術を組み合わせた新しい手法を提案する。具体的には、コンピュータビジョンに適応したDETRのような検出モデルと組み合わせて、微調整の汎用LLMを用いて、テキスト内で人工的に生成された間隔をローカライズする。我々は、GigaCheckを英語テキストを用いた5つの分類データセットと、Human-Machine協調テキスト分析用に設計された3つのデータセットで評価した。以上の結果から,GigaCheckは分布外設定でも従来の手法よりも優れており,すべてのデータセットに対して強力なベースラインを確立することができた。

関連論文リスト

DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。 MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文参考訳（メタデータ） (2025-09-15T10:59:57Z)
mdok of KInIT: Robustly Fine-tuned LLM for Binary and Multiclass AI-Generated Text Detection [0.0]
自動検出は、人間が機械生成したテキストを表示するのを助けることができる。このノートは、テキスト分類のための微調整された小さなLLMに基づいて、ロバスト検出における我々のmdokアプローチを記述している。これは、Voight-Kampff Generative AI Detection 2025の両方のサブタスクに適用される。
論文参考訳（メタデータ） (2025-06-02T14:07:32Z)
Robust and Fine-Grained Detection of AI Generated Texts [0.29015183529168825]
既存のシステムは、短いテキストよりもAI生成したコンテンツを正確に識別するのに苦労することが多い。本稿では,トークン分類のタスクのために構築されたモデルについて紹介する。また,23言語以上のプロプライエタリなLLMが主に共著する2.4M以上のテキストのデータセットも導入した。
論文参考訳（メタデータ） (2025-04-16T10:29:30Z)
"I know myself better, but not really greatly": Using LLMs to Detect and Explain LLM-Generated Texts [10.454446545249096]
大規模言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示した。本稿では,LLMによる人為的テキストの検出と説明機能について検討する。
論文参考訳（メタデータ） (2025-02-18T11:00:28Z)
Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。生成したテキストの強力な検出器を開発することがますます重要になっている。この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文参考訳（メタデータ） (2024-11-09T18:27:15Z)
CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts [9.682499180341273]
大規模言語モデル(LLM)は、産業全体にわたってテキスト生成を大幅に強化した。彼らの人間的なアウトプットは、人間とAIの作者の区別を困難にしている。現在のベンチマークは主に静的データセットに依存しており、モデルベースの検出器の評価の有効性を制限している。
論文参考訳（メタデータ） (2024-06-13T12:43:40Z)
ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。本稿では,これらのモデルで共有される共通特性について述べる。報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T17:38:33Z)
Exploration of Masked and Causal Language Modelling for Text Generation [6.26998839917804]
本稿では,テキスト生成タスクにおける因果言語モデリング手法の広範な比較を行う。まず、定量的な指標を用いて、コヒーレンスと文法的正当性を分析する定性的な人的評価を行う。その結果、すべてのデータセットでテキスト生成において、CLMは一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-05-21T09:33:31Z)
LLM-Detector: Improving AI-Generated Chinese Text Detection with Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。 LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文参考訳（メタデータ） (2024-02-02T05:54:12Z)
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text [98.28130949052313]
密接に関連する2つの言語モデルとの対比に基づくスコアは、人文と機械文の分離に極めて正確である。本稿では,一対の事前学習 LLM を用いた簡単な計算しか必要としない新しい LLM 検出器を提案する。 Binocularsと呼ばれるこの方法は、トレーニングデータなしで最先端の精度を実現する。
論文参考訳（メタデータ） (2024-01-22T16:09:47Z)
A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions [39.36381851190369]
LLM生成テキストを検出できる検出器を開発する必要がある。このことは、LLMが生成するコンテンツの有害な影響から、LLMの潜在的な誤用や、芸術的表現やソーシャルネットワークのような保護領域の軽減に不可欠である。この検出器技術は、ウォーターマーキング技術、統計ベースの検出器、神経ベース検出器、そして人間の支援手法の革新によって、最近顕著な進歩をみせている。
論文参考訳（メタデータ） (2023-10-23T09:01:13Z)
SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文参考訳（メタデータ） (2023-10-13T07:18:53Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。