論文の概要: Detecting Machine-Generated Long-Form Content with Latent-Space Variables
- arxiv url: http://arxiv.org/abs/2410.03856v1
- Date: Fri, 4 Oct 2024 18:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:50:43.460901
- Title: Detecting Machine-Generated Long-Form Content with Latent-Space Variables
- Title(参考訳): 遅延空間変数を用いた機械生成長大コンテンツの検出
- Authors: Yufei Tian, Zeyu Pan, Nanyun Peng,
- Abstract要約: 既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
- 参考スコア(独自算出の注目度): 54.07946647012579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing capability of large language models (LLMs) to generate fluent long-form texts is presenting new challenges in distinguishing machine-generated outputs from human-written ones, which is crucial for ensuring authenticity and trustworthiness of expressions. Existing zero-shot detectors primarily focus on token-level distributions, which are vulnerable to real-world domain shifts, including different prompting and decoding strategies, and adversarial attacks. We propose a more robust method that incorporates abstract elements, such as event transitions, as key deciding factors to detect machine versus human texts by training a latent-space model on sequences of events or topics derived from human-written texts. In three different domains, machine-generated texts, which are originally inseparable from human texts on the token level, can be better distinguished with our latent-space model, leading to a 31% improvement over strong baselines such as DetectGPT. Our analysis further reveals that, unlike humans, modern LLMs like GPT-4 generate event triggers and their transitions differently, an inherent disparity that helps our method to robustly detect machine-generated texts.
- Abstract(参考訳): 大規模言語モデル(LLMs)による、流動的な長文を生成する能力の増大は、表現の信頼性と信頼性を確保する上で不可欠である、機械出力と人書きテキストを区別する上で、新たな課題を提起している。
既存のゼロショット検出器は、異なるプロンプトやデコード戦略、敵攻撃を含む現実世界のドメインシフトに弱いトークンレベルの分散に主にフォーカスする。
本研究では,イベントのシーケンスや人文から派生したトピックに関する潜在空間モデルをトレーニングすることにより,機械と人文を検知する重要な要因として,イベント遷移などの抽象的要素を組み込んだより堅牢な手法を提案する。
3つの異なる領域において、もともとトークンレベルの人間のテキストとは分離できない機械生成テキストは、我々の潜在空間モデルとよりよく区別され、DerctionGPTのような強力なベースラインよりも31%改善される。
我々の分析は、人間とは異なり、GPT-4のような現代のLCMはイベントトリガと遷移を異なる方法で生成し、本手法が機械生成テキストを堅牢に検出するのに役立つ本質的な相違を明らかにした。
関連論文リスト
- RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。
本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。
その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文 参考訳(メタデータ) (2024-10-22T03:21:59Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text [8.290557547578146]
プリトレーニング済みのT5エンコーダとLLM埋め込みサブクラスタリングを組み合わせた,機械生成テキスト検出システムT5LLMCipherを導入する。
提案手法は,機械生成テキストの平均F1スコアが19.6%増加し,非可視ジェネレータやドメインでF1スコアが平均上昇する,最先端の一般化能力を提供する。
論文 参考訳(メタデータ) (2024-01-17T18:45:13Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - RoFT: A Tool for Evaluating Human Detection of Machine-Generated Text [25.80571756447762]
われわれはReal or Fake Text (RoFT)を紹介した。
本稿では,RoFTを用いたニュース記事の検出結果について述べる。
論文 参考訳(メタデータ) (2020-10-06T22:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。