論文の概要: Segmenting Human-LLM Co-authored Text via Change Point Detection
- arxiv url: http://arxiv.org/abs/2605.03723v1
- Date: Tue, 05 May 2026 13:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.942869
- Title: Segmenting Human-LLM Co-authored Text via Change Point Detection
- Title(参考訳): 切替点検出によるHuman-LLM共著テキストのセグメンテーション
- Authors: Mengchu Li, Jin Zhu, Jinglai Li, Chengchun Shi,
- Abstract要約: 大規模言語モデル(LLM)の台頭は、人間の書き起こしたテキストとLLM生成したテキストを区別する緊急の必要性を生み出している。
既存の検出器は通常、通路全体のバイナリ分類を提供する。
我々は,テキストを人間とLLMの著作物に分割するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.004322032566217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of large language models (LLMs) has created an urgent need to distinguish between human-written and LLM-generated text to ensure authenticity and societal trust. Existing detectors typically provide a binary classification for an entire passage; however, this is insufficient for human--LLM co-authored text, where the objective is to localize specific segments authored by humans or LLMs. To bridge this gap, we propose algorithms to segment text into human- and LLM-authored pieces. Our key observation is that such a segmentation task is conceptually similar to classical change point detection in time-series analysis. Leveraging this analogy, we adapt change point detection to LLM-generated text detection, develop a weighted algorithm and a generalized algorithm to accommodate heterogeneous detection score variability, and establish the minimax optimality of our procedure. Empirically, we demonstrate the strong performance of our approach against a wide range of existing baselines.
- Abstract(参考訳): 大規模言語モデル(LLMs)の台頭は、信頼と社会的信頼を確保するために、人書きとLLM生成のテキストを区別する緊急の必要性を生み出している。
既存の検出器は通常、通路全体のバイナリ分類を提供するが、人間とLLMが共著したテキストには不十分であり、人間やLSMによって書かれた特定のセグメントをローカライズすることが目的である。
このギャップを埋めるため,本研究では,テキストを人間とLLMの著作物に分割するアルゴリズムを提案する。
我々のキーとなる観察は、そのようなセグメンテーションタスクが、時系列解析における古典的な変化点検出と概念的に類似していることである。
このアナロジーを活用することで、LLM生成テキスト検出に変化点検出を適用し、不均一な検出スコアの変動に対応するための重み付きアルゴリズムと一般化アルゴリズムを開発し、手順の極小最適性を確立する。
経験的に、我々は、既存の幅広いベースラインに対して、我々のアプローチの強い性能を実証する。
関連論文リスト
- Learn-to-Distance: Distance Learning for Detecting LLM-Generated Text [12.73070476746517]
現代の大規模言語モデル(LLM)は、学習、作業、コミュニケーションの方法を変えました。
高度に人間的なテキストを生成する能力は、誤情報や学術的整合性に対する深刻な懸念を提起する。
本稿では,オリジナルテキストと書き直しテキスト間の距離を適応的に学習する,書き直しに基づく新しい検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-29T15:55:15Z) - SearchLLM: Detecting LLM Paraphrased Text by Measuring the Similarity with Regeneration of the Candidate Source via Search Engine [1.7926082278255862]
SearchLLMは検索エンジン機能を使って、潜在的にオリジナルテキストソースを見つける。
SearchLLMは、LLMパラフレーズテキストの検出において、最近の検出器の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2026-01-23T07:18:30Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders [20.557610461777344]
Sparse Autoencoders (SAE) を用いてGemma-2-2b残ストリームから特徴を抽出する。
解釈可能な特徴と効率的な特徴の両方を識別し,その意味と妥当性を解析する。
提案手法は, さまざまなモデルからのテキストと人文コンテンツとの相違点について, 貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-03-05T15:33:52Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。