論文の概要: Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation
- arxiv url: http://arxiv.org/abs/2509.17830v2
- Date: Tue, 23 Sep 2025 03:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 11:50:03.975379
- Title: Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation
- Title(参考訳): 文レベルセグメンテーションを用いたAI生成テキストの微粒化検出
- Authors: Lekkala Sai Teja, Annepaka Yadagiri, Partha Pakray, Chukhu Chunka, Mangadoddi Srikar Vardhan,
- Abstract要約: 人間とAI生成テキスト間の遷移を検出するための文レベルのシーケンスラベリングモデルの提案
我々のモデルは、ニューラルネットワーク(NN)と条件ランダムフィールド(CRF)を組み込んだ最先端の事前学習トランスフォーマーモデルを組み合わせる。
評価は、協力的な人間とAI生成されたテキストを含む2つの公開ベンチマークデータセットで実行される。
- 参考スコア(独自算出の注目度): 3.088244520495001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generation of Artificial Intelligence (AI) texts in important works has become a common practice that can be used to misuse and abuse AI at various levels. Traditional AI detectors often rely on document-level classification, which struggles to identify AI content in hybrid or slightly edited texts designed to avoid detection, leading to concerns about the model's efficiency, which makes it hard to distinguish between human-written and AI-generated texts. A sentence-level sequence labeling model proposed to detect transitions between human- and AI-generated text, leveraging nuanced linguistic signals overlooked by document-level classifiers. By this method, detecting and segmenting AI and human-written text within a single document at the token-level granularity is achieved. Our model combines the state-of-the-art pre-trained Transformer models, incorporating Neural Networks (NN) and Conditional Random Fields (CRFs). This approach extends the power of transformers to extract semantic and syntactic patterns, and the neural network component to capture enhanced sequence-level representations, thereby improving the boundary predictions by the CRF layer, which enhances sequence recognition and further identification of the partition between Human- and AI-generated texts. The evaluation is performed on two publicly available benchmark datasets containing collaborative human and AI-generated texts. Our experimental comparisons are with zero-shot detectors and the existing state-of-the-art models, along with rigorous ablation studies to justify that this approach, in particular, can accurately detect the spans of AI texts in a completely collaborative text. All our source code and the processed datasets are available in our GitHub repository.
- Abstract(参考訳): 重要な作品における人工知能(AI)テキストの生成は、さまざまなレベルでAIを誤用し悪用するために使用される一般的なプラクティスとなっている。
従来のAI検出器は、検出を避けるために設計されたハイブリッドまたはわずかに編集されたテキストでAIコンテンツを特定するのに苦労するドキュメントレベルの分類に依存しており、モデルの効率性への懸念を招き、人間の書き起こしたテキストとAI生成したテキストの区別が困難になる。
文書レベルの分類器によって見落とされたニュアンスな言語信号を利用して,人文とAI文の遷移を検出する文レベルのシーケンスラベリングモデルを提案する。
この方法により、トークンレベルの粒度において、単一の文書内でAIおよび人文テキストを検出し、セグメンテーションする。
我々のモデルは、ニューラルネットワーク(NN)と条件ランダムフィールド(CRF)を組み込んだ最先端の事前学習トランスフォーマーモデルを組み合わせる。
このアプローチは、意味的および構文的パターンを抽出するトランスフォーマーのパワーと、強化されたシーケンスレベルの表現をキャプチャするニューラルネットワークコンポーネントを拡張し、CRF層による境界予測を改善し、シーケンス認識を強化し、人間とAI生成したテキストの分割を更に識別する。
この評価は、協調的な人間とAI生成されたテキストを含む2つの公開ベンチマークデータセットで実行される。
実験では、ゼロショット検出器と既存の最先端モデルと、厳密なアブレーション研究を併用して、このアプローチが、特に完全に協調的なテキストでAIテキストのスパンを正確に検出できることを正当化しています。
ソースコードと処理されたデータセットはすべて、GitHubリポジトリから入手可能です。
関連論文リスト
- Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Enhancing Text Authenticity: A Novel Hybrid Approach for AI-Generated Text Detection [8.149808049643344]
本稿では,TF-IDF技術と高度な機械学習モデルを組み合わせた新しいハイブリッド手法を提案する。
提案手法は既存手法と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-06-01T10:21:54Z) - ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection [6.27025292177391]
ToBlendはトークンレベルのアンサンブルテキスト生成手法であり、現在のAIコンテンツ検出アプローチの堅牢性に挑戦する。
ToBlendは、主要なAIコンテンツ検出手法の性能を著しく低下させる。
論文 参考訳(メタデータ) (2024-02-17T02:25:57Z) - Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing
AI-Generated Text [0.0]
私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。
さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。
論文 参考訳(メタデータ) (2023-11-27T06:26:53Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。