Fugu-MT 論文翻訳(概要): Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation

論文の概要: Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation

arxiv url: http://arxiv.org/abs/2509.17830v2
Date: Tue, 23 Sep 2025 03:46:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-24 11:50:03.975379
Title: Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation
Title（参考訳）: 文レベルセグメンテーションを用いたAI生成テキストの微粒化検出
Authors: Lekkala Sai Teja, Annepaka Yadagiri, Partha Pakray, Chukhu Chunka, Mangadoddi Srikar Vardhan,
Abstract要約: 人間とAI生成テキスト間の遷移を検出するための文レベルのシーケンスラベリングモデルの提案我々のモデルは、ニューラルネットワーク(NN)と条件ランダムフィールド(CRF)を組み込んだ最先端の事前学習トランスフォーマーモデルを組み合わせる。評価は、協力的な人間とAI生成されたテキストを含む2つの公開ベンチマークデータセットで実行される。
参考スコア（独自算出の注目度）: 3.088244520495001
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generation of Artificial Intelligence (AI) texts in important works has become a common practice that can be used to misuse and abuse AI at various levels. Traditional AI detectors often rely on document-level classification, which struggles to identify AI content in hybrid or slightly edited texts designed to avoid detection, leading to concerns about the model's efficiency, which makes it hard to distinguish between human-written and AI-generated texts. A sentence-level sequence labeling model proposed to detect transitions between human- and AI-generated text, leveraging nuanced linguistic signals overlooked by document-level classifiers. By this method, detecting and segmenting AI and human-written text within a single document at the token-level granularity is achieved. Our model combines the state-of-the-art pre-trained Transformer models, incorporating Neural Networks (NN) and Conditional Random Fields (CRFs). This approach extends the power of transformers to extract semantic and syntactic patterns, and the neural network component to capture enhanced sequence-level representations, thereby improving the boundary predictions by the CRF layer, which enhances sequence recognition and further identification of the partition between Human- and AI-generated texts. The evaluation is performed on two publicly available benchmark datasets containing collaborative human and AI-generated texts. Our experimental comparisons are with zero-shot detectors and the existing state-of-the-art models, along with rigorous ablation studies to justify that this approach, in particular, can accurately detect the spans of AI texts in a completely collaborative text. All our source code and the processed datasets are available in our GitHub repository.
Abstract（参考訳）: 重要な作品における人工知能(AI)テキストの生成は、さまざまなレベルでAIを誤用し悪用するために使用される一般的なプラクティスとなっている。従来のAI検出器は、検出を避けるために設計されたハイブリッドまたはわずかに編集されたテキストでAIコンテンツを特定するのに苦労するドキュメントレベルの分類に依存しており、モデルの効率性への懸念を招き、人間の書き起こしたテキストとAI生成したテキストの区別が困難になる。文書レベルの分類器によって見落とされたニュアンスな言語信号を利用して,人文とAI文の遷移を検出する文レベルのシーケンスラベリングモデルを提案する。この方法により、トークンレベルの粒度において、単一の文書内でAIおよび人文テキストを検出し、セグメンテーションする。我々のモデルは、ニューラルネットワーク(NN)と条件ランダムフィールド(CRF)を組み込んだ最先端の事前学習トランスフォーマーモデルを組み合わせる。このアプローチは、意味的および構文的パターンを抽出するトランスフォーマーのパワーと、強化されたシーケンスレベルの表現をキャプチャするニューラルネットワークコンポーネントを拡張し、CRF層による境界予測を改善し、シーケンス認識を強化し、人間とAI生成したテキストの分割を更に識別する。この評価は、協調的な人間とAI生成されたテキストを含む2つの公開ベンチマークデータセットで実行される。実験では、ゼロショット検出器と既存の最先端モデルと、厳密なアブレーション研究を併用して、このアプローチが、特に完全に協調的なテキストでAIテキストのスパンを正確に検出できることを正当化しています。ソースコードと処理されたデータセットはすべて、GitHubリポジトリから入手可能です。

関連論文リスト

Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。コード、事前トレーニングされたウェイト、デモがリリースされる。
論文参考訳（メタデータ） (2025-10-07T08:14:45Z)
Assessing Classical Machine Learning and Transformer-based Approaches for Detecting AI-Generated Research Text [0.0]
機械学習アプローチは、ChatGPT-3.5生成したテキストと人間のテキストを区別することができる。 DistilBERTは全体的な最高のパフォーマンスを達成し、Logistic RegressionとBERT-Customはしっかりとしたバランスの取れた代替手段を提供する。
論文参考訳（メタデータ） (2025-09-20T04:36:21Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-12T15:44:56Z)
Enhancing Text Authenticity: A Novel Hybrid Approach for AI-Generated Text Detection [8.149808049643344]
本稿では,TF-IDF技術と高度な機械学習モデルを組み合わせた新しいハイブリッド手法を提案する。提案手法は既存手法と比較して優れた性能を発揮する。
論文参考訳（メタデータ） (2024-06-01T10:21:54Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection [6.27025292177391]
ToBlendはトークンレベルのアンサンブルテキスト生成手法であり、現在のAIコンテンツ検出アプローチの堅牢性に挑戦する。 ToBlendは、主要なAIコンテンツ検出手法の性能を著しく低下させる。
論文参考訳（メタデータ） (2024-02-17T02:25:57Z)
Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing AI-Generated Text [0.0]
私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。
論文参考訳（メタデータ） (2023-11-27T06:26:53Z)
Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (2023-10-23T18:11:32Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。 DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文参考訳（メタデータ） (2023-03-23T16:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。