論文の概要: Detecting AI-Generated Sentences in Realistic Human-AI Collaborative Hybrid Texts: Challenges, Strategies, and Insights
- arxiv url: http://arxiv.org/abs/2403.03506v2
- Date: Tue, 7 May 2024 10:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 19:13:23.624026
- Title: Detecting AI-Generated Sentences in Realistic Human-AI Collaborative Hybrid Texts: Challenges, Strategies, and Insights
- Title(参考訳): リアルな人間-AIコラボレーションハイブリッドテキストにおけるAI生成文の検出:課題、戦略、洞察
- Authors: Zijie Zeng, Shiqi Liu, Lele Sha, Zhuang Li, Kaixun Yang, Sannyuya Liu, Dragan Gašević, Guanliang Chen,
- Abstract要約: 本研究では,人間-AI協調テキストにおける文レベルAI生成テキスト検出の課題について検討する。
CoAuthorデータセットには、人間のライターとインテリジェントな書き込みシステムとのコラボレーションを通じて生成される、多様な、現実的なハイブリッドテキストが含まれている。
- 参考スコア(独自算出の注目度): 18.30412155877708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores the challenge of sentence-level AI-generated text detection within human-AI collaborative hybrid texts. Existing studies of AI-generated text detection for hybrid texts often rely on synthetic datasets. These typically involve hybrid texts with a limited number of boundaries. We contend that studies of detecting AI-generated content within hybrid texts should cover different types of hybrid texts generated in realistic settings to better inform real-world applications. Therefore, our study utilizes the CoAuthor dataset, which includes diverse, realistic hybrid texts generated through the collaboration between human writers and an intelligent writing system in multi-turn interactions. We adopt a two-step, segmentation-based pipeline: (i) detect segments within a given hybrid text where each segment contains sentences of consistent authorship, and (ii) classify the authorship of each identified segment. Our empirical findings highlight (1) detecting AI-generated sentences in hybrid texts is overall a challenging task because (1.1) human writers' selecting and even editing AI-generated sentences based on personal preferences adds difficulty in identifying the authorship of segments; (1.2) the frequent change of authorship between neighboring sentences within the hybrid text creates difficulties for segment detectors in identifying authorship-consistent segments; (1.3) the short length of text segments within hybrid texts provides limited stylistic cues for reliable authorship determination; (2) before embarking on the detection process, it is beneficial to assess the average length of segments within the hybrid text. This assessment aids in deciding whether (2.1) to employ a text segmentation-based strategy for hybrid texts with longer segments, or (2.2) to adopt a direct sentence-by-sentence classification strategy for those with shorter segments.
- Abstract(参考訳): 本研究では,人間-AI協調テキストにおける文レベルAI生成テキスト検出の課題について検討する。
ハイブリッドテキストに対するAI生成テキスト検出の既存の研究は、しばしば合成データセットに依存している。
これらは典型的には、境界が限られているハイブリッドテキストを含む。
ハイブリッドテキスト中のAI生成コンテンツを検出する研究は、現実的な設定で生成されたさまざまなタイプのハイブリッドテキストをカバーし、現実世界のアプリケーションにより良い情報を提供するべきだ、と我々は主張する。
そこで本研究では,マルチターンインタラクションにおけるヒューマンライターとインテリジェントライティングシステムによるコラボレーションを通じて生成される,多種多様なハイブリッドテキストを含むCoAuthorデータセットを用いた。
私たちは2段階のセグメンテーションベースのパイプラインを採用しています。
(i)各セグメントが一貫した著者の文を含む所定のハイブリッドテキスト内のセグメントを検出し、
(ii)各特定セグメントのオーサシップを分類する。
1) ハイブリッドテキストにおけるAI生成文の検出は,(1.1) 個人の嗜好に基づくAI生成文の選択や編集が難しいこと,(1.2) ハイブリッドテキスト内の隣接文間のオーサシップの頻繁な変更は,オーサシップ一貫性のあるセグメントを識別するセグメント検出の困難を生じさせること,(1.3) ハイブリッドテキスト内のテキストセグメントの短さは,信頼性の高いオーサシップ決定のための限定的なスタイリスティックなキューを提供すること,(2) 検出プロセスを開始する前に,ハイブリッドテキスト内のセグメントの平均的な長さを評価することが有用であること,など,全体として難しい課題である。
この評価は (2.1) がより長いセグメントを持つハイブリッドテキストに対してテキストセグメンテーションに基づく戦略を採用するか (2.2) または (2.2) が短いセグメントを持つテキストに対して直接文単位の分類戦略を採用するかを決定するのに役立つ。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection [6.27025292177391]
ToBlendはトークンレベルのアンサンブルテキスト生成手法であり、現在のAIコンテンツ検出アプローチの堅牢性に挑戦する。
ToBlendは、主要なAIコンテンツ検出手法の性能を著しく低下させる。
論文 参考訳(メタデータ) (2024-02-17T02:25:57Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid
Essay in Education [10.606131520965604]
本研究では,滅多に調査されていない現実的な環境下でのAIコンテンツ検出について検討する。
まず,人書きコンテンツとAI生成コンテンツ間の遷移点の同定として,検出タスクを定式化した。
次に、エンコーダトレーニングプロセス中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案した。
論文 参考訳(メタデータ) (2023-07-23T08:47:51Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。