Fugu-MT 論文翻訳(概要): Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs

論文の概要: Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs

arxiv url: http://arxiv.org/abs/2402.10586v1
Date: Fri, 16 Feb 2024 11:20:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 16:41:11.430828
Title: Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs
Title（参考訳）: 命の糸:談話モチーフによる機械生成テキストの検出
Authors: Zae Myung Kim and Kwang Hee Lee and Preston Zhu and Vipul Raheja and Dongyeop Kang
Abstract要約: 本稿は,人間によって書かれたテキストにおいて,識別可能な言語的特徴と独特な言語的特性を識別する調査について述べる。我々は階層的な解析木とハイパーグラフを利用して、人間と機械生成テキストの両方で生成されたテキストに特有の談話パターンを明らかにする。
参考スコア（独自算出の注目度）: 20.462992218235623
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the advent of large language models (LLM), the line between human-crafted and machine-generated texts has become increasingly blurred. This paper delves into the inquiry of identifying discernible and unique linguistic properties in texts that were written by humans, particularly uncovering the underlying discourse structures of texts beyond their surface structures. Introducing a novel methodology, we leverage hierarchical parse trees and recursive hypergraphs to unveil distinctive discourse patterns in texts produced by both LLMs and humans. Empirical findings demonstrate that, although both LLMs and humans generate distinct discourse patterns influenced by specific domains, human-written texts exhibit more structural variability, reflecting the nuanced nature of human writing in different domains. Notably, incorporating hierarchical discourse features enhances binary classifiers' overall performance in distinguishing between human-written and machine-generated texts, even on out-of-distribution and paraphrased samples. This underscores the significance of incorporating hierarchical discourse features in the analysis of text patterns. The code and dataset will be available at [TBA].
Abstract（参考訳）: 大規模言語モデル (LLM) の出現に伴い、人造テキストと機械生成テキストの境界線はますます曖昧になっている。本稿は,人間によって書かれたテキストにおける識別可能な言語的特徴と特異な言語的特性の同定について,特にその表層構造を超えたテキストの会話構造を明らかにする。新たな手法を導入し, 階層解析木と再帰的ハイパーグラフを利用して, LLMとヒトの双方が生成するテキストに特有の談話パターンを明らかにする。実証的な知見は、llmとヒトの両方が特定の領域に影響された異なる談話パターンを生成するが、人間の文章は、異なる領域における人間の文章のニュアンス的性質を反映して、より構造的な変動を示すことを示している。特筆すべきは、階層的談話機能の導入により、二分分類器全体の性能が向上し、人間が書いたテキストと機械が生成したテキストを区別できる。これは、テキストパターンの分析に階層的談話の特徴を取り入れることの重要性を強調している。コードとデータセットは[TBA]で公開されます。

関連論文リスト

Linguistic and Embedding-Based Profiling of Texts generated by Humans and Large Language Models [0.0]
人書きテキストや機械生成テキストを特徴付けるために,依存長や感情といった言語的特徴を計算した。統計的分析により,人文テキストはより単純な構文構造とより多様な意味的内容を示す傾向があることが明らかとなった。人間と機械の両方のテキストは、ドメイン間のスタイリスティックな多様性を示しており、人間は我々の特徴により大きなバリエーションを示している。
論文参考訳（メタデータ） (2025-07-18T02:46:55Z)
Stylometry recognizes human and LLM-generated texts in short samples [0.562479170374811]
本稿では,Large Language Models (LLM) と人間によるテキストを区別する手法として,スタイメトリーについて検討する。モデル属性、知的財産権、倫理的AI利用の問題に対処する。
論文参考訳（メタデータ） (2025-07-01T15:08:53Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models [0.0]
人文テキストと大言語モデル(LLM)で生成されたテキストとの有意な差異を同定する。以上の結果から,人間は認知的要求の少ない文章を書けること,意味的内容の充実,感情的内容の充実などが示唆された。
論文参考訳（メタデータ） (2024-12-04T04:38:35Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
Deep dive into language traits of AI-generated Abstracts [5.209583971923267]
ChatGPTのような生成言語モデルは、人間のような文章を生成する能力に注意を向けている。本研究では,ChatGPTが生成する抽象概念を,長さとバウンドがはるかに短い方法で検出しようと試みる。テキストの意味的特徴と語彙的特性を抽出し、従来の機械学習モデルがこれらの抽象概念を確実に検出できることを観察する。
論文参考訳（メタデータ） (2023-12-17T06:03:33Z)
The Imitation Game: Detecting Human and AI-Generated Texts in the Era of ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。テキストを分類するために、いくつかの機械学習モデルを使用します。結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文参考訳（メタデータ） (2023-07-22T21:00:14Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
A Benchmark Corpus for the Detection of Automatically Generated Text in Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。 BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文参考訳（メタデータ） (2022-02-04T08:16:56Z)
How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (2021-11-18T04:07:09Z)
Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文参考訳（メタデータ） (2020-10-15T02:35:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。