論文の概要: Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse
Motifs
- arxiv url: http://arxiv.org/abs/2402.10586v1
- Date: Fri, 16 Feb 2024 11:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:41:11.430828
- Title: Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse
Motifs
- Title(参考訳): 命の糸:談話モチーフによる機械生成テキストの検出
- Authors: Zae Myung Kim and Kwang Hee Lee and Preston Zhu and Vipul Raheja and
Dongyeop Kang
- Abstract要約: 本稿は,人間によって書かれたテキストにおいて,識別可能な言語的特徴と独特な言語的特性を識別する調査について述べる。
我々は階層的な解析木とハイパーグラフを利用して、人間と機械生成テキストの両方で生成されたテキストに特有の談話パターンを明らかにする。
- 参考スコア(独自算出の注目度): 20.462992218235623
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the advent of large language models (LLM), the line between
human-crafted and machine-generated texts has become increasingly blurred. This
paper delves into the inquiry of identifying discernible and unique linguistic
properties in texts that were written by humans, particularly uncovering the
underlying discourse structures of texts beyond their surface structures.
Introducing a novel methodology, we leverage hierarchical parse trees and
recursive hypergraphs to unveil distinctive discourse patterns in texts
produced by both LLMs and humans. Empirical findings demonstrate that, although
both LLMs and humans generate distinct discourse patterns influenced by
specific domains, human-written texts exhibit more structural variability,
reflecting the nuanced nature of human writing in different domains. Notably,
incorporating hierarchical discourse features enhances binary classifiers'
overall performance in distinguishing between human-written and
machine-generated texts, even on out-of-distribution and paraphrased samples.
This underscores the significance of incorporating hierarchical discourse
features in the analysis of text patterns. The code and dataset will be
available at [TBA].
- Abstract(参考訳): 大規模言語モデル (LLM) の出現に伴い、人造テキストと機械生成テキストの境界線はますます曖昧になっている。
本稿は,人間によって書かれたテキストにおける識別可能な言語的特徴と特異な言語的特性の同定について,特にその表層構造を超えたテキストの会話構造を明らかにする。
新たな手法を導入し, 階層解析木と再帰的ハイパーグラフを利用して, LLMとヒトの双方が生成するテキストに特有の談話パターンを明らかにする。
実証的な知見は、llmとヒトの両方が特定の領域に影響された異なる談話パターンを生成するが、人間の文章は、異なる領域における人間の文章のニュアンス的性質を反映して、より構造的な変動を示すことを示している。
特筆すべきは、階層的談話機能の導入により、二分分類器全体の性能が向上し、人間が書いたテキストと機械が生成したテキストを区別できる。
これは、テキストパターンの分析に階層的談話の特徴を取り入れることの重要性を強調している。
コードとデータセットは[TBA]で公開されます。
関連論文リスト
- Deep dive into language traits of AI-generated Abstracts [5.209583971923267]
ChatGPTのような生成言語モデルは、人間のような文章を生成する能力に注意を向けている。
本研究では,ChatGPTが生成する抽象概念を,長さとバウンドがはるかに短い方法で検出しようと試みる。
テキストの意味的特徴と語彙的特性を抽出し、従来の機械学習モデルがこれらの抽象概念を確実に検出できることを観察する。
論文 参考訳(メタデータ) (2023-12-17T06:03:33Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - Sequentially Controlled Text Generation [97.22539956688443]
GPT-2は、驚くほど人間らしく、長い文書が混ざり合ったり、人間のような文章構造に従わなかったりする文を生成する。
本研究では,長距離テキストにおける命令構造の問題について検討する。
生成と編集が可能な逐次制御型テキスト生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-05T21:23:51Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。