論文の概要: Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models
- arxiv url: http://arxiv.org/abs/2412.03025v1
- Date: Wed, 04 Dec 2024 04:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:59.660463
- Title: Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models
- Title(参考訳): 人間の多様性と機械の一貫性--人間と大規模言語モデルによるテキストの言語学的分析
- Authors: Sergio E. Zanotto, Segun Aroyehun,
- Abstract要約: 人文テキストと大言語モデル(LLM)で生成されたテキストとの有意な差異を同定する。
以上の結果から,人間は認知的要求の少ない文章を書けること,意味的内容の充実,感情的内容の充実などが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid advancements in large language models (LLMs) have significantly improved their ability to generate natural language, making texts generated by LLMs increasingly indistinguishable from human-written texts. Recent research has predominantly focused on using LLMs to classify text as either human-written or machine-generated. In our study, we adopt a different approach by profiling texts spanning four domains based on 250 distinct linguistic features. We select the M4 dataset from the Subtask B of SemEval 2024 Task 8. We automatically calculate various linguistic features with the LFTK tool and additionally measure the average syntactic depth, semantic similarity, and emotional content for each document. We then apply a two-dimensional PCA reduction to all the calculated features. Our analyses reveal significant differences between human-written texts and those generated by LLMs, particularly in the variability of these features, which we find to be considerably higher in human-written texts. This discrepancy is especially evident in text genres with less rigid linguistic style constraints. Our findings indicate that humans write texts that are less cognitively demanding, with higher semantic content, and richer emotional content compared to texts generated by LLMs. These insights underscore the need for incorporating meaningful linguistic features to enhance the understanding of textual outputs of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、自然言語生成能力は大幅に向上し、LLMが生成するテキストは人間の文章と区別できないものになっていった。
近年の研究では、LLMを使ってテキストを人間書きか機械生成かに分類することに主に焦点が当てられている。
本研究では,250の異なる言語的特徴に基づいて4つの領域にまたがるテキストをプロファイリングすることで,異なるアプローチを採用する。
我々はSemEval 2024 Task 8のSubtask BからM4データセットを選択する。
LFTKツールで言語的特徴を自動的に計算し、各文書の平均構文深度、意味的類似度、感情的内容を測定する。
次に、計算された全ての特徴に対して2次元PCA削減を適用した。
そこで本研究では,人文テキストと LLM が生成するテキストの差,特にこれらの特徴の多様性について明らかにした。
この違いは、厳格な言語スタイルの制約の少ないテキストジャンルにおいて特に顕著である。
以上の結果から,人間は認知的要求の少ない文章を書けること,意味的内容の充実,感情的内容の充実などが示唆された。
これらの知見は、LLMのテキスト出力の理解を深めるために意味のある言語的特徴を取り入れる必要性を浮き彫りにした。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Differentiating between human-written and AI-generated texts using linguistic features automatically extracted from an online computational tool [0.0]
本研究の目的は,AIが人間の文章をエミュレートする能力を評価することにある。
人間の発話を模倣したAI生成テキストが現れるにもかかわらず、結果は複数の言語的特徴に有意な差が認められた。
論文 参考訳(メタデータ) (2024-07-04T05:37:09Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey [66.166184609616]
ChatGPTは、テキスト中心のマルチモーダルタスクに大規模言語モデル(LLM)を適用する大きな可能性を開く。
既存のLLMがテキスト中心のマルチモーダル感情分析タスクにどのように適応できるかは、まだ不明である。
論文 参考訳(メタデータ) (2024-06-12T10:36:27Z) - Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs [19.073560504913356]
人造テキストと機械生成テキストの境界線は、ますますぼやけつつある。
本稿は,人間によって書かれたテキストにおいて,識別可能な言語的特徴と独特な言語的特性を識別する調査について述べる。
論文 参考訳(メタデータ) (2024-02-16T11:20:30Z) - Contrasting Linguistic Patterns in Human and LLM-Generated News Text [20.127243508644984]
人書き英語のニューステキストに比較して,LLM(Large Language Model)の出力を定量的に分析する。
結果は、人間とAIが生成したテキストの様々な測定可能な相違を明らかにした。
人間の文章は、より散在した文の長さの分布、より多様な語彙、依存と構成型の明確な利用を示す。
LLM出力は人文よりも数字、記号、補助語が多用され、代名詞も多用される。
論文 参考訳(メタデータ) (2023-08-17T15:54:38Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。