Fugu-MT 論文翻訳(概要): Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models

論文の概要: Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models

arxiv url: http://arxiv.org/abs/2412.03025v1
Date: Wed, 04 Dec 2024 04:38:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.553725
Title: Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models
Title（参考訳）: 人間の多様性と機械の一貫性--人間と大規模言語モデルによるテキストの言語学的分析
Authors: Sergio E. Zanotto, Segun Aroyehun,
Abstract要約: 人文テキストと大言語モデル(LLM)で生成されたテキストとの有意な差異を同定する。以上の結果から,人間は認知的要求の少ない文章を書けること,意味的内容の充実,感情的内容の充実などが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The rapid advancements in large language models (LLMs) have significantly improved their ability to generate natural language, making texts generated by LLMs increasingly indistinguishable from human-written texts. Recent research has predominantly focused on using LLMs to classify text as either human-written or machine-generated. In our study, we adopt a different approach by profiling texts spanning four domains based on 250 distinct linguistic features. We select the M4 dataset from the Subtask B of SemEval 2024 Task 8. We automatically calculate various linguistic features with the LFTK tool and additionally measure the average syntactic depth, semantic similarity, and emotional content for each document. We then apply a two-dimensional PCA reduction to all the calculated features. Our analyses reveal significant differences between human-written texts and those generated by LLMs, particularly in the variability of these features, which we find to be considerably higher in human-written texts. This discrepancy is especially evident in text genres with less rigid linguistic style constraints. Our findings indicate that humans write texts that are less cognitively demanding, with higher semantic content, and richer emotional content compared to texts generated by LLMs. These insights underscore the need for incorporating meaningful linguistic features to enhance the understanding of textual outputs of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩により、自然言語生成能力は大幅に向上し、LLMが生成するテキストは人間の文章と区別できないものになっていった。近年の研究では、LLMを使ってテキストを人間書きか機械生成かに分類することに主に焦点が当てられている。本研究では,250の異なる言語的特徴に基づいて4つの領域にまたがるテキストをプロファイリングすることで,異なるアプローチを採用する。我々はSemEval 2024 Task 8のSubtask BからM4データセットを選択する。 LFTKツールで言語的特徴を自動的に計算し、各文書の平均構文深度、意味的類似度、感情的内容を測定する。次に、計算された全ての特徴に対して2次元PCA削減を適用した。そこで本研究では,人文テキストと LLM が生成するテキストの差,特にこれらの特徴の多様性について明らかにした。この違いは、厳格な言語スタイルの制約の少ないテキストジャンルにおいて特に顕著である。以上の結果から,人間は認知的要求の少ない文章を書けること,意味的内容の充実,感情的内容の充実などが示唆された。これらの知見は、LLMのテキスト出力の理解を深めるために意味のある言語的特徴を取り入れる必要性を浮き彫りにした。

関連論文リスト

Linguistic and Embedding-Based Profiling of Texts generated by Humans and Large Language Models [0.0]
人書きテキストや機械生成テキストを特徴付けるために,依存長や感情といった言語的特徴を計算した。統計的分析により,人文テキストはより単純な構文構造とより多様な意味的内容を示す傾向があることが明らかとなった。人間と機械の両方のテキストは、ドメイン間のスタイリスティックな多様性を示しており、人間は我々の特徴により大きなバリエーションを示している。
論文参考訳（メタデータ） (2025-07-18T02:46:55Z)
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders [20.557610461777344]
Sparse Autoencoders (SAE) を用いてGemma-2-2b残ストリームから特徴を抽出する。解釈可能な特徴と効率的な特徴の両方を識別し,その意味と妥当性を解析する。提案手法は, さまざまなモデルからのテキストと人文コンテンツとの相違点について, 貴重な知見を提供する。
論文参考訳（メタデータ） (2025-03-05T15:33:52Z)
Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,文字のテキストワークに現れる言語パターンと独特の思考パターンの両方を再現するモデルである characterBot を紹介する。著名な中国の作家ル・ジュンをケーススタディとして、17冊のエッセイ集から派生した4つの訓練課題を提案する。これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2025-02-18T16:11:54Z)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。 BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
Beyond checkmate: exploring the creative chokepoints in AI text [5.427864472511595]
大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)に革命をもたらした本研究では,テキストセグメント間の人間のテキストとAIテキストの相違について検討した。我々の研究は、人間とAIのテキストの区別の複雑さに光を当て、テキストの検出と理解のための新しい洞察を提供する。
論文参考訳（メタデータ） (2025-01-31T16:57:01Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文参考訳（メタデータ） (2024-06-27T19:26:11Z)
Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey [66.166184609616]
ChatGPTは、テキスト中心のマルチモーダルタスクに大規模言語モデル(LLM)を適用する大きな可能性を開く。既存のLLMがテキスト中心のマルチモーダル感情分析タスクにどのように適応できるかは、まだ不明である。
論文参考訳（メタデータ） (2024-06-12T10:36:27Z)
Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs [19.073560504913356]
人造テキストと機械生成テキストの境界線は、ますますぼやけつつある。本稿は,人間によって書かれたテキストにおいて,識別可能な言語的特徴と独特な言語的特性を識別する調査について述べる。
論文参考訳（メタデータ） (2024-02-16T11:20:30Z)
Contrasting Linguistic Patterns in Human and LLM-Generated News Text [20.127243508644984]
人書き英語のニューステキストに比較して,LLM(Large Language Model)の出力を定量的に分析する。結果は、人間とAIが生成したテキストの様々な測定可能な相違を明らかにした。人間の文章は、より散在した文の長さの分布、より多様な語彙、依存と構成型の明確な利用を示す。 LLM出力は人文よりも数字、記号、補助語が多用され、代名詞も多用される。
論文参考訳（メタデータ） (2023-08-17T15:54:38Z)
The Imitation Game: Detecting Human and AI-Generated Texts in the Era of ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。テキストを分類するために、いくつかの機械学習モデルを使用します。結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文参考訳（メタデータ） (2023-07-22T21:00:14Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (2021-11-18T04:07:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。