論文の概要: Linguistic Characteristics of AI-Generated Text: A Survey
- arxiv url: http://arxiv.org/abs/2510.05136v1
- Date: Wed, 01 Oct 2025 05:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.840535
- Title: Linguistic Characteristics of AI-Generated Text: A Survey
- Title(参考訳): AI生成テキストの言語特性:調査
- Authors: Luka Terčon, Kaja Dobrovoljc,
- Abstract要約: 大規模言語モデル(LLM)は、テキストの自動生成のための効果的なツールとして、現代世界での地位を固めている。
AI生成テキストに存在する言語的特徴を研究する必要性が高まっている。
- 参考スコア(独自算出の注目度): 0.3007949058551534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are solidifying their position in the modern world as effective tools for the automatic generation of text. Their use is quickly becoming commonplace in fields such as education, healthcare, and scientific research. There is a growing need to study the linguistic features present in AI-generated text, as the increasing presence of such texts has profound implications in various disciplines such as corpus linguistics, computational linguistics, and natural language processing. Many observations have already been made, however a broader synthesis of the findings made so far is required to provide a better understanding of the topic. The present survey paper aims to provide such a synthesis of extant research. We categorize the existing works along several dimensions, including the levels of linguistic description, the models included, the genres analyzed, the languages analyzed, and the approach to prompting. Additionally, the same scheme is used to present the findings made so far and expose the current trends followed by researchers. Among the most-often reported findings is the observation that AI-generated text is more likely to contain a more formal and impersonal style, signaled by the increased presence of nouns, determiners, and adpositions and the lower reliance on adjectives and adverbs. AI-generated text is also more likely to feature a lower lexical diversity, a smaller vocabulary size, and repetitive text. Current research, however, remains heavily concentrated on English data and mostly on text generated by the GPT model family, highlighting the need for broader cross-linguistic and cross-model investigation. In most cases authors also fail to address the issue of prompt sensitivity, leaving much room for future studies that employ multiple prompt wordings in the text generation phase.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストの自動生成のための効果的なツールとして、現代世界での地位を固めている。
彼らの利用は、教育、医療、科学研究などの分野で急速に普及している。
コーパス言語学、計算言語学、自然言語処理といった様々な分野において、そのようなテキストの存在が深く影響しているため、AI生成テキストに存在する言語的特徴を研究する必要性が高まっている。
多くの観測がすでになされているが、このトピックをより深く理解するためには、これまでに行われた発見のより広範な合成が必要である。
本研究の目的は,既存の研究の合成を提供することである。
本稿では,言語記述のレベル,含まれるモデル,分析されたジャンル,分析された言語,促すためのアプローチなど,いくつかの側面に沿って既存の作品を分類する。
さらに、これまでの調査結果を提示し、現在の傾向を明らかにするために、同様のスキームが使用されている。
最も多く報告されている発見は、AIが生成したテキストは、名詞、決定者、代名詞の存在の増加と形容詞や副詞への依存度が低いことによる、よりフォーマルで非個人的なスタイルを含む可能性が高い、という観察である。
AI生成されたテキストは、より低い語彙の多様性、より小さい語彙サイズ、反復的なテキストを特徴とすることが多い。
しかし、現在の研究は英語データに大きく集中しており、主にGPTモデルファミリーが生成したテキストに重点を置いており、より広範な言語的・クロスモデル調査の必要性を強調している。
ほとんどの場合、著者は迅速な感度の問題にも対処できず、テキスト生成フェーズで複数のプロンプトワードを使用する将来の研究に多くの余地を残している。
関連論文リスト
- Beyond checkmate: exploring the creative chokepoints in AI text [9.65404451340112]
我々は、テキストセグメント間の人間とAIのテキスト間のニュアンスな区別を描写する(模倣、体、結論)。
我々の研究は、人間とAIのテキストの違いに対する新たな洞察を提供し、より効果的かつ解釈可能な検出戦略の道を開く。
論文 参考訳(メタデータ) (2025-01-31T16:57:01Z) - Differentiating between human-written and AI-generated texts using linguistic features automatically extracted from an online computational tool [0.0]
本研究の目的は,AIが人間の文章をエミュレートする能力を評価することにある。
人間の発話を模倣したAI生成テキストが現れるにもかかわらず、結果は複数の言語的特徴に有意な差が認められた。
論文 参考訳(メタデータ) (2024-07-04T05:37:09Z) - Deep dive into language traits of AI-generated Abstracts [5.209583971923267]
ChatGPTのような生成言語モデルは、人間のような文章を生成する能力に注意を向けている。
本研究では,ChatGPTが生成する抽象概念を,長さとバウンドがはるかに短い方法で検出しようと試みる。
テキストの意味的特徴と語彙的特性を抽出し、従来の機械学習モデルがこれらの抽象概念を確実に検出できることを観察する。
論文 参考訳(メタデータ) (2023-12-17T06:03:33Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Survey of Hallucination in Natural Language Generation [69.9926849848132]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。
深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文 参考訳(メタデータ) (2022-02-08T03:55:01Z) - A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。
まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文 参考訳(メタデータ) (2022-02-02T16:18:41Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。