論文の概要: Delving into ChatGPT usage in academic writing through excess vocabulary
- arxiv url: http://arxiv.org/abs/2406.07016v2
- Date: Wed, 3 Jul 2024 09:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 19:24:59.166001
- Title: Delving into ChatGPT usage in academic writing through excess vocabulary
- Title(参考訳): 過剰語彙による書字におけるChatGPTの活用
- Authors: Dmitry Kobak, Rita González-Márquez, Emőke-Ágnes Horvát, Jan Lause,
- Abstract要約: 大きな言語モデル(LLM)は、人間レベルのパフォーマンスでテキストを生成し、修正することができる。
しかし、多くの科学者が学術的な執筆を支援するためにそれを使ってきた。
2010年から2024年までの1400万のPubMed抽象語の語彙変化について検討し、LLMの出現がある種の単語の出現頻度の急激な増加につながったことを示す。
- 参考スコア(独自算出の注目度): 4.58733012283457
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent large language models (LLMs) can generate and revise text with human-level performance, and have been widely commercialized in systems like ChatGPT. These models come with clear limitations: they can produce inaccurate information, reinforce existing biases, and be easily misused. Yet, many scientists have been using them to assist their scholarly writing. How wide-spread is LLM usage in the academic literature currently? To answer this question, we use an unbiased, large-scale approach, free from any assumptions on academic LLM usage. We study vocabulary changes in 14 million PubMed abstracts from 2010-2024, and show how the appearance of LLMs led to an abrupt increase in the frequency of certain style words. Our analysis based on excess words usage suggests that at least 10% of 2024 abstracts were processed with LLMs. This lower bound differed across disciplines, countries, and journals, and was as high as 30% for some PubMed sub-corpora. We show that the appearance of LLM-based writing assistants has had an unprecedented impact in the scientific literature, surpassing the effect of major world events such as the Covid pandemic.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、人間レベルのパフォーマンスでテキストを生成・修正することができ、ChatGPTのようなシステムで広く商業化されている。
これらのモデルには明確な制限があり、不正確な情報を生成し、既存のバイアスを強化し、簡単に誤用できる。
しかし、多くの科学者が学術的な執筆を支援するためにそれを使ってきた。
学術文献におけるLLMの利用状況について
この問いに答えるために、学術的なLLMの使用に関する仮定を含まない、偏見のない大規模アプローチを用いる。
2010年から2024年までの1400万のPubMed抽象語の語彙変化について検討し、LLMの出現がある種の単語の出現頻度の急激な増加につながったことを示す。
以上の結果から,2024の抽象語のうち少なくとも10%はLLMで処理されていたことが示唆された。
この下限は分野、国、雑誌によって異なり、PubMedサブコーポラの30%にも達した。
我々は,LLMをベースとした筆記助手の出現が,コビッドパンデミックなどの世界大イベントの影響を超越し,科学文献に前例のない影響を与えていることを示す。
関連論文リスト
- Do LLMs write like humans? Variation in grammatical and rhetorical styles [0.7852714805965528]
大規模言語モデル(LLM)の修辞形式について検討する。
ダグラス・ビーバーの語彙的・文法的・修辞的特徴セットを用いて, LLMと人間との系統的差異を同定した。
このことは、高度な能力にもかかわらず、LLMは人間のスタイルに合うのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-21T15:35:44Z) - Transforming Scholarly Landscapes: Influence of Large Language Models on Academic Fields beyond Computer Science [77.31665252336157]
大規模言語モデル (LLM) は自然言語処理 (NLP) において転換期を迎えた。
本研究は,NLP以外の分野におけるLLMの影響と利用について実験的に検討する。
論文 参考訳(メタデータ) (2024-09-29T01:32:35Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - A Comprehensive Survey of Hallucination Mitigation Techniques in Large
Language Models [7.705767540805267]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。
重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。
本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文 参考訳(メタデータ) (2024-01-02T17:56:30Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。