論文の概要: Delving into ChatGPT usage in academic writing through excess vocabulary
- arxiv url: http://arxiv.org/abs/2406.07016v2
- Date: Wed, 3 Jul 2024 09:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 19:24:59.166001
- Title: Delving into ChatGPT usage in academic writing through excess vocabulary
- Title(参考訳): 過剰語彙による書字におけるChatGPTの活用
- Authors: Dmitry Kobak, Rita González-Márquez, Emőke-Ágnes Horvát, Jan Lause,
- Abstract要約: 大きな言語モデル(LLM)は、人間レベルのパフォーマンスでテキストを生成し、修正することができる。
しかし、多くの科学者が学術的な執筆を支援するためにそれを使ってきた。
2010年から2024年までの1400万のPubMed抽象語の語彙変化について検討し、LLMの出現がある種の単語の出現頻度の急激な増加につながったことを示す。
- 参考スコア(独自算出の注目度): 4.58733012283457
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent large language models (LLMs) can generate and revise text with human-level performance, and have been widely commercialized in systems like ChatGPT. These models come with clear limitations: they can produce inaccurate information, reinforce existing biases, and be easily misused. Yet, many scientists have been using them to assist their scholarly writing. How wide-spread is LLM usage in the academic literature currently? To answer this question, we use an unbiased, large-scale approach, free from any assumptions on academic LLM usage. We study vocabulary changes in 14 million PubMed abstracts from 2010-2024, and show how the appearance of LLMs led to an abrupt increase in the frequency of certain style words. Our analysis based on excess words usage suggests that at least 10% of 2024 abstracts were processed with LLMs. This lower bound differed across disciplines, countries, and journals, and was as high as 30% for some PubMed sub-corpora. We show that the appearance of LLM-based writing assistants has had an unprecedented impact in the scientific literature, surpassing the effect of major world events such as the Covid pandemic.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、人間レベルのパフォーマンスでテキストを生成・修正することができ、ChatGPTのようなシステムで広く商業化されている。
これらのモデルには明確な制限があり、不正確な情報を生成し、既存のバイアスを強化し、簡単に誤用できる。
しかし、多くの科学者が学術的な執筆を支援するためにそれを使ってきた。
学術文献におけるLLMの利用状況について
この問いに答えるために、学術的なLLMの使用に関する仮定を含まない、偏見のない大規模アプローチを用いる。
2010年から2024年までの1400万のPubMed抽象語の語彙変化について検討し、LLMの出現がある種の単語の出現頻度の急激な増加につながったことを示す。
以上の結果から,2024の抽象語のうち少なくとも10%はLLMで処理されていたことが示唆された。
この下限は分野、国、雑誌によって異なり、PubMedサブコーポラの30%にも達した。
我々は,LLMをベースとした筆記助手の出現が,コビッドパンデミックなどの世界大イベントの影響を超越し,科学文献に前例のない影響を与えていることを示す。
関連論文リスト
- Human-LLM Coevolution: Evidence from Academic Writing [0.0]
We report a marked drop in the frequency of several words before previously identifieded by ChatGPT, such as "delve"。
ChatGPTで好まれる「重要な」単語の頻度は増加し続けている。
論文 参考訳(メタデータ) (2025-02-13T18:55:56Z) - Why Does ChatGPT "Delve" So Much? Exploring the Sources of Lexical Overrepresentation in Large Language Models [0.0]
科学者による大規模言語モデル(LLM)の使用が言語変化の原因であると広く考えられている。
我々は,これらの言語変化を特徴付ける形式的,伝達可能な方法を開発した。
LLM の使用により,科学的な抽象概念の出現が増加する21の焦点単語が検出された。
ヒトのフィードバックからの強化学習が焦点単語の過剰使用に寄与するかどうかを評価する。
論文 参考訳(メタデータ) (2024-12-16T02:27:59Z) - The Impact of Large Language Models in Academia: from Writing to Speaking [42.1505375956748]
筆者らは,3万件以上の論文と1,000件以上の機械学習カンファレンスのプレゼンテーションに基づいて,文章や講演の言葉を調査,比較した。
以上の結果から,LLMスタイルの単語である「有意」が抽象語や口頭語ではより頻繁に用いられていることが示唆された。
人社会に対するLLMの暗黙の影響と波及効果に注意を向け、講演への影響が浮上し始めており、将来成長する可能性が高い。
論文 参考訳(メタデータ) (2024-09-20T17:54:16Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Is ChatGPT Transforming Academics' Writing Style? [0.0]
2018年5月から2024年1月までに提出された100万件のarXiv論文に基づいて,ChatGPTの文章スタイルのテキスト密度を要約で評価した。
大規模言語モデル (LLM) はChatGPTによって表現され, arXiv の抽象概念に影響を及ぼしている。
論文 参考訳(メタデータ) (2024-04-12T17:41:05Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - A Comprehensive Survey of Hallucination Mitigation Techniques in Large
Language Models [7.705767540805267]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。
重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。
本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文 参考訳(メタデータ) (2024-01-02T17:56:30Z) - How should the advent of large language models affect the practice of
science? [51.62881233954798]
大規模言語モデルの出現は科学の実践にどのように影響を与えるべきか?
我々は4つの科学者グループを招待し、この質問を反映し、彼らの見解を共有し、議論をおこなった。
論文 参考訳(メタデータ) (2023-12-05T10:45:12Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。