論文の概要: How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices?
- arxiv url: http://arxiv.org/abs/2504.02767v1
- Date: Thu, 03 Apr 2025 17:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:21.086758
- Title: How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices?
- Title(参考訳): 大規模言語モデルは、科学文献やサイテーションの実践をいかに内包しているか?
- Authors: Andres Algaba, Vincent Holst, Floriano Tori, Melika Mobini, Brecht Verbeken, Sylvia Wenmackers, Vincent Ginis,
- Abstract要約: 論文の引用において,大規模言語モデル (LLM) がマシュー効果の強化に寄与していることが示唆された。
我々はGPT-4oが生成した274,951個の参照を1万件の論文に対して分析した。
- 参考スコア(独自算出の注目度): 1.130790932059036
- License:
- Abstract: The spread of scientific knowledge depends on how researchers discover and cite previous work. The adoption of large language models (LLMs) in the scientific research process introduces a new layer to these citation practices. However, it remains unclear to what extent LLMs align with human citation practices, how they perform across domains, and may influence citation dynamics. Here, we show that LLMs systematically reinforce the Matthew effect in citations by consistently favoring highly cited papers when generating references. This pattern persists across scientific domains despite significant field-specific variations in existence rates, which refer to the proportion of generated references that match existing records in external bibliometric databases. Analyzing 274,951 references generated by GPT-4o for 10,000 papers, we find that LLM recommendations diverge from traditional citation patterns by preferring more recent references with shorter titles and fewer authors. Emphasizing their content-level relevance, the generated references are semantically aligned with the content of each paper at levels comparable to the ground truth references and display similar network effects while reducing author self-citations. These findings illustrate how LLMs may reshape citation practices and influence the trajectory of scientific discovery by reflecting and amplifying established trends. As LLMs become more integrated into the scientific research process, it is important to understand their role in shaping how scientific communities discover and build upon prior work.
- Abstract(参考訳): 科学的知識の拡散は、研究者が過去の研究を発見・引用する方法に依存する。
科学研究プロセスにおける大規模言語モデル(LLM)の導入は、これらの引用の実践に新たなレイヤを導入している。
しかし、LLMが人間の引用の実践とどの程度一致しているか、ドメイン間でどのように機能するか、そして、引用力学に影響を及ぼすかは、まだ不明である。
ここでは、LLMが引用におけるマシュー効果を体系的に強化することを示し、参照を生成する際に、高度に引用された論文を一貫して好んでいる。
このパターンは、外部の文献データベースの既存の記録と一致する生成された参照の割合をいう。
GPT-4oが1万件の論文に対して生成した274,951件の参考文献を分析し,より短いタイトルと少ない著者によるより最近の参考文献を選好することで,従来の引用パターンからLLM勧告が分岐することを発見した。
それらの内容レベルの関連性を強調し、生成された参照は、各論文の内容と、地上の真実の参照に匹敵するレベルでセマンティックに整合し、著者の自己引用を減らしながら、同様のネットワーク効果を示す。
これらの知見は, LLMが既存の傾向を反映し増幅することによって, 引用の実践を再形成し, 科学的発見の軌跡に影響を与える可能性を示唆している。
LLMが科学研究プロセスに統合されるにつれて、科学コミュニティが先行研究を発見・構築する方法を形成する上での役割を理解することが重要である。
関連論文リスト
- HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction [14.731720495144112]
本稿では,表面的な言及を超越した批判的参照を識別する,コア引用という新しい概念を紹介する。
我々は、引用予測のための$textbfH$ybrid $textbfL$anguage $textbfM$odelワークフローである$textbfHLM-Citeを提案する。
我々はHLM-Citeを19分野にわたって評価し,SOTA法と比較して17.6%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-10T10:46:06Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - Large Language Models Reflect Human Citation Patterns with a Heightened Citation Bias [1.7812428873698407]
サイテーションの実践は科学的知識の構造を形成するのに不可欠であるが、それらは現代の規範や偏見の影響を受けていることが多い。
LLM(Large Language Models)の出現は、これらのプラクティスに新たなダイナミクスをもたらす。
本稿では,これらの特徴を,AAAI,NeurIPS,ICML,ICLRのデータセットを用いて解析する。
論文 参考訳(メタデータ) (2024-05-24T17:34:32Z) - Context-Enhanced Language Models for Generating Multi-Paper Citations [35.80247519023821]
本稿では,Large Language Models (LLMs) を用いて多文文を生成する手法を提案する。
提案手法は,複数文の引用文を含むコヒーレントな段落に終止符を打つ,単一のソース・ペーパーと対象論文の集合を包含する。
論文 参考訳(メタデータ) (2024-04-22T04:30:36Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - When Large Language Models Meet Citation: A Survey [37.01594297337486]
大規模言語モデル(LLM)は、対応するテキストコンテキストを介して詳細な引用情報を取得するのに役立つ。
キュリオシティはまた、科学論文間のつながりを確立し、高品質な文書間関係を提供する。
本稿では, 引用分類, 引用に基づく要約, 引用レコメンデーションを含む, テキスト内引用分析タスクへのLLMの適用について概説する。
論文 参考訳(メタデータ) (2023-09-18T12:48:48Z) - Deep Graph Learning for Anomalous Citation Detection [55.81334139806342]
本稿では,新たな深層グラフ学習モデルであるGLAD(Graph Learning for Anomaly Detection)を提案する。
GLADフレームワーク内ではCPU(Citation PUrpose)と呼ばれるアルゴリズムが提案され,引用テキストに基づく引用の目的が明らかになった。
論文 参考訳(メタデータ) (2022-02-23T09:05:28Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。