論文の概要: ForeCite: Adapting Pre-Trained Language Models to Predict Future Citation Rates of Academic Papers
- arxiv url: http://arxiv.org/abs/2505.08941v1
- Date: Tue, 13 May 2025 20:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.290883
- Title: ForeCite: Adapting Pre-Trained Language Models to Predict Future Citation Rates of Academic Papers
- Title(参考訳): ForeCite: 事前学習型言語モデルを適用して学術論文の今後の引用率を予測する
- Authors: Gavin Hull, Alex Bihlo,
- Abstract要約: 本稿では,学術論文の今後の引用率を予測するフレームワークであるForeCiteを紹介する。
ForeCiteは2000年から2024年にかけて発行された900K以上のバイオメディカル論文のキュレートされたデータセット上で、$rho = 0.826$のテスト相関を達成している。
これらの結果は,学術研究の長期的影響を予測し,科学的貢献の自動化された高忠実度評価の基礎を築いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting the future citation rates of academic papers is an important step toward the automation of research evaluation and the acceleration of scientific progress. We present $\textbf{ForeCite}$, a simple but powerful framework to append pre-trained causal language models with a linear head for average monthly citation rate prediction. Adapting transformers for regression tasks, ForeCite achieves a test correlation of $\rho = 0.826$ on a curated dataset of 900K+ biomedical papers published between 2000 and 2024, a 27-point improvement over the previous state-of-the-art. Comprehensive scaling-law analysis reveals consistent gains across model sizes and data volumes, while temporal holdout experiments confirm practical robustness. Gradient-based saliency heatmaps suggest a potentially undue reliance on titles and abstract texts. These results establish a new state-of-the-art in forecasting the long-term influence of academic research and lay the groundwork for the automated, high-fidelity evaluation of scientific contributions.
- Abstract(参考訳): 学術論文の今後の引用率の予測は、研究評価の自動化と科学的進歩の加速に向けた重要なステップである。
我々は、月平均引用率予測のために、線形ヘッドで事前訓練された因果言語モデルを追加するためのシンプルだが強力なフレームワークである$\textbf{ForeCite}$を提示した。
2000年から2024年にかけて発行された900K以上の生物医学論文のキュレートされたデータセット上で、ForeCiteは回帰タスクに変換器を適用することで、$\rho = 0.826$のテスト相関を達成している。
包括的スケーリング法則解析は、モデルサイズとデータボリュームの間で一貫した利得を示し、時間的ホールドアウト実験は実用的堅牢性を確認している。
グラディエントベースのサリエンシ・ヒートマップは、タイトルや抽象テキストに依存しない可能性があることを示唆している。
これらの結果は,学術研究の長期的影響を予測し,科学的貢献の自動化された高忠実度評価の基礎を築いた。
関連論文リスト
- ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations [45.57178343138677]
我々はScholarCopilotを紹介した。ScholarCopilotは学術書記のための既存の大規模言語モデルを強化するために設計された統合フレームワークである。
ScholarCopilotは、検索トークン[RET]を生成して学術的な参照をいつ取得するかを決定し、引用データベースに問い合わせる。
私たちは1つのフレームワーク内で生成タスクと引用タスクの両方を共同で最適化し、効率を向上します。
論文 参考訳(メタデータ) (2025-04-01T14:12:14Z) - Comprehensive Manuscript Assessment with Text Summarization Using 69707 articles [10.943765373420135]
我々は69707の科学論文から得られた、非常に包括的で大規模な情報のデータセットをキュレートするために、Scopusを利用する。
本稿では,原稿から抽出した意味的特徴と論文メタデータを活用する,インパクトベース分類タスクの深層学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-26T07:56:15Z) - Optimizing Research Portfolio For Semantic Impact [55.2480439325792]
サイテーション指標は学術的影響を評価するために広く用いられているが、社会的偏見に悩まされている。
本稿では,研究効果を予測する新しいフレームワークであるrXiv Semantic Impact (XSI)を紹介する。
XSIは学術知識グラフにおける研究概念の進化を追跡している。
論文 参考訳(メタデータ) (2025-02-19T17:44:13Z) - WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.782357627001154]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。
我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
論文 参考訳(メタデータ) (2024-12-04T23:36:23Z) - Machine Learning to Promote Translational Research: Predicting Patent
and Clinical Trial Inclusion in Dementia Research [0.0]
認知症は、2040年までに英国で6100万人に影響を及ぼし、年間25億ポンドの費用がかかると予想されている。
1990~2023年の間に、イギリスの認知症研究出版物43,091件からDmensionsデータベースを用いてデータを抽出した。
特許の予測では、受信者動作特性曲線(AUROC)の精度は0.84と77.17%であり、臨床試験の精度は0.81と75.11%である。
論文 参考訳(メタデータ) (2024-01-10T13:25:49Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Deep forecasting of translational impact in medical research [1.8130872753848115]
我々は,多スケールパブリッシュデータの表現的および識別的数学的モデルスイートを開発する。
我々は、引用は、特許、ガイドライン、政策文書に含めることにより判断される翻訳効果の適度な予測のみであることを示す。
我々は、従来の引用に基づく手法よりも、コンテンツに基づく影響モデルの方がパフォーマンスに優れていると論じる。
論文 参考訳(メタデータ) (2021-10-17T19:29:41Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。