論文の概要: From Words to Worth: Newborn Article Impact Prediction with LLM
- arxiv url: http://arxiv.org/abs/2408.03934v1
- Date: Wed, 7 Aug 2024 17:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 12:35:07.547756
- Title: From Words to Worth: Newborn Article Impact Prediction with LLM
- Title(参考訳): 言葉から価値へ: LLMで生まれ変わった記事インパクト予測
- Authors: Penghai Zhao, Qinghua Xing, Kairan Dou, Jinyu Tian, Ying Tai, Jian Yang, Ming-Ming Cheng, Xiang Li,
- Abstract要約: 本稿は,LLMの微調整機能を活用して,新たな記事の今後の影響を予測する,有望なアプローチを提案する。
LLMを微調整するための包括的なデータセットが構築されリリースされ、対応するタイトル、抽象化、TLCSI_SPを含む12,000以上のエントリが含まれている。
- 参考スコア(独自算出の注目度): 69.41680520058418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the academic landscape expands, the challenge of efficiently identifying potentially high-impact articles among the vast number of newly published works becomes critical. This paper introduces a promising approach, leveraging the capabilities of fine-tuned LLMs to predict the future impact of newborn articles solely based on titles and abstracts. Moving beyond traditional methods heavily reliant on external information, the proposed method discerns the shared semantic features of highly impactful papers from a large collection of title-abstract and potential impact pairs. These semantic features are further utilized to regress an improved metric, TNCSI_SP, which has been endowed with value, field, and time normalization properties. Additionally, a comprehensive dataset has been constructed and released for fine-tuning the LLM, containing over 12,000 entries with corresponding titles, abstracts, and TNCSI_SP. The quantitative results, with an NDCG@20 of 0.901, demonstrate that the proposed approach achieves state-of-the-art performance in predicting the impact of newborn articles when compared to competitive counterparts. Finally, we demonstrate a real-world application for predicting the impact of newborn journal articles to demonstrate its noteworthy practical value. Overall, our findings challenge existing paradigms and propose a shift towards a more content-focused prediction of academic impact, offering new insights for assessing newborn article impact.
- Abstract(参考訳): 学術的な景観が拡大するにつれて、新刊作品の膨大な数の中で、潜在的にインパクトの高い記事を効果的に特定するという課題が重要となる。
本稿では,書名と要約のみに基づく新生記事の今後の影響を予測するために,微調整LDMの能力を活用する,有望なアプローチを提案する。
外部情報に大きく依存する従来の手法を超えて、提案手法は、非常に影響力のある論文の共有意味的特徴を、タイトルと潜在的なインパクトペアの大規模なコレクションから識別する。
これらのセマンティック機能は、値、フィールド、時間正規化特性を付与した改良されたメトリックである TNCSI_SP にさらに活用される。
さらに、LLMを微調整するための包括的なデータセットが構築されリリースされ、対応するタイトル、抽象化、TLCSI_SPを含む12,000以上のエントリが含まれている。
0.901のNDCG@20を用いて, 提案手法は, 競合する記事と比較して, 新生記事の影響を予測する上で, 最先端の性能を実現することを実証した。
最後に,新たな雑誌記事の影響を予測するための実世界のアプリケーションを紹介し,その実用的価値を実証する。
全体として、既存のパラダイムに挑戦し、よりコンテンツを重視した学術的影響予測へのシフトを提案し、新しく生まれた記事の影響を評価するための新たな洞察を提供する。
関連論文リスト
- Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - ATLAS: Improving Lay Summarisation with Attribute-based Control [19.62666787748948]
レイ要約(Lay summarisation)は、専門家でない聴衆に理解しやすい要約を作成することを目的としている。
以前の作業では、生成したサマリの内容とスタイルが、モデルをトレーニングするために使用されるデータに完全に依存する、オールサイズのアプローチを前提としていました。
我々は,生成された要約の全体的「遅延性」に寄与する様々な特性を制御できる,抽象的な要約手法ATLASを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:22:55Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Analysis of Multidomain Abstractive Summarization Using Salience
Allocation [2.6880540371111445]
季節は、塩分割り当て技術を活用して要約を強化するために設計されたモデルである。
本稿では、ROUGE、METEOR、BERTScore、MoverScoreなどの様々な評価指標を用いて、抽象的な要約を生成するために微調整されたモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-02-19T08:52:12Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - Adversarial Gradient Driven Exploration for Deep Click-Through Rate
Prediction [39.61776002290324]
textbfAdrial textbfGradientversa Driven textbfExploration (AGE) と呼ばれる新しい探索手法を提案する。
AGEは勾配更新プロセスをシミュレートし、モデルに対する探索項目のサンプルの影響を近似することができる。
本手法の有効性を,オープンアクセス学術データセットで実証した。
論文 参考訳(メタデータ) (2021-12-21T12:13:07Z) - Simplifying Impact Prediction for Scientific Articles [1.8352113484137624]
記事の期待される影響を推定することは、さまざまなアプリケーションにとって価値があります。
最小限の記事メタデータを用いてトレーニングできるモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T15:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。