論文の概要: From Words to Worth: Newborn Article Impact Prediction with LLM
- arxiv url: http://arxiv.org/abs/2408.03934v2
- Date: Sat, 14 Dec 2024 15:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:19.699865
- Title: From Words to Worth: Newborn Article Impact Prediction with LLM
- Title(参考訳): 言葉から価値へ: LLMで生まれ変わった記事インパクト予測
- Authors: Penghai Zhao, Qinghua Xing, Kairan Dou, Jinyu Tian, Ying Tai, Jian Yang, Ming-Ming Cheng, Xiang Li,
- Abstract要約: 本稿では, LLMの能力を活用して, 新生記事の今後の影響を予測する, 有望なアプローチを提案する。
提案手法はLLMを用いて,高インパクトな論文の共有意味的特徴をタイトルと抽象的なペアの集合から識別する。
提案手法は, 0.216のMAEと0.901のNDCG@20を用いて, 提案手法が最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 69.41680520058418
- License:
- Abstract: As the academic landscape expands, the challenge of efficiently identifying impactful newly published articles grows increasingly vital. This paper introduces a promising approach, leveraging the capabilities of LLMs to predict the future impact of newborn articles solely based on titles and abstracts. Moving beyond traditional methods heavily reliant on external information, the proposed method employs LLM to discern the shared semantic features of highly impactful papers from a large collection of title-abstract pairs. These semantic features are further utilized to predict the proposed indicator, TNCSI_SP, which incorporates favorable normalization properties across value, field, and time. To facilitate parameter-efficient fine-tuning of the LLM, we have also meticulously curated a dataset containing over 12,000 entries, each annotated with titles, abstracts, and their corresponding TNCSI_SP values. The quantitative results, with an MAE of 0.216 and an NDCG@20 of 0.901, demonstrate that the proposed approach achieves state-of-the-art performance in predicting the impact of newborn articles when compared to several promising methods. Finally, we present a real-world application example for predicting the impact of newborn journal articles to demonstrate its noteworthy practical value. Overall, our findings challenge existing paradigms and propose a shift towards a more content-focused prediction of academic impact, offering new insights for article impact prediction.
- Abstract(参考訳): 学術的な展望が拡大するにつれて、影響力のある新刊記事の効率的な同定という課題がますます重要になっている。
本稿では, LLMの能力を活用して, タイトルや要約のみに基づく新生記事の今後の影響を予測する, 有望なアプローチを提案する。
外部情報に大きく依存する従来の手法を超えて、提案手法はLLMを用いて、高度に影響力のある論文の共有意味的特徴をタイトルと制約のペアの大規模なコレクションから識別する。
これらのセマンティックな特徴は、値、フィールド、時間にまたがる好ましい正規化特性を含む提案されたインジケータ TNCSI_SP を予測するためにさらに活用される。
LLMのパラメータ効率の良い微調整を容易にするために、12,000以上のエントリを含むデータセットを慎重にキュレートし、それぞれにタイトル、抽象、および対応する TNCSI_SP 値を付加した。
これらの結果から,本提案手法は,新鮮物品の影響を予測し,その影響を予測できることを示す。
最後に,新たな雑誌記事の影響を予測し,その実用的価値を実証するための実世界の応用例を示す。
全体として、既存のパラダイムに挑戦し、学術的影響のよりコンテンツ中心の予測へのシフトを提案し、記事のインパクト予測に新たな洞察を提供する。
関連論文リスト
- Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - ATLAS: Improving Lay Summarisation with Attribute-based Control [19.62666787748948]
レイ要約(Lay summarisation)は、専門家でない聴衆に理解しやすい要約を作成することを目的としている。
以前の作業では、生成したサマリの内容とスタイルが、モデルをトレーニングするために使用されるデータに完全に依存する、オールサイズのアプローチを前提としていました。
我々は,生成された要約の全体的「遅延性」に寄与する様々な特性を制御できる,抽象的な要約手法ATLASを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:22:55Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Analysis of Multidomain Abstractive Summarization Using Salience
Allocation [2.6880540371111445]
季節は、塩分割り当て技術を活用して要約を強化するために設計されたモデルである。
本稿では、ROUGE、METEOR、BERTScore、MoverScoreなどの様々な評価指標を用いて、抽象的な要約を生成するために微調整されたモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-02-19T08:52:12Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - Adversarial Gradient Driven Exploration for Deep Click-Through Rate
Prediction [39.61776002290324]
textbfAdrial textbfGradientversa Driven textbfExploration (AGE) と呼ばれる新しい探索手法を提案する。
AGEは勾配更新プロセスをシミュレートし、モデルに対する探索項目のサンプルの影響を近似することができる。
本手法の有効性を,オープンアクセス学術データセットで実証した。
論文 参考訳(メタデータ) (2021-12-21T12:13:07Z) - Simplifying Impact Prediction for Scientific Articles [1.8352113484137624]
記事の期待される影響を推定することは、さまざまなアプリケーションにとって価値があります。
最小限の記事メタデータを用いてトレーニングできるモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T15:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。