論文の概要: From Words to Worth: Newborn Article Impact Prediction with LLM
- arxiv url: http://arxiv.org/abs/2408.03934v2
- Date: Sat, 14 Dec 2024 15:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:58.640646
- Title: From Words to Worth: Newborn Article Impact Prediction with LLM
- Title(参考訳): 言葉から価値へ: LLMで生まれ変わった記事インパクト予測
- Authors: Penghai Zhao, Qinghua Xing, Kairan Dou, Jinyu Tian, Ying Tai, Jian Yang, Ming-Ming Cheng, Xiang Li,
- Abstract要約: 本稿では, LLMの能力を活用して, 新生記事の今後の影響を予測する, 有望なアプローチを提案する。
提案手法はLLMを用いて,高インパクトな論文の共有意味的特徴をタイトルと抽象的なペアの集合から識別する。
提案手法は, 0.216のMAEと0.901のNDCG@20を用いて, 提案手法が最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 69.41680520058418
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the academic landscape expands, the challenge of efficiently identifying impactful newly published articles grows increasingly vital. This paper introduces a promising approach, leveraging the capabilities of LLMs to predict the future impact of newborn articles solely based on titles and abstracts. Moving beyond traditional methods heavily reliant on external information, the proposed method employs LLM to discern the shared semantic features of highly impactful papers from a large collection of title-abstract pairs. These semantic features are further utilized to predict the proposed indicator, TNCSI_SP, which incorporates favorable normalization properties across value, field, and time. To facilitate parameter-efficient fine-tuning of the LLM, we have also meticulously curated a dataset containing over 12,000 entries, each annotated with titles, abstracts, and their corresponding TNCSI_SP values. The quantitative results, with an MAE of 0.216 and an NDCG@20 of 0.901, demonstrate that the proposed approach achieves state-of-the-art performance in predicting the impact of newborn articles when compared to several promising methods. Finally, we present a real-world application example for predicting the impact of newborn journal articles to demonstrate its noteworthy practical value. Overall, our findings challenge existing paradigms and propose a shift towards a more content-focused prediction of academic impact, offering new insights for article impact prediction.
- Abstract(参考訳): 学術的な展望が拡大するにつれて、影響力のある新刊記事の効率的な同定という課題がますます重要になっている。
本稿では, LLMの能力を活用して, タイトルや要約のみに基づく新生記事の今後の影響を予測する, 有望なアプローチを提案する。
外部情報に大きく依存する従来の手法を超えて、提案手法はLLMを用いて、高度に影響力のある論文の共有意味的特徴をタイトルと制約のペアの大規模なコレクションから識別する。
これらのセマンティックな特徴は、値、フィールド、時間にまたがる好ましい正規化特性を含む提案されたインジケータ TNCSI_SP を予測するためにさらに活用される。
LLMのパラメータ効率の良い微調整を容易にするために、12,000以上のエントリを含むデータセットを慎重にキュレートし、それぞれにタイトル、抽象、および対応する TNCSI_SP 値を付加した。
これらの結果から,本提案手法は,新鮮物品の影響を予測し,その影響を予測できることを示す。
最後に,新たな雑誌記事の影響を予測し,その実用的価値を実証するための実世界の応用例を示す。
全体として、既存のパラダイムに挑戦し、学術的影響のよりコンテンツ中心の予測へのシフトを提案し、記事のインパクト予測に新たな洞察を提供する。
関連論文リスト
- Comprehensive Manuscript Assessment with Text Summarization Using 69707 articles [10.943765373420135]
我々は69707の科学論文から得られた、非常に包括的で大規模な情報のデータセットをキュレートするために、Scopusを利用する。
本稿では,原稿から抽出した意味的特徴と論文メタデータを活用する,インパクトベース分類タスクの深層学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-26T07:56:15Z) - Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - ATLAS: Improving Lay Summarisation with Attribute-based Control [19.62666787748948]
レイ要約(Lay summarisation)は、専門家でない聴衆に理解しやすい要約を作成することを目的としている。
以前の作業では、生成したサマリの内容とスタイルが、モデルをトレーニングするために使用されるデータに完全に依存する、オールサイズのアプローチを前提としていました。
我々は,生成された要約の全体的「遅延性」に寄与する様々な特性を制御できる,抽象的な要約手法ATLASを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:22:55Z) - Entangled Relations: Leveraging NLI and Meta-analysis to Enhance Biomedical Relation Extraction [35.320291731292286]
そこで我々は,NLIの原理を応用し,関係抽出を強化したMetaEntail-REを提案する。
我々のアプローチは、関係クラスをクラス指示仮説に言語化することで過去の研究に追従する。
実験の結果,MetaEntail-REはバイオメディカルドメインと一般ドメインの両方で性能向上を示した。
論文 参考訳(メタデータ) (2024-05-31T23:05:04Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Analysis of Multidomain Abstractive Summarization Using Salience
Allocation [2.6880540371111445]
季節は、塩分割り当て技術を活用して要約を強化するために設計されたモデルである。
本稿では、ROUGE、METEOR、BERTScore、MoverScoreなどの様々な評価指標を用いて、抽象的な要約を生成するために微調整されたモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-02-19T08:52:12Z) - P^3SUM: Preserving Author's Perspective in News Summarization with Diffusion Language Models [57.571395694391654]
既存のアプローチは、要約の50%以上で、ニュース記事の政治的意見やスタンスを変えている。
政治的視点分類器によって制御される拡散モデルに基づく要約手法であるP3SUMを提案する。
3つのニュース要約データセットの実験により、P3SUMは最先端の要約システムより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-16T10:14:28Z) - Enhancing Topic Extraction in Recommender Systems with Entropy
Regularization [2.7286395031146062]
本稿では,レコメンデータシステムの低説明可能性問題に対処するため,エントロピー正規化と呼ばれる新しい手法を提案する。
実験の結果,単語埋め込みにおけるコサイン類似性によって定量化され,トピックコヒーレンスが著しく向上したことが示された。
論文 参考訳(メタデータ) (2023-06-12T20:05:09Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - MINER: Improving Out-of-Vocabulary Named Entity Recognition from an
Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。
近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。
我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文 参考訳(メタデータ) (2022-04-09T05:18:20Z) - Deep forecasting of translational impact in medical research [1.8130872753848115]
我々は,多スケールパブリッシュデータの表現的および識別的数学的モデルスイートを開発する。
我々は、引用は、特許、ガイドライン、政策文書に含めることにより判断される翻訳効果の適度な予測のみであることを示す。
我々は、従来の引用に基づく手法よりも、コンテンツに基づく影響モデルの方がパフォーマンスに優れていると論じる。
論文 参考訳(メタデータ) (2021-10-17T19:29:41Z) - Simplifying Impact Prediction for Scientific Articles [1.8352113484137624]
記事の期待される影響を推定することは、さまざまなアプリケーションにとって価値があります。
最小限の記事メタデータを用いてトレーニングできるモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T15:24:55Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z) - Latent Opinions Transfer Network for Target-Oriented Opinion Words
Extraction [63.70885228396077]
資源豊富なレビュー評価分類データセットから低リソースタスクTOWEへ意見知識を伝達する新しいモデルを提案する。
我々のモデルは、他の最先端手法よりも優れた性能を達成し、意見の知識を伝達することなく、ベースモデルを大幅に上回る。
論文 参考訳(メタデータ) (2020-01-07T11:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。