論文の概要: ScienceMeter: Tracking Scientific Knowledge Updates in Language Models
- arxiv url: http://arxiv.org/abs/2505.24302v1
- Date: Fri, 30 May 2025 07:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.831247
- Title: ScienceMeter: Tracking Scientific Knowledge Updates in Language Models
- Title(参考訳): Science Meter: 言語モデルにおける科学的知識更新の追跡
- Authors: Yike Wang, Shangbin Feng, Yulia Tsvetkov, Hannaneh Hajishirzi,
- Abstract要約: 大規模言語モデル(LLM)は、科学研究を支援するためにますます使われているが、科学的進歩に関する彼らの知識は急速に時代遅れになる。
我々は,過去,現在,未来にまたがる科学的知識の更新手法を評価するための新しいフレームワークであるScienceMeterを紹介する。
- 参考スコア(独自算出の注目度): 79.33626657942169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to support scientific research, but their knowledge of scientific advancements can quickly become outdated. We introduce ScienceMeter, a new framework for evaluating scientific knowledge update methods over scientific knowledge spanning the past, present, and future. ScienceMeter defines three metrics: knowledge preservation, the extent to which models' understanding of previously learned papers are preserved; knowledge acquisition, how well scientific claims from newly introduced papers are acquired; and knowledge projection, the ability of the updated model to anticipate or generalize to related scientific claims that may emerge in the future. Using ScienceMeter, we examine the scientific knowledge of LLMs on claim judgment and generation tasks across a curated dataset of 15,444 scientific papers and 30,888 scientific claims from ten domains including medicine, biology, materials science, and computer science. We evaluate five representative knowledge update approaches including training- and inference-time methods. With extensive experiments, we find that the best-performing knowledge update methods can preserve only 85.9% of existing knowledge, acquire 71.7% of new knowledge, and project 37.7% of future knowledge. Inference-based methods work for larger models, whereas smaller models require training to achieve comparable performance. Cross-domain analysis reveals that performance on these objectives is correlated. Even when applying on specialized scientific LLMs, existing knowledge update methods fail to achieve these objectives collectively, underscoring that developing robust scientific knowledge update mechanisms is both crucial and challenging.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学研究を支援するためにますます使われているが、科学的進歩に関する彼らの知識は急速に時代遅れになる。
我々は,過去,現在,未来にまたがる科学的知識の更新手法を評価するための新しいフレームワークであるScienceMeterを紹介する。
ScienceMeterは3つの指標を定義している: 知識保存、学習済み論文に対するモデルの理解の保存範囲、知識獲得、新しく導入された論文からの科学的主張の取得方法、知識予測、更新されたモデルが将来現れるかもしれない関連する科学的主張を予測または一般化する能力である。
我々はScienceMeterを用いて,医学,生物学,材料科学,計算機科学を含む10分野の15,444件の論文と30,888件の科学論文を収集した。
トレーニング時間と推論時間を含む5つの代表的な知識更新手法を評価する。
広範な実験により、最高の知識更新手法は、既存の知識の85.9%しか保存できず、新しい知識の71.7%、将来の知識の37.7%しか取得できないことが判明した。
推論ベースのメソッドはより大きなモデルで機能するが、より小さなモデルは同等のパフォーマンスを達成するためにトレーニングを必要とする。
クロスドメイン分析は、これらの目的に対する性能が相関していることを明らかにする。
専門的な科学的LLMを適用する場合でも、既存の知識更新手法はこれらの目的をまとめて達成することができず、堅牢な科学知識更新メカニズムの開発は決定的かつ困難である。
関連論文リスト
- Advancing the Scientific Method with Large Language Models: From Hypothesis to Discovery [35.888956949646]
大規模言語モデル (LLM) は科学的方法を変えて科学的研究を変革している。
LLMは、特に化学や生物学において、実験的な設計、データ分析、生産性の向上に関与している。
AI駆動科学への移行は、創造性、監視、責任に関する倫理的な疑問を提起する。
論文 参考訳(メタデータ) (2025-05-22T10:05:48Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。
これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。
ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - KnowledgeShovel: An AI-in-the-Loop Document Annotation System for
Scientific Knowledge Base Construction [46.56643271476249]
KnowledgeShovelは、研究者が科学的知識基盤を構築するための、Al-in-the-Loop文書アノテーションシステムである。
KnowledgeShovelの設計では、多段階のマルチモーダルAIコラボレーションパイプラインを導入し、データの正確性を向上し、人的負担を軽減する。
7つの地学研究者によるフォローアップユーザ評価では、知識ショベルは、十分な精度で科学的知識ベースを効率的に構築できることを示している。
論文 参考訳(メタデータ) (2022-10-06T11:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。