Fugu-MT 論文翻訳(概要): ScienceMeter: Tracking Scientific Knowledge Updates in Language Models

論文の概要: ScienceMeter: Tracking Scientific Knowledge Updates in Language Models

arxiv url: http://arxiv.org/abs/2505.24302v1
Date: Fri, 30 May 2025 07:28:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.831247
Title: ScienceMeter: Tracking Scientific Knowledge Updates in Language Models
Title（参考訳）: Science Meter: 言語モデルにおける科学的知識更新の追跡
Authors: Yike Wang, Shangbin Feng, Yulia Tsvetkov, Hannaneh Hajishirzi,
Abstract要約: 大規模言語モデル(LLM)は、科学研究を支援するためにますます使われているが、科学的進歩に関する彼らの知識は急速に時代遅れになる。我々は,過去,現在,未来にまたがる科学的知識の更新手法を評価するための新しいフレームワークであるScienceMeterを紹介する。
参考スコア（独自算出の注目度）: 79.33626657942169
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly used to support scientific research, but their knowledge of scientific advancements can quickly become outdated. We introduce ScienceMeter, a new framework for evaluating scientific knowledge update methods over scientific knowledge spanning the past, present, and future. ScienceMeter defines three metrics: knowledge preservation, the extent to which models' understanding of previously learned papers are preserved; knowledge acquisition, how well scientific claims from newly introduced papers are acquired; and knowledge projection, the ability of the updated model to anticipate or generalize to related scientific claims that may emerge in the future. Using ScienceMeter, we examine the scientific knowledge of LLMs on claim judgment and generation tasks across a curated dataset of 15,444 scientific papers and 30,888 scientific claims from ten domains including medicine, biology, materials science, and computer science. We evaluate five representative knowledge update approaches including training- and inference-time methods. With extensive experiments, we find that the best-performing knowledge update methods can preserve only 85.9% of existing knowledge, acquire 71.7% of new knowledge, and project 37.7% of future knowledge. Inference-based methods work for larger models, whereas smaller models require training to achieve comparable performance. Cross-domain analysis reveals that performance on these objectives is correlated. Even when applying on specialized scientific LLMs, existing knowledge update methods fail to achieve these objectives collectively, underscoring that developing robust scientific knowledge update mechanisms is both crucial and challenging.
Abstract（参考訳）: 大規模言語モデル(LLM)は、科学研究を支援するためにますます使われているが、科学的進歩に関する彼らの知識は急速に時代遅れになる。我々は,過去,現在,未来にまたがる科学的知識の更新手法を評価するための新しいフレームワークであるScienceMeterを紹介する。 ScienceMeterは3つの指標を定義している: 知識保存、学習済み論文に対するモデルの理解の保存範囲、知識獲得、新しく導入された論文からの科学的主張の取得方法、知識予測、更新されたモデルが将来現れるかもしれない関連する科学的主張を予測または一般化する能力である。我々はScienceMeterを用いて,医学,生物学,材料科学,計算機科学を含む10分野の15,444件の論文と30,888件の科学論文を収集した。トレーニング時間と推論時間を含む5つの代表的な知識更新手法を評価する。広範な実験により、最高の知識更新手法は、既存の知識の85.9%しか保存できず、新しい知識の71.7%、将来の知識の37.7%しか取得できないことが判明した。推論ベースのメソッドはより大きなモデルで機能するが、より小さなモデルは同等のパフォーマンスを達成するためにトレーニングを必要とする。クロスドメイン分析は、これらの目的に対する性能が相関していることを明らかにする。専門的な科学的LLMを適用する場合でも、既存の知識更新手法はこれらの目的をまとめて達成することができず、堅牢な科学知識更新メカニズムの開発は決定的かつ困難である。

関連論文リスト

Machine Understanding of Scientific Language [3.094414120832024]
この論文は、科学言語の機械的理解のためのデータセット、方法、ツールの育成に関するものである。自然言語処理と機械学習の3分野 – 自動事実チェック,限定データによる学習,科学テキスト処理 – において,いくつかのコントリビューションを提示した。
論文参考訳（メタデータ） (2025-06-30T15:55:10Z)
Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.518397361341556]
我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists' First Exam (SFE) ベンチマークを提示する。 SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
論文参考訳（メタデータ） (2025-06-12T09:29:16Z)
Advancing the Scientific Method with Large Language Models: From Hypothesis to Discovery [35.888956949646]
大規模言語モデル (LLM) は科学的方法を変えて科学的研究を変革している。 LLMは、特に化学や生物学において、実験的な設計、データ分析、生産性の向上に関与している。 AI駆動科学への移行は、創造性、監視、責任に関する倫理的な疑問を提起する。
論文参考訳（メタデータ） (2025-05-22T10:05:48Z)
Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文参考訳（メタデータ） (2025-02-07T18:26:45Z)
Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。 VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-12T07:16:22Z)
SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文参考訳（メタデータ） (2024-06-13T13:27:52Z)
Knowledge-guided Machine Learning: Current Trends and Future Prospects [14.783972088722193]
また、科学知識誘導機械学習(KGML)の新興分野の研究の現状についても紹介している。我々は、KGML研究のさまざまな側面について、使用する科学知識の種類、知識-機械学習統合の形式、そして、科学知識をMLに組み込む方法について論じる。
論文参考訳（メタデータ） (2024-03-24T02:54:46Z)
Modeling Information Change in Science Communication with Semantically Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。 SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。 SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文参考訳（メタデータ） (2022-10-24T07:44:38Z)
KnowledgeShovel: An AI-in-the-Loop Document Annotation System for Scientific Knowledge Base Construction [46.56643271476249]
KnowledgeShovelは、研究者が科学的知識基盤を構築するための、Al-in-the-Loop文書アノテーションシステムである。 KnowledgeShovelの設計では、多段階のマルチモーダルAIコラボレーションパイプラインを導入し、データの正確性を向上し、人的負担を軽減する。 7つの地学研究者によるフォローアップユーザ評価では、知識ショベルは、十分な精度で科学的知識ベースを効率的に構築できることを示している。
論文参考訳（メタデータ） (2022-10-06T11:38:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。