論文の概要: What's In Your Field? Mapping Scientific Research with Knowledge Graphs and Large Language Models
- arxiv url: http://arxiv.org/abs/2503.09894v1
- Date: Wed, 12 Mar 2025 23:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:39.344414
- Title: What's In Your Field? Mapping Scientific Research with Knowledge Graphs and Large Language Models
- Title(参考訳): あなたの分野は何か?知識グラフと大規模言語モデルによる科学研究のマッピング
- Authors: Abhipsha Das, Nicholas Lourie, Siavash Golkar, Mariel Pettee,
- Abstract要約: 大規模言語モデル(LLM)は、大きな仕事の全体にわたる詳細な関係を捉えることができない。
構造化された表現は、自然に補完する -- コーパス全体にわたって体系的な分析を可能にする。
文献全体に関する正確な質問に答えるシステムを試作する。
- 参考スコア(独自算出の注目度): 4.8261605642238745
- License:
- Abstract: The scientific literature's exponential growth makes it increasingly challenging to navigate and synthesize knowledge across disciplines. Large language models (LLMs) are powerful tools for understanding scientific text, but they fail to capture detailed relationships across large bodies of work. Unstructured approaches, like retrieval augmented generation, can sift through such corpora to recall relevant facts; however, when millions of facts influence the answer, unstructured approaches become cost prohibitive. Structured representations offer a natural complement -- enabling systematic analysis across the whole corpus. Recent work enhances LLMs with unstructured or semistructured representations of scientific concepts; to complement this, we try extracting structured representations using LLMs. By combining LLMs' semantic understanding with a schema of scientific concepts, we prototype a system that answers precise questions about the literature as a whole. Our schema applies across scientific fields and we extract concepts from it using only 20 manually annotated abstracts. To demonstrate the system, we extract concepts from 30,000 papers on arXiv spanning astrophysics, fluid dynamics, and evolutionary biology. The resulting database highlights emerging trends and, by visualizing the knowledge graph, offers new ways to explore the ever-growing landscape of scientific knowledge. Demo: abby101/surveyor-0 on HF Spaces. Code: https://github.com/chiral-carbon/kg-for-science.
- Abstract(参考訳): 科学文献の指数的な成長は、専門分野にわたって知識をナビゲートし、合成することをますます困難にしている。
大規模言語モデル(LLM)は科学的テキストを理解するための強力なツールであるが、大きな仕事の全体にわたって詳細な関係を捉えられなかった。
検索強化生成のような非構造的アプローチは、そのようなコーパスを通して関連する事実を思い出すことができるが、数百万の事実が答えに影響を与えると、非構造的アプローチはコスト禁止となる。
構造化された表現は、自然に補完する -- コーパス全体にわたって体系的な分析を可能にする。
最近の研究は、科学概念の非構造的あるいは半構造的表現を用いてLLMを強化し、これを補完するために、LLMを用いて構造化された表現を抽出しようと試みている。
LLMのセマンティック理解と科学的概念のスキーマを組み合わせることで、文献全体に関する正確な質問に答えるシステムを試作する。
我々のスキーマは科学分野にまたがって適用され、手動で注釈付けされた20の抽象概念を用いて概念を抽出する。
このシステムを実証するために,3万件の論文から,天体物理学,流体力学,進化生物学に関する概念を抽出した。
その結果生まれたデータベースは、新たなトレンドを強調し、知識グラフを視覚化することによって、科学知識の絶え間なく成長している風景を探索する新しい方法を提供する。
デモ: abby101/surveyor-0 on HF Spaces。
コード:https://github.com/chiral-carbon/kg-for-science。
関連論文リスト
- CEAR: Automatic construction of a knowledge graph of chemical entities and roles from scientific literature [4.086092284014203]
本稿では,ケビの知識で既存の注釈付きテキストコーパスを増補し,化学物質とその科学テキストにおける役割を認識するための大規模モデル(LLM)を微調整する手法を提案する。
LLMのオントロジ的知識理解能力を組み合わせることで、科学文献における化学物質と役割の両方を識別する高精度なリコール率が得られる。
論文 参考訳(メタデータ) (2024-07-31T15:56:06Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z) - Large Language Models for Scientific Synthesis, Inference and
Explanation [56.41963802804953]
大規模言語モデルがどのように科学的合成、推論、説明を行うことができるかを示す。
我々は,この「知識」を科学的文献から合成することで,大きな言語モデルによって強化できることを示す。
このアプローチは、大きな言語モデルが機械学習システムの予測を説明することができるというさらなる利点を持っている。
論文 参考訳(メタデータ) (2023-10-12T02:17:59Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。