論文の概要: Context-Aware Scientific Knowledge Extraction on Linked Open Data using Large Language Models
- arxiv url: http://arxiv.org/abs/2506.17580v1
- Date: Sat, 21 Jun 2025 04:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.484735
- Title: Context-Aware Scientific Knowledge Extraction on Linked Open Data using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたリンクされたオープンデータの文脈認識科学的知識抽出
- Authors: Sajratul Y. Rubaiat, Hasan M. Jamil,
- Abstract要約: 本稿では,クエリ固有の知識を抽出し,洗練し,ランク付けするシステムであるWISE(Workflow for Intelligent Scientific Knowledge extract)を紹介する。
WISEは、様々な情報源から知識を体系的に探求し、合成することによって、詳細な、組織化された回答を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of scientific literature challenges researchers extracting and synthesizing knowledge. Traditional search engines return many sources without direct, detailed answers, while general-purpose LLMs may offer concise responses that lack depth or omit current information. LLMs with search capabilities are also limited by context window, yielding short, incomplete answers. This paper introduces WISE (Workflow for Intelligent Scientific Knowledge Extraction), a system addressing these limits by using a structured workflow to extract, refine, and rank query-specific knowledge. WISE uses an LLM-powered, tree-based architecture to refine data, focusing on query-aligned, context-aware, and non-redundant information. Dynamic scoring and ranking prioritize unique contributions from each source, and adaptive stopping criteria minimize processing overhead. WISE delivers detailed, organized answers by systematically exploring and synthesizing knowledge from diverse sources. Experiments on HBB gene-associated diseases demonstrate WISE reduces processed text by over 80% while achieving significantly higher recall over baselines like search engines and other LLM-based approaches. ROUGE and BLEU metrics reveal WISE's output is more unique than other systems, and a novel level-based metric shows it provides more in-depth information. We also explore how the WISE workflow can be adapted for diverse domains like drug discovery, material science, and social science, enabling efficient knowledge extraction and synthesis from unstructured scientific papers and web sources.
- Abstract(参考訳): 科学文献の指数的な成長は、研究者が知識の抽出と合成に挑戦する。
従来の検索エンジンは直接的かつ詳細な答えを示さずに多くのソースを返すが、汎用LLMは、深さや電流情報を省略しない簡潔な応答を提供する。
検索機能を持つLLMは、文脈ウィンドウによって制限され、短い不完全な回答をもたらす。
本稿では、構造化されたワークフローを用いて、クエリ固有の知識を抽出し、洗練し、ランク付けすることで、これらの制限に対処するWISE(Workflow for Intelligent Scientific Knowledge extract)を紹介する。
WISEはLLMベースのツリーベースのアーキテクチャを使用してデータを洗練し、クエリ整合性、コンテキスト認識、非冗長情報に重点を置いている。
動的スコアリングとランク付けは、各ソースからのユニークなコントリビューションを優先し、適応的な停止基準は、処理オーバーヘッドを最小限にします。
WISEは、様々な情報源から知識を体系的に探求し、合成することによって、詳細な、組織化された回答を提供する。
HBB遺伝子関連疾患の実験では、WISEは処理されたテキストを80%以上削減し、検索エンジンや他のLCMベースのアプローチのようなベースラインに対するリコールを著しく高めている。
ROUGEとBLEUのメトリクスは、WISEの出力は他のシステムよりもユニークであり、新しいレベルベースのメトリクスは、より詳細な情報を提供することを示している。
また、WISEワークフローを薬物発見、物質科学、社会科学といった多様な分野に適用し、構造化されていない科学論文やWebソースから効率的な知識抽出と合成を可能にする方法について検討する。
関連論文リスト
- KnowTrace: Bootstrapping Iterative Retrieval-Augmented Generation with Structured Knowledge Tracing [64.38243807002878]
我々は、大規模言語モデルにおけるコンテキスト過負荷を軽減するためのエレガントなRAGフレームワークであるKnowTraceを紹介する。
KnowTraceは、必要な知識三つ子を自律的に追跡して、入力された質問に関連する特定の知識グラフを整理する。
3つのマルチホップ質問応答ベンチマークで、既存のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-26T17:22:20Z) - GenKI: Enhancing Open-Domain Question Answering with Knowledge Integration and Controllable Generation in Large Language Models [75.25348392263676]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey [39.82566660592583]
大規模言語モデル(LLM)は、自然言語理解、テキスト要約、機械翻訳といった様々なタスクにおいて顕著な成功を収めている。
彼らの汎用的な性質は、医療、化学、法的な分析といった専門的な知識を必要とするドメイン固有のアプリケーションにおいて、その効果を制限していることが多い。
これを解決するために、研究者はドメイン固有の知識を統合することでLLMを強化する様々な方法を模索してきた。
論文 参考訳(メタデータ) (2025-02-15T07:43:43Z) - The Extractive-Abstractive Spectrum: Uncovering Verifiability Trade-offs in LLM Generations [40.498553309980764]
情報共有ツールの妥当性と実用性の間の相互作用について検討する。
ユーザは,大規模言語モデルよりも検索エンジンの方が高いクエリを好んでいることがわかった。
論文 参考訳(メタデータ) (2024-11-26T12:34:52Z) - From Text to Insight: Large Language Models for Materials Science Data Extraction [4.08853418443192]
科学知識の大部分は、構造化されていない自然言語に存在する。
構造化データは革新的で体系的な材料設計に不可欠である。
大きな言語モデル(LLM)の出現は、大きな変化を示している。
論文 参考訳(メタデータ) (2024-07-23T22:23:47Z) - Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph [1.7418328181959968]
本研究は,革新的なセマンティッククエリ処理システムを開発することを目的としている。
オーストラリア国立大学のコンピュータサイエンス(CS)研究者による研究成果に関する総合的な情報を得ることができる。
論文 参考訳(メタデータ) (2024-05-24T09:19:45Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。
本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文 参考訳(メタデータ) (2022-02-16T13:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。