論文の概要: Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph
- arxiv url: http://arxiv.org/abs/2405.02105v1
- Date: Fri, 3 May 2024 14:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 12:46:03.833752
- Title: Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph
- Title(参考訳): オープンリサーチ知識グラフを用いた構造化科学要約のための大規模言語モデルの評価
- Authors: Vladyslav Nechakhin, Jennifer D'Souza, Steffen Eger,
- Abstract要約: 本稿では,構造化科学要約のプロパティを自動提案するために,Large Language Models (LLMs) を提案する。
本研究は,ORKGが手作業でキュレートした特性と,前述の最先端のLCMによって生成された特性とを総合的に比較した。
全体として、LLMは科学を構造化するためのレコメンデーションシステムとしての可能性を示しているが、科学的タスクや人間の専門知識の模倣との整合性を改善するために、さらなる微調整が推奨されている。
- 参考スコア(独自算出の注目度): 18.41743815836192
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Structured science summaries or research contributions using properties or dimensions beyond traditional keywords enhances science findability. Current methods, such as those used by the Open Research Knowledge Graph (ORKG), involve manually curating properties to describe research papers' contributions in a structured manner, but this is labor-intensive and inconsistent between the domain expert human curators. We propose using Large Language Models (LLMs) to automatically suggest these properties. However, it's essential to assess the readiness of LLMs like GPT-3.5, Llama 2, and Mistral for this task before application. Our study performs a comprehensive comparative analysis between ORKG's manually curated properties and those generated by the aforementioned state-of-the-art LLMs. We evaluate LLM performance through four unique perspectives: semantic alignment and deviation with ORKG properties, fine-grained properties mapping accuracy, SciNCL embeddings-based cosine similarity, and expert surveys comparing manual annotations with LLM outputs. These evaluations occur within a multidisciplinary science setting. Overall, LLMs show potential as recommendation systems for structuring science, but further finetuning is recommended to improve their alignment with scientific tasks and mimicry of human expertise.
- Abstract(参考訳): 構造科学の要約や、伝統的なキーワードを超える性質や次元を用いた研究の貢献は、科学の発見可能性を高める。
オープンリサーチ知識グラフ(ORKG)のような現在の手法では、研究論文の貢献を構造化された方法で記述するために、手作業でプロパティをキュレーションするが、これはドメインの専門家の人間キュレーターの間で労働集約的で矛盾する。
我々はこれらの特性を自動的に提案するために,Large Language Models (LLMs) を提案する。
しかしながら、GPT-3.5、Llama 2、MistralのようなLCMの、適用前のこのタスクの準備性を評価することが不可欠である。
本研究は,ORKGが手作業でキュレートした特性と,前述の最先端のLCMによって生成された特性とを総合的に比較した。
我々は, ORKG特性とのセマンティックアライメントと偏差, 微粒化特性マッピングの精度, SciNCL埋め込みに基づくコサイン類似度, マニュアルアノテーションとLLM出力を比較した専門家による調査の4つの観点から, LLMの性能評価を行った。
これらの評価は、複数の学際的な科学設定内で行われる。
全体として、LLMは科学を構造化するためのレコメンデーションシステムとしての可能性を示しているが、科学的タスクや人間の専門知識の模倣との整合性を改善するために、さらなる微調整が推奨されている。
関連論文リスト
- SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph [1.7418328181959968]
本研究は,革新的なセマンティッククエリ処理システムを開発することを目的としている。
オーストラリア国立大学のコンピュータサイエンス(CS)研究者による研究成果に関する総合的な情報を得ることができる。
論文 参考訳(メタデータ) (2024-05-24T09:19:45Z) - SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis [25.18030943975122]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
既存のベンチマークでは、科学文献分析においてLLMの熟練度を適切に評価することができない。
SciAssessは科学文献分析におけるLLMの総合的な評価を目的としたベンチマークである。
論文 参考訳(メタデータ) (2024-03-04T12:19:28Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Rethinking Scientific Summarization Evaluation: Grounding Explainable
Metrics on Facet-aware Benchmark [43.94573037950725]
本稿では,科学的要約の概念的および実験的分析について述べる。
要約を評価するために,先進的なセマンティックマッチングにLLMを用いたFacet-Aware Metric (FM)を導入する。
以上の結果から,FMは科学的要約を評価するためのより論理的なアプローチであることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T07:58:29Z) - A Survey on Knowledge Distillation of Large Language Models [102.84645991075283]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。
本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文 参考訳(メタデータ) (2024-02-20T16:17:37Z) - Mining experimental data from Materials Science literature with Large Language Models: an evaluation study [1.9849264945671101]
本研究は,大規模言語モデル (LLM) の教材科学における科学的資料から構造化情報を抽出する能力を評価することを目的としている。
我々は,情報抽出における2つの重要な課題に焦点をあてる: (i) 研究材料と物性の名前を付けたエンティティ認識(NER) と, (ii) それらのエンティティ間の関係抽出(RE) である。
これらのタスクの実行におけるLCMの性能は、BERTアーキテクチャとルールベースのアプローチ(ベースライン)に基づいて従来のモデルと比較される。
論文 参考訳(メタデータ) (2024-01-19T23:00:31Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities
and Future Opportunities [68.86209486449924]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。