論文の概要: Benchmarking the Abilities of Large Language Models for RDF Knowledge
Graph Creation and Comprehension: How Well Do LLMs Speak Turtle?
- arxiv url: http://arxiv.org/abs/2309.17122v1
- Date: Fri, 29 Sep 2023 10:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 14:36:14.977176
- Title: Benchmarking the Abilities of Large Language Models for RDF Knowledge
Graph Creation and Comprehension: How Well Do LLMs Speak Turtle?
- Title(参考訳): RDF知識グラフ作成と理解のための大規模言語モデルの能力のベンチマーク:LLM はどのぐらい成熟しているか?
- Authors: Johannes Frey and Lars-Peter Meyer and Natanael Arndt and Felix Brei
and Kirill Bulert
- Abstract要約: 大きな言語モデル(LLM)は、自然言語処理とコーディングタスクにおいて大幅に改善され、急速に進歩している。
様々なLSMの習熟度を評価するために,Turtle構文でシリアライズされた知識グラフを解析,理解,分析,作成する5つのタスクのセットを作成した。
GPT-3.5、GPT-4、Claude 1.3、Claude 2.0の4つの商用LLMと、GPT4All VicunaとGPT4All Falcon 13Bの2つのオフラインモデルが含まれていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are advancing at a rapid pace, with significant
improvements at natural language processing and coding tasks. Yet, their
ability to work with formal languages representing data, specifically within
the realm of knowledge graph engineering, remains under-investigated. To
evaluate the proficiency of various LLMs, we created a set of five tasks that
probe their ability to parse, understand, analyze, and create knowledge graphs
serialized in Turtle syntax. These tasks, each embodying distinct degrees of
complexity and being able to scale with the size of the problem, have been
integrated into our automated evaluation system, the LLM-KG-Bench. The
evaluation encompassed four commercially available LLMs - GPT-3.5, GPT-4,
Claude 1.3, and Claude 2.0, as well as two freely accessible offline models,
GPT4All Vicuna and GPT4All Falcon 13B. This analysis offers an in-depth
understanding of the strengths and shortcomings of LLMs in relation to their
application within RDF knowledge graph engineering workflows utilizing Turtle
representation. While our findings show that the latest commercial models
outperform their forerunners in terms of proficiency with the Turtle language,
they also reveal an apparent weakness. These models fall short when it comes to
adhering strictly to the output formatting constraints, a crucial requirement
in this context.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自然言語処理とコーディングタスクにおいて大幅に改善され、急速に進歩している。
しかし、知識グラフ工学の領域でデータを表す形式言語を扱う能力は、まだ解明されていない。
様々なLSMの習熟度を評価するために,Turtle構文で直列化された知識グラフを解析,理解,分析,作成する5つのタスクのセットを作成した。
これらのタスクは、それぞれ異なる複雑性の度合いを具現化し、問題の大きさに合わせてスケールできるもので、我々の自動評価システムであるLLM-KG-Benchに統合されている。
GPT-3.5、GPT-4、Claude 1.3、Claude 2.0の4つの商用LLMと、GPT4All VicunaとGPT4All Falcon 13Bの2つのオフラインモデルが含まれていた。
この分析は、タートル表現を利用したrdf知識グラフ工学ワークフローにおけるllmの応用に関する強みと欠点を深く理解する。
以上の結果から,最新の商用モデルが亀語能力の面では先駆者を上回ることが示されたが,その弱点も明らかである。
これらのモデルは、この文脈において重要な要件である出力フォーマット制約に厳密に準拠することに関して、不足している。
関連論文リスト
- GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding [20.12647254668254]
最近のコード言語モデルは数十億のパラメータに拡張されているが、ソースコードはテキストトークンとしてのみモデル化されている。
この作業では、GALLa - Graph Aligned Large Language Modelで両方の世界の長所を捉えます。
論文 参考訳(メタデータ) (2024-09-06T10:57:34Z) - Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Evaluating Large Language Models on Graphs: Performance Insights and
Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。
私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。
GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文 参考訳(メタデータ) (2023-08-22T06:32:07Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。