論文の概要: LLM-KG-Bench 3.0: A Compass for SemanticTechnology Capabilities in the Ocean of LLMs
- arxiv url: http://arxiv.org/abs/2505.13098v1
- Date: Mon, 19 May 2025 13:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.61546
- Title: LLM-KG-Bench 3.0: A Compass for SemanticTechnology Capabilities in the Ocean of LLMs
- Title(参考訳): LLM-KG-Bench 3.0: LLMの海洋におけるセマンティック技術能力のためのコンパス
- Authors: Lars-Peter Meyer, Johannes Frey, Desiree Heim, Felix Brei, Claus Stadler, Kurt Junghanns, Michael Martin,
- Abstract要約: 現在のLLM(Large Language Models)は、プログラムコードの開発を、他の多くの側面でも支援できますが、KG(Knowledge Graphs)との連携もサポートできますか?
バージョン3.0のLLM-KG-Benchフレームワークは、これらの質問に答えるために設計されている。
LLM回答を自動評価するための一連のタスクで構成されており、セマンティックテクノロジーの様々な側面をカバーしている。
- 参考スコア(独自算出の注目度): 0.12564343689544843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Large Language Models (LLMs) can assist developing program code beside many other things, but can they support working with Knowledge Graphs (KGs) as well? Which LLM is offering the best capabilities in the field of Semantic Web and Knowledge Graph Engineering (KGE)? Is this possible to determine without checking many answers manually? The LLM-KG-Bench framework in Version 3.0 is designed to answer these questions. It consists of an extensible set of tasks for automated evaluation of LLM answers and covers different aspects of working with semantic technologies. In this paper the LLM-KG-Bench framework is presented in Version 3 along with a dataset of prompts, answers and evaluations generated with it and several state-of-the-art LLMs. Significant enhancements have been made to the framework since its initial release, including an updated task API that offers greater flexibility in handling evaluation tasks, revised tasks, and extended support for various open models through the vllm library, among other improvements. A comprehensive dataset has been generated using more than 30 contemporary open and proprietary LLMs, enabling the creation of exemplary model cards that demonstrate the models' capabilities in working with RDF and SPARQL, as well as comparing their performance on Turtle and JSON-LD RDF serialization tasks.
- Abstract(参考訳): 現在のLLM(Large Language Models)は、プログラムコードの開発を、他の多くの側面でも支援できますが、KG(Knowledge Graphs)との連携もサポートできますか?
セマンティックWebと知識グラフエンジニアリング(KGE)の分野で、どのLLMが最高の機能を提供しているか?
これは、手動で多くの回答をチェックせずに決定できますか?
バージョン3.0のLLM-KG-Benchフレームワークは、これらの質問に答えるために設計されている。
LLM回答を自動評価するための拡張可能なタスクセットで構成されており、セマンティックテクノロジーの様々な側面をカバーしている。
本稿では,LLM-KG-Benchフレームワークをバージョン3で紹介し,それを用いて生成されたプロンプト,回答,評価のデータセットと,いくつかの最先端のLCMについて述べる。
最初のリリース以降、評価タスク処理の柔軟性向上や、修正されたタスク、vllmライブラリによるさまざまなオープンモデルのサポート拡張など、フレームワークに重要な拡張が加えられている。
30以上の現代的なオープンかつプロプライエタリなLCMを使用して包括的なデータセットが生成され、RDFとSPARQLを扱う際のモデル機能を示す模範的なモデルカードの作成と、TurtleとJSON-LD RDFシリアライゼーションタスクのパフォーマンスの比較が可能になる。
関連論文リスト
- SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Sketch: A Toolkit for Streamlining LLM Operations [51.33202045501429]
大規模言語モデル(LLM)は大きな成功を収めた。
アウトプットフォーマットの柔軟性は、モデルのアウトプットを制御および活用する上での課題を引き起こします。
スケッチ(Sketch)は、多種多様な分野にわたるLCM操作を合理化するための革新的なツールキットである。
論文 参考訳(メタデータ) (2024-09-05T08:45:44Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking [26.413008616554816]
言語に関係なく,任意のNLPタスクに対してLLM(Large Language Models)を評価するために,シームレスにカスタマイズできるLLMeBenchフレームワークを紹介した。
特定のデータセットとタスクは、20行未満のコードで所定のLLMに対して評価できると同時に、カスタムデータセット、モデル、タスクのためのフレームワークを完全な柔軟性で拡張することができる。
このフレームワークは、約296Kのデータポイントを含む90の実験的なセットアップ内で53の公開データセットを使用して、31のユニークなNLPタスクでテストされている。
論文 参考訳(メタデータ) (2023-08-09T13:22:37Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。