論文の概要: BLAST: Benchmarking LLMs with ASP-based Structured Testing
- arxiv url: http://arxiv.org/abs/2604.22306v1
- Date: Fri, 24 Apr 2026 07:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.382961
- Title: BLAST: Benchmarking LLMs with ASP-based Structured Testing
- Title(参考訳): BLAST: ASPベースの構造化テストによるLLMのベンチマーク
- Authors: Manuel Alejandro Borroto Santana, Erica Coppolillo, Francesco Calimeri, Giuseppe Manco, Simona Perri, Francesco Ricca,
- Abstract要約: 本稿では,ASP コード生成における LLM の精度を評価するためのベンチマーク手法と関連するデータセットについて紹介する。
本稿では,ASP文献から得られた10のグラフ関連問題と,最先端の8つのLCMの多種多様なセットに関する実証的な評価結果を示す。
- 参考スコア(独自算出の注目度): 6.622195982277759
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across a broad spectrum of tasks, including natural language understanding, dialogue systems, and code generation. Despite evident progress, less attention has been paid to their effectiveness in handling declarative paradigms such as Answer Set Programming (ASP), to date. In this paper we introduce BLAST: The first dedicated benchmarking methodology and associated dataset for evaluating the accuracy of LLMs in generating ASP code. BLAST provides a structured evaluation framework featuring two novel semantic metrics tailored to ASP code generation. The paper presents the results of an empirical evaluation involving ten well-established graph-related problems from the ASP literature and a diverse set of eight state-of-the-art LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解、対話システム、コード生成など、幅広いタスクで顕著なパフォーマンスを示している。
明らかな進歩にもかかわらず、Answer Set Programming(ASP)のような宣言的パラダイムを扱う上での有効性にはあまり注意が払われていない。
本稿では,ASP コード生成における LLM の精度を評価するための,最初の専用のベンチマーク手法と関連するデータセットについて紹介する。
BLASTはASPコード生成に適した2つの新しいセマンティックメトリクスを備えた構造化評価フレームワークを提供する。
本稿では,ASP文献から得られた10のグラフ関連問題と,最先端の8つのLCMの多種多様なセットに関する実証的な評価結果を示す。
関連論文リスト
- Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks [21.891522433628893]
大規模言語モデル(LLM)はText-to-(Text2)システムにますます力を入れている。
テストタイムのスケーリング戦略はLLMベースのソリューションでは有望だが、現実のアプリケーション、特に最新の推論モデルでは、その有効性は不確実である。
この作業は、Text2システムをデプロイする際の正確性、効率、複雑さの間の実践的なトレードオフに光を当てています。
論文 参考訳(メタデータ) (2025-10-13T01:29:54Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - Improve LLM-based Automatic Essay Scoring with Linguistic Features [46.41475844992872]
本稿では,多様なプロンプトにまたがってエッセイを処理できるスコアリングシステムを開発した。
既存のメソッドは通常、2つのカテゴリに分類される: 教師付き特徴ベースのアプローチと、大きな言語モデル(LLM)ベースの方法。
論文 参考訳(メタデータ) (2025-02-13T17:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。