論文の概要: CompoST: A Benchmark for Analyzing the Ability of LLMs To Compositionally Interpret Questions in a QALD Setting
- arxiv url: http://arxiv.org/abs/2507.21257v1
- Date: Mon, 28 Jul 2025 18:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.171247
- Title: CompoST: A Benchmark for Analyzing the Ability of LLMs To Compositionally Interpret Questions in a QALD Setting
- Title(参考訳): CompoST:QALD設定で質問を合成的に解釈するLLMの能力分析のためのベンチマーク
- Authors: David Maria Schmidt, Raoul Schubert, Philipp Cimiano,
- Abstract要約: 言語モデルは顕著な言語解釈能力を持っている。
本稿では,LLMが実際に構成する質問を解釈する能力の程度を調査するためのベンチマークを提案する。
- 参考スコア(独自算出の注目度): 2.635385344076311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language interpretation is a compositional process, in which the meaning of more complex linguistic structures is inferred from the meaning of their parts. Large language models possess remarkable language interpretation capabilities and have been successfully applied to interpret questions by mapping them to SPARQL queries. An open question is how systematic this interpretation process is. Toward this question, in this paper, we propose a benchmark for investigating to what extent the abilities of LLMs to interpret questions are actually compositional. For this, we generate three datasets of varying difficulty based on graph patterns in DBpedia, relying on Lemon lexica for verbalization. Our datasets are created in a very controlled fashion in order to test the ability of LLMs to interpret structurally complex questions, given that they have seen the atomic building blocks. This allows us to evaluate to what degree LLMs are able to interpret complex questions for which they "understand" the atomic parts. We conduct experiments with models of different sizes using both various prompt and few-shot optimization techniques as well as fine-tuning. Our results show that performance in terms of macro $F_1$ degrades from $0.45$ over $0.26$ down to $0.09$ with increasing deviation from the samples optimized on. Even when all necessary information was provided to the model in the input, the $F_1$ scores do not exceed $0.57$ for the dataset of lowest complexity. We thus conclude that LLMs struggle to systematically and compositionally interpret questions and map them into SPARQL queries.
- Abstract(参考訳): 言語解釈は、より複雑な言語構造の意味がそれらの部分の意味から推測される構成過程である。
大規模言語モデルは優れた言語解釈能力を有しており、それらをSPARQLクエリにマッピングすることで、質問の解釈にうまく適用されている。
オープンな疑問は、この解釈プロセスがいかに体系的であるかである。
そこで本研究では,LLMが実際に構成的であるかどうかを調査するためのベンチマークを提案する。
そこで我々は,DBpediaのグラフパターンに基づいて,レモン・レキシカ(Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,レモン・レキシカ(Lemon lexica,レモン・レキシカ)を言語化に頼って,様々な難易度データセットを生成する。
我々のデータセットは、構造的に複雑な質問をLLMが解釈する能力をテストするために、非常に制御された方法で作成されます。
これにより、LLMが原子部品を「理解」する複雑な疑問を、どの程度の程度で解釈できるかを評価することができる。
様々なプロンプトと小ショットの最適化技術と微調整技術を用いて,異なる大きさのモデルを用いて実験を行う。
その結果、マクロ$F_1$は0.45$以上0.26$以上0.09$まで低下し、最適化されたサンプルからの偏差が増大した。
入力中のモデルにすべての必要な情報が提供されたとしても、F_1$スコアは最低複雑性のデータセットに対して0.57$を超えない。
したがって、LLMは、質問を体系的かつ構成的に解釈し、それらをSPARQLクエリにマッピングするのに苦労している。
関連論文リスト
- HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs [9.559336828884808]
大規模言語モデル(LLM)は、単純な(シングルホップ)質問に答えるには適しています。
質問の複雑さが増すにつれて、LLMの性能は低下する。
最近の手法では、構造化知識三重項を原文に組み込むことで、この負担を軽減しようとしている。
本稿では,知識グラフ(KG)を用いてコンテキスト認識し,クエリ関連情報を含むように蒸留する手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T05:22:49Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。