論文の概要: CompoST: A Benchmark for Analyzing the Ability of LLMs To Compositionally Interpret Questions in a QALD Setting
- arxiv url: http://arxiv.org/abs/2507.21257v1
- Date: Mon, 28 Jul 2025 18:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.171247
- Title: CompoST: A Benchmark for Analyzing the Ability of LLMs To Compositionally Interpret Questions in a QALD Setting
- Title(参考訳): CompoST:QALD設定で質問を合成的に解釈するLLMの能力分析のためのベンチマーク
- Authors: David Maria Schmidt, Raoul Schubert, Philipp Cimiano,
- Abstract要約: 言語モデルは顕著な言語解釈能力を持っている。
本稿では,LLMが実際に構成する質問を解釈する能力の程度を調査するためのベンチマークを提案する。
- 参考スコア(独自算出の注目度): 2.635385344076311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language interpretation is a compositional process, in which the meaning of more complex linguistic structures is inferred from the meaning of their parts. Large language models possess remarkable language interpretation capabilities and have been successfully applied to interpret questions by mapping them to SPARQL queries. An open question is how systematic this interpretation process is. Toward this question, in this paper, we propose a benchmark for investigating to what extent the abilities of LLMs to interpret questions are actually compositional. For this, we generate three datasets of varying difficulty based on graph patterns in DBpedia, relying on Lemon lexica for verbalization. Our datasets are created in a very controlled fashion in order to test the ability of LLMs to interpret structurally complex questions, given that they have seen the atomic building blocks. This allows us to evaluate to what degree LLMs are able to interpret complex questions for which they "understand" the atomic parts. We conduct experiments with models of different sizes using both various prompt and few-shot optimization techniques as well as fine-tuning. Our results show that performance in terms of macro $F_1$ degrades from $0.45$ over $0.26$ down to $0.09$ with increasing deviation from the samples optimized on. Even when all necessary information was provided to the model in the input, the $F_1$ scores do not exceed $0.57$ for the dataset of lowest complexity. We thus conclude that LLMs struggle to systematically and compositionally interpret questions and map them into SPARQL queries.
- Abstract(参考訳): 言語解釈は、より複雑な言語構造の意味がそれらの部分の意味から推測される構成過程である。
大規模言語モデルは優れた言語解釈能力を有しており、それらをSPARQLクエリにマッピングすることで、質問の解釈にうまく適用されている。
オープンな疑問は、この解釈プロセスがいかに体系的であるかである。
そこで本研究では,LLMが実際に構成的であるかどうかを調査するためのベンチマークを提案する。
そこで我々は,DBpediaのグラフパターンに基づいて,レモン・レキシカ(Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,Lemon lexica,レモン・レキシカ,レモン・レキシカ(Lemon lexica,レモン・レキシカ)を言語化に頼って,様々な難易度データセットを生成する。
我々のデータセットは、構造的に複雑な質問をLLMが解釈する能力をテストするために、非常に制御された方法で作成されます。
これにより、LLMが原子部品を「理解」する複雑な疑問を、どの程度の程度で解釈できるかを評価することができる。
様々なプロンプトと小ショットの最適化技術と微調整技術を用いて,異なる大きさのモデルを用いて実験を行う。
その結果、マクロ$F_1$は0.45$以上0.26$以上0.09$まで低下し、最適化されたサンプルからの偏差が増大した。
入力中のモデルにすべての必要な情報が提供されたとしても、F_1$スコアは最低複雑性のデータセットに対して0.57$を超えない。
したがって、LLMは、質問を体系的かつ構成的に解釈し、それらをSPARQLクエリにマッピングするのに苦労している。
関連論文リスト
- NeedleChain: Measuring Intact Long-Context Reasoning Capability of Large Language Models [7.134358758293254]
Needle-in-a-Haystackベンチマークは、長期文脈(LC)を理解するLarge Language Models(LLM)能力を評価するために広く利用されている。
GPT-4oのような最先端モデルでさえ、クエリ関連10文のみからなる与えられたコンテキストをそのまま組み込むのに苦労していることを実証する。
我々は新しいベンチマークである textbfNeedleChain を導入し、そのコンテキストはクエリ関連情報から成り立っている。
論文 参考訳(メタデータ) (2025-07-30T06:29:50Z) - Decompositional Reasoning for Graph Retrieval with Large Language Models [1.034893617526558]
大規模言語モデル(LLM)は多くのNLPタスクに優れるが、マルチホップ推論と現実の一貫性に苦しむ。
本稿では,テキスト知識グラフをクエリ分解によるLLM推論プロセスに統合する新しい検索手法を提案する。
本手法は,複雑な質問をサブクエストに分解し,関連するテキストのサブグラフを検索し,質問固有の知識グラフを作成して回答生成を誘導する。
論文 参考訳(メタデータ) (2025-06-16T11:44:28Z) - Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。
本稿では,コンテキスト構造化という新しい概念を提案する。
具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文 参考訳(メタデータ) (2024-07-23T12:33:58Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs [9.559336828884808]
大規模言語モデル(LLM)は、単純な(シングルホップ)質問に答えるには適しています。
質問の複雑さが増すにつれて、LLMの性能は低下する。
最近の手法では、構造化知識三重項を原文に組み込むことで、この負担を軽減しようとしている。
本稿では,知識グラフ(KG)を用いてコンテキスト認識し,クエリ関連情報を含むように蒸留する手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T05:22:49Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。