論文の概要: RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models
- arxiv url: http://arxiv.org/abs/2505.21409v1
- Date: Tue, 27 May 2025 16:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.804136
- Title: RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models
- Title(参考訳): RelationalFactQA: 大規模言語モデルを用いた語彙検索のためのベンチマーク
- Authors: Dario Satriani, Enzo Veltri, Donatello Santoro, Paolo Papotti,
- Abstract要約: 我々は,事実検索が孤立点問合せよりもかなり難しいことを実証した。
我々の実験では、最先端のLLMでさえ25%以上の精度で苦戦していることがわかった。
これらの知見は、構造化された事実知識を合成する現在のLLMの能力において、重要な限界である。
- 参考スコア(独自算出の注目度): 9.211266032947497
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Factuality in Large Language Models (LLMs) is a persistent challenge. Current benchmarks often assess short factual answers, overlooking the critical ability to generate structured, multi-record tabular outputs from parametric knowledge. We demonstrate that this relational fact retrieval is substantially more difficult than isolated point-wise queries, even when individual facts are known to the model, exposing distinct failure modes sensitive to output dimensionality (e.g., number of attributes or records). To systematically evaluate this under-explored capability, we introduce RelationalFactQA, a new benchmark featuring diverse natural language questions (paired with SQL) and gold-standard tabular answers, specifically designed to assess knowledge retrieval in a structured format. RelationalFactQA enables analysis across varying query complexities, output sizes, and data characteristics. Our experiments reveal that even state-of-the-art LLMs struggle significantly, not exceeding 25% factual accuracy in generating relational outputs, with performance notably degrading as output dimensionality increases. These findings underscore critical limitations in current LLMs' ability to synthesize structured factual knowledge and establish RelationalFactQA as a crucial resource for measuring future progress in LLM factuality.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるファクチュアリティ(Factuality in Large Language Models)は、永続的な課題である。
現在のベンチマークでは、パラメトリック知識から構造化されたマルチレコードの表形式の出力を生成する重要な能力を見越して、短い事実の答えを評価することが多い。
この関係事実検索は、個々の事実がモデルに認識されている場合でも、孤立したポイントワイドクエリよりもかなり困難であり、出力次元に敏感な個別の障害モード(例えば、属性数やレコード数)を明らかにする。
リレーショナルファクトQA(RelationalFactQA)は,多種多様な自然言語質問(SQLとペアリングされた)とゴールド標準の表形式の回答を特徴とする,構造化された形式の知識検索を特別に評価するためのベンチマークである。
RelationalFactQAは、クエリの複雑さ、出力サイズ、データ特性を分析します。
実験の結果, 出力次元が増大するにつれて, 実測精度が25%を超えず, 性能が著しく低下していることが判明した。
これらの知見は、構造化事実知識を合成し、リレーショナルファクトQAをLLMの事実性の将来的な進歩を測定する重要な資源として確立する現在のLLMの能力において、重要な限界を浮き彫りにしている。
関連論文リスト
- Enhancing Multi-Hop Fact Verification with Structured Knowledge-Augmented Large Language Models [26.023148371263012]
マルチホップ事実検証のための構造化知識強化LLMベースネットワーク(LLM-SKAN)を提案する。
具体的には、LLM駆動の知識エクストラクタを用いて、エンティティとその複雑な関係を含むきめ細かい情報をキャプチャする。
4つの共通利用データセットに対する実験結果から,本モデルの有効性と優位性を示した。
論文 参考訳(メタデータ) (2025-03-11T14:47:24Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Reasoning Factual Knowledge in Structured Data with Large Language Models [26.00548862629018]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な進歩を遂げている。
構造化データには、事前学習に使われる非構造化テキストとは異なる独特の特徴がある。
本研究では,LLMの構造的推論能力を評価するためにStructFactというベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-22T08:05:09Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks [0.0]
関係抽出(RE)は、構造化されていないデータを知識グラフ(KG)のような構造化形式に変換するために重要である
プレトレーニング言語モデル(PLM)を活用した最近の研究は、この分野で大きな成功を収めている。
本研究では、微調整LDMの性能と、Retrieval Augmented-based (RAG) REアプローチへの統合について検討する。
論文 参考訳(メタデータ) (2024-06-20T21:27:57Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。