論文の概要: UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable Questions
- arxiv url: http://arxiv.org/abs/2505.23461v1
- Date: Thu, 29 May 2025 14:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.890889
- Title: UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable Questions
- Title(参考訳): UAQFact: LLMのFactual Knowledge Using of LLMs on Unsuwerable Questions
- Authors: Chuanyuan Tan, Wenbiao Shao, Hao Xiong, Tong Zhu, Zhenhua Liu, Kai Shi, Wenliang Chen,
- Abstract要約: 複雑な状況において、誤解を招く応答を防ぐのに役立つため、LLMにとって、解決不可能な質問(UAQ)を扱うことが不可欠である。
本稿では,知識グラフから作成された補助的な事実知識を持つバイリンガルデータセットであるUAQFactを紹介する。
実験結果から,UAQFact は実知識を蓄積しても LLM が常に良好に機能しないため,重要な課題を呈することが示された。
- 参考スコア(独自算出の注目度): 7.507345409431875
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Handling unanswerable questions (UAQ) is crucial for LLMs, as it helps prevent misleading responses in complex situations. While previous studies have built several datasets to assess LLMs' performance on UAQ, these datasets lack factual knowledge support, which limits the evaluation of LLMs' ability to utilize their factual knowledge when handling UAQ. To address the limitation, we introduce a new unanswerable question dataset UAQFact, a bilingual dataset with auxiliary factual knowledge created from a Knowledge Graph. Based on UAQFact, we further define two new tasks to measure LLMs' ability to utilize internal and external factual knowledge, respectively. Our experimental results across multiple LLM series show that UAQFact presents significant challenges, as LLMs do not consistently perform well even when they have factual knowledge stored. Additionally, we find that incorporating external knowledge may enhance performance, but LLMs still cannot make full use of the knowledge which may result in incorrect responses.
- Abstract(参考訳): 複雑な状況において、誤解を招く応答を防ぐのに役立つため、LLMにとって、解決不可能な質問(UAQ)を扱うことが不可欠である。
これまでの研究では、UAQ上でのLLMのパフォーマンスを評価するために、いくつかのデータセットを構築してきたが、これらのデータセットには、UAQを扱う際のLLMの実際の知識を利用する能力の評価が制限されている、事実知識のサポートが欠如している。
この制限に対処するために、知識グラフから作成された補助的な事実知識を持つバイリンガルデータセットであるUAQFactを導入する。
UAQFactに基づいて、内的および外的事実知識を利用するLLMの能力を測定するための2つの新しいタスクを新たに定義する。
複数のLLMシリーズにまたがる実験結果から,UAQFactは実知識を蓄積した場合でも常に良好な性能を発揮できないため,大きな課題を呈していることがわかった。
さらに,外部知識を取り入れることで性能が向上する可能性があるが,LLMは依然として,誤った応答をもたらす可能性のある知識を十分に活用することはできない。
関連論文リスト
- KSOD: Knowledge Supplement for LLMs On Demand [4.4997032928974985]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な機能を示すが、ドメイン固有のタスクではエラーを発生させる。
KSODは,知識に基づく微調整によるLLMの能力向上を支援する新しいフレームワークである。
知識ベースSFTによるLCMの能力向上の可能性について検討した。
論文 参考訳(メタデータ) (2025-03-10T17:17:41Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - ToolQA: A Dataset for LLM Question Answering with External Tools [14.408707186450899]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を示した。
彼らはまだ幻覚や弱い数値推論のような困難に悩まされている。
これらの課題を克服するために、LLMの質問応答能力を高めるために外部ツールを使用することができる。
論文 参考訳(メタデータ) (2023-06-23T05:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。