論文の概要: UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable Questions
- arxiv url: http://arxiv.org/abs/2505.23461v1
- Date: Thu, 29 May 2025 14:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.890889
- Title: UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable Questions
- Title(参考訳): UAQFact: LLMのFactual Knowledge Using of LLMs on Unsuwerable Questions
- Authors: Chuanyuan Tan, Wenbiao Shao, Hao Xiong, Tong Zhu, Zhenhua Liu, Kai Shi, Wenliang Chen,
- Abstract要約: 複雑な状況において、誤解を招く応答を防ぐのに役立つため、LLMにとって、解決不可能な質問(UAQ)を扱うことが不可欠である。
本稿では,知識グラフから作成された補助的な事実知識を持つバイリンガルデータセットであるUAQFactを紹介する。
実験結果から,UAQFact は実知識を蓄積しても LLM が常に良好に機能しないため,重要な課題を呈することが示された。
- 参考スコア(独自算出の注目度): 7.507345409431875
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Handling unanswerable questions (UAQ) is crucial for LLMs, as it helps prevent misleading responses in complex situations. While previous studies have built several datasets to assess LLMs' performance on UAQ, these datasets lack factual knowledge support, which limits the evaluation of LLMs' ability to utilize their factual knowledge when handling UAQ. To address the limitation, we introduce a new unanswerable question dataset UAQFact, a bilingual dataset with auxiliary factual knowledge created from a Knowledge Graph. Based on UAQFact, we further define two new tasks to measure LLMs' ability to utilize internal and external factual knowledge, respectively. Our experimental results across multiple LLM series show that UAQFact presents significant challenges, as LLMs do not consistently perform well even when they have factual knowledge stored. Additionally, we find that incorporating external knowledge may enhance performance, but LLMs still cannot make full use of the knowledge which may result in incorrect responses.
- Abstract(参考訳): 複雑な状況において、誤解を招く応答を防ぐのに役立つため、LLMにとって、解決不可能な質問(UAQ)を扱うことが不可欠である。
これまでの研究では、UAQ上でのLLMのパフォーマンスを評価するために、いくつかのデータセットを構築してきたが、これらのデータセットには、UAQを扱う際のLLMの実際の知識を利用する能力の評価が制限されている、事実知識のサポートが欠如している。
この制限に対処するために、知識グラフから作成された補助的な事実知識を持つバイリンガルデータセットであるUAQFactを導入する。
UAQFactに基づいて、内的および外的事実知識を利用するLLMの能力を測定するための2つの新しいタスクを新たに定義する。
複数のLLMシリーズにまたがる実験結果から,UAQFactは実知識を蓄積した場合でも常に良好な性能を発揮できないため,大きな課題を呈していることがわかった。
さらに,外部知識を取り入れることで性能が向上する可能性があるが,LLMは依然として,誤った応答をもたらす可能性のある知識を十分に活用することはできない。
関連論文リスト
- SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection [81.78173888579941]
大規模言語モデル(LLM)は、質問応答機能の品質を高めるのに適した方法と考えられている。
LLMはWebデータに基づいてトレーニングされており、ベンチマークや知識グラフがトレーニングデータに含まれているかどうかを研究者は制御できない。
本稿では,自然言語質問からSPARQLクエリを生成し,LLMの品質を評価する手法を提案する。
論文 参考訳(メタデータ) (2025-07-18T12:28:08Z) - KSOD: Knowledge Supplement for LLMs On Demand [4.4997032928974985]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な機能を示すが、ドメイン固有のタスクではエラーを発生させる。
KSODは,知識に基づく微調整によるLLMの能力向上を支援する新しいフレームワークである。
知識ベースSFTによるLCMの能力向上の可能性について検討した。
論文 参考訳(メタデータ) (2025-03-10T17:17:41Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism [0.0]
大規模言語モデル(LLM)は印象的な言語理解と生成能力を示している。
これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。
本稿では,LLMに対して,誤りを避けるために,難解な質問への回答を拒否するように指示する拒絶機構を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:20:49Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - ToolQA: A Dataset for LLM Question Answering with External Tools [14.408707186450899]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を示した。
彼らはまだ幻覚や弱い数値推論のような困難に悩まされている。
これらの課題を克服するために、LLMの質問応答能力を高めるために外部ツールを使用することができる。
論文 参考訳(メタデータ) (2023-06-23T05:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。