論文の概要: Systematic Assessment of Factual Knowledge in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.11638v3
- Date: Mon, 30 Oct 2023 12:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:11:49.638608
- Title: Systematic Assessment of Factual Knowledge in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるファクチュアル知識の体系的評価
- Authors: Linhao Luo, Thuy-Trang Vu, Dinh Phung, Gholamreza Haffari
- Abstract要約: 本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
- 参考スコア(独自算出の注目度): 48.75961313441549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous studies have relied on existing question-answering benchmarks to
evaluate the knowledge stored in large language models (LLMs). However, this
approach has limitations regarding factual knowledge coverage, as it mostly
focuses on generic domains which may overlap with the pretraining data. This
paper proposes a framework to systematically assess the factual knowledge of
LLMs by leveraging knowledge graphs (KGs). Our framework automatically
generates a set of questions and expected answers from the facts stored in a
given KG, and then evaluates the accuracy of LLMs in answering these questions.
We systematically evaluate the state-of-the-art LLMs with KGs in generic and
specific domains. The experiment shows that ChatGPT is consistently the top
performer across all domains. We also find that LLMs performance depends on the
instruction finetuning, domain and question complexity and is prone to
adversarial context.
- Abstract(参考訳): 従来の研究では,大規模言語モデル(LLM)に格納された知識を評価するために,既存の質問応答ベンチマークに頼っていた。
しかし、このアプローチは、主に事前学習データと重複するジェネリックドメインに焦点を当てているため、事実的知識カバレッジに関する制限がある。
本稿では,知識グラフ(KG)を利用して,LLMの事実知識を体系的に評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から,質問の集合と期待された回答を自動的に生成し,これらの質問に対するLLMの精度を評価する。
汎用ドメインと特定ドメインのKGを用いて,最先端のLCMを体系的に評価した。
この実験は、ChatGPTがすべてのドメインで一貫してトップパフォーマーであることを示している。
また, LLMの性能は命令の微調整, ドメイン, 質問の複雑さに左右され, 相手のコンテキストに左右される傾向がある。
関連論文リスト
- REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - Context Matters: Pushing the Boundaries of Open-Ended Answer Generation
with Graph-Structured Knowledge Context [4.368725325557961]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。
我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。
われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文 参考訳(メタデータ) (2024-01-23T11:25:34Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Investigating the Factual Knowledge Boundary of Large Language Models
with Retrieval Augmentation [91.30946119104111]
大規模言語モデル(LLM)は,質問に応答する能力に対して,波及しない自信を持っていることを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
また, LLM は, 回答の定式化に際し, 提案した検索結果に依存する傾向が認められた。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.672981891304005]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19ドルのタスクをカバーしている。
データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge
Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。
我々は,LSMの入力において,その知識を直接拡張することを提案する。
我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文 参考訳(メタデータ) (2023-06-07T04:15:21Z) - LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language
Models [13.659853119356507]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。
彼らは幻覚を起こす傾向があり、モデルがその反応の中で誤った情報や誤った情報を公開する。
ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法として,LLMMapsを提案する。
論文 参考訳(メタデータ) (2023-04-02T05:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。