論文の概要: KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.09725v3
- Date: Sat, 23 Mar 2024 11:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:45:56.268728
- Title: KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large Language Models
- Title(参考訳): KGQuiz:大規模言語モデルにおける符号化知識の一般化の評価
- Authors: Yuyang Bai, Shangbin Feng, Vidhisha Balachandran, Zhaoxuan Tan, Shiqi Lou, Tianxing He, Yulia Tsvetkov,
- Abstract要約: KGQuizは、大規模言語モデルの知識一般化能力を調べるための知識集約型ベンチマークである。
我々は,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLCMを評価した。
我々は、KGQuizをテストベッドとして想定し、ドメインやタスクフォーマット間のパフォーマンスの微妙な変化を分析する。
- 参考スコア(独自算出の注目度): 39.554274096542244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable performance on knowledge-intensive tasks, suggesting that real-world knowledge is encoded in their model parameters. However, besides explorations on a few probing tasks in limited knowledge domains, it is not well understood how to evaluate LLMs' knowledge systematically and how well their knowledge abilities generalize, across a spectrum of knowledge domains and progressively complex task formats. To this end, we propose KGQuiz, a knowledge-intensive benchmark to comprehensively investigate the knowledge generalization abilities of LLMs. KGQuiz is a scalable framework constructed from triplet-based knowledge, which covers three knowledge domains and consists of five tasks with increasing complexity: true-or-false, multiple-choice QA, blank filling, factual editing, and open-ended knowledge generation. To gain a better understanding of LLMs' knowledge abilities and their generalization, we evaluate 10 open-source and black-box LLMs on the KGQuiz benchmark across the five knowledge-intensive tasks and knowledge domains. Extensive experiments demonstrate that LLMs achieve impressive performance in straightforward knowledge QA tasks, while settings and contexts requiring more complex reasoning or employing domain-specific facts still present significant challenges. We envision KGQuiz as a testbed to analyze such nuanced variations in performance across domains and task formats, and ultimately to understand, evaluate, and improve LLMs' knowledge abilities across a wide spectrum of knowledge domains and tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識集約的なタスクにおいて顕著な性能を示し、実世界の知識がモデルパラメータにエンコードされていることを示唆している。
しかし、限られた知識領域におけるいくつかの探索課題の他に、LLMの知識を体系的に評価する方法や、その知識能力がいかに一般化するかは、知識領域と漸進的に複雑なタスク形式でよく理解されていない。
そこで本研究では,LLMの知識一般化能力を総合的に研究するための知識集約型ベンチマークであるKGQuizを提案する。
KGQuizは3つの知識ドメインをカバーするスケーラブルなフレームワークで、複雑さを増す5つのタスクで構成されている。
我々は,LLMの知識能力とその一般化をより深く理解するために,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLSMを評価した。
大規模な実験では、LLMは簡単な知識のQAタスクにおいて印象的なパフォーマンスを達成する一方で、より複雑な推論やドメイン固有の事実の活用を必要とする設定やコンテキストは依然として重大な課題を呈している。
我々は、KGQuizを、ドメインやタスクフォーマットにまたがるこのような微妙なパフォーマンスの変化を分析し、最終的には、幅広い知識領域やタスクにわたってLLMの知識能力を理解し、評価し、改善するテストベッドとして想定する。
関連論文リスト
- Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - Empowering Small-Scale Knowledge Graphs: A Strategy of Leveraging General-Purpose Knowledge Graphs for Enriched Embeddings [3.7759315989669058]
汎用KGを用いた小規模ドメイン固有知識グラフの埋め込みを充実させるフレームワークを提案する。
実験では、Hits@10測定値で最大44%の上昇が観測された。
この比較的探索されていない研究方向は、知識集約的なタスクにおいて、KGのより頻繁な取り込みを触媒することができる。
論文 参考訳(メタデータ) (2024-05-17T12:46:23Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - KnowledgeNavigator: Leveraging Large Language Models for Enhanced
Reasoning over Knowledge Graph [11.808990571175269]
大規模言語モデル(LLM)は、その強力な自然言語理解とゼロショット能力によって、様々な下流タスクにおいて優れたパフォーマンスを達成しているが、LLMは依然として知識制限に悩まされている。
本稿では,知識グラフから外部知識を効率的に正確に検索し,これらの課題に対処する新しいフレームワークであるKnowledgeNavigatorを提案する。
我々は,複数のKGQAベンチマーク上でKnowledgeNavigatorを評価し,そのフレームワークの有効性と一般化を実証した。
論文 参考訳(メタデータ) (2023-12-26T04:22:56Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。