論文の概要: KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.09725v2
- Date: Tue, 24 Oct 2023 19:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 19:21:25.670878
- Title: KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large
Language Models
- Title(参考訳): KGQuiz:大規模言語モデルにおける符号化知識の一般化の評価
- Authors: Yuyang Bai, Shangbin Feng, Vidhisha Balachandran, Zhaoxuan Tan, Shiqi
Lou, Tianxing He, Yulia Tsvetkov
- Abstract要約: KGQuizは、大規模言語モデルの知識一般化能力を調べるための知識集約型ベンチマークである。
我々は,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLCMを評価した。
我々は、KGQuizをテストベッドとして想定し、ドメインやタスクフォーマット間のパフォーマンスの微妙な変化を分析する。
- 参考スコア(独自算出の注目度): 41.25788483616449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable performance on
knowledge-intensive tasks, suggesting that real-world knowledge is encoded in
their model parameters. However, besides explorations on a few probing tasks in
limited knowledge domains, it is not well understood how to evaluate LLMs'
knowledge systematically and how well their knowledge abilities generalize,
across a spectrum of knowledge domains and progressively complex task formats.
To this end, we propose KGQuiz, a knowledge-intensive benchmark to
comprehensively investigate the knowledge generalization abilities of LLMs.
KGQuiz is a scalable framework constructed from triplet-based knowledge, which
covers three knowledge domains and consists of five tasks with increasing
complexity: true-or-false, multiple-choice QA, blank filling, factual editing,
and open-ended knowledge generation. To gain a better understanding of LLMs'
knowledge abilities and their generalization, we evaluate 10 open-source and
black-box LLMs on the KGQuiz benchmark across the five knowledge-intensive
tasks and knowledge domains. Extensive experiments demonstrate that LLMs
achieve impressive performance in straightforward knowledge QA tasks, while
settings and contexts requiring more complex reasoning or employing
domain-specific facts still present significant challenges. We envision KGQuiz
as a testbed to analyze such nuanced variations in performance across domains
and task formats, and ultimately to understand, evaluate, and improve LLMs'
knowledge abilities across a wide spectrum of knowledge domains and tasks.
- Abstract(参考訳): 大規模言語モデル(llm)は知識集約型タスクにおいて顕著な性能を示し、実世界の知識がモデルパラメータにエンコードされていることを示唆する。
しかし、限られた知識領域におけるいくつかの探索課題の他に、LLMの知識を体系的に評価する方法や、その知識能力がいかに一般化するかは、知識領域や徐々に複雑化するタスク形式でよく理解されていない。
そこで本研究では,LLMの知識一般化能力を総合的に研究するための知識集約型ベンチマークKGQuizを提案する。
KGQuizは3つの知識ドメインをカバーするスケーラブルなフレームワークで、複雑さを増す5つのタスクで構成されている。
我々は,LLMの知識能力とその一般化をより深く理解するために,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLSMを評価した。
大規模な実験では、LLMは簡単な知識のQAタスクにおいて印象的なパフォーマンスを達成する一方で、より複雑な推論やドメイン固有の事実の活用を必要とする設定やコンテキストは依然として重大な課題を呈している。
kgquizをテストベッドとして、ドメインとタスクフォーマット間のパフォーマンスの微妙な変動を分析し、最終的には幅広い知識ドメインとタスクにわたってllmsの知識能力を理解し、評価し、改善することを想定した。
関連論文リスト
- Counter-intuitive: Large Language Models Can Better Understand Knowledge Graphs Than We Thought [13.336418752729987]
本稿では、知識グラフ(KG)を用いて、大規模言語モデル(LLM)推論機能の実現と幻覚の低減を図る。
我々は、複雑な質問応答(CQA)を用いて、LLMのKG知識の理解能力を評価する。
初期の期待とは対照的に,LLMは乱雑でノイズが多く,線形化されたKGの知識を効果的に扱えることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T10:44:03Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - KnowledgeNavigator: Leveraging Large Language Models for Enhanced
Reasoning over Knowledge Graph [11.808990571175269]
大規模言語モデル(LLM)は、その強力な自然言語理解とゼロショット能力によって、様々な下流タスクにおいて優れたパフォーマンスを達成しているが、LLMは依然として知識制限に悩まされている。
本稿では,知識グラフから外部知識を効率的に正確に検索し,これらの課題に対処する新しいフレームワークであるKnowledgeNavigatorを提案する。
我々は,複数のKGQAベンチマーク上でKnowledgeNavigatorを評価し,そのフレームワークの有効性と一般化を実証した。
論文 参考訳(メタデータ) (2023-12-26T04:22:56Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z) - Knowledge Crosswords: Geometric Reasoning over Structured Knowledge with
Large Language Models [51.35398315130094]
構造的知識に対する幾何学的推論を提案し、そこでは知識の一部がグラフ構造に連結され、モデルは不足した情報を埋める必要がある。
このような幾何学的知識推論は、構造化された知識、不確実性のある推論、事実の検証、エラーが発生した時のバックトラックを扱う能力を必要とする。
本稿では,不完全なエンティティネットワークの幾何学的制約を表す自然言語質問からなるマルチブランクQAデータセットであるKnowledge Crosswordsを提案する。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z) - Investigating the Factual Knowledge Boundary of Large Language Models
with Retrieval Augmentation [91.30946119104111]
大規模言語モデル(LLM)は,質問に応答する能力に対して,波及しない自信を持っていることを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
また, LLM は, 回答の定式化に際し, 提案した検索結果に依存する傾向が認められた。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。