Fugu-MT 論文翻訳(概要): Systematic Assessment of Factual Knowledge in Large Language Models

論文の概要: Systematic Assessment of Factual Knowledge in Large Language Models

arxiv url: http://arxiv.org/abs/2310.11638v2
Date: Fri, 20 Oct 2023 05:33:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 11:25:16.212906
Title: Systematic Assessment of Factual Knowledge in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるファクチュアル知識の体系的評価
Authors: Linhao Luo, Thuy-Trang Vu, Dinh Phung, Gholamreza Haffari
Abstract要約: 本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
参考スコア（独自算出の注目度）: 48.75961313441549
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Previous studies have relied on existing question-answering benchmarks to evaluate the knowledge stored in large language models (LLMs). However, this approach has limitations regarding factual knowledge coverage, as it mostly focuses on generic domains which may overlap with the pretraining data. This paper proposes a framework to systematically assess the factual knowledge of LLMs by leveraging knowledge graphs (KGs). Our framework automatically generates a set of questions and expected answers from the facts stored in a given KG, and then evaluates the accuracy of LLMs in answering these questions. We systematically evaluate the state-of-the-art LLMs with KGs in generic and specific domains. The experiment shows that ChatGPT is consistently the top performer across all domains. We also find that LLMs performance depends on the instruction finetuning, domain and question complexity and is prone to adversarial context.
Abstract（参考訳）: 従来の研究では,大規模言語モデル(LLM)に格納された知識を評価するために,既存の質問応答ベンチマークに頼っていた。しかし、このアプローチは、主に事前学習データと重複するジェネリックドメインに焦点を当てているため、事実的知識カバレッジに関する制限がある。本稿では,知識グラフ(KG)を利用して,LLMの事実知識を体系的に評価する枠組みを提案する。本フレームワークは,所定のKGに格納された事実から,質問の集合と期待された回答を自動的に生成し,これらの質問に対するLLMの精度を評価する。汎用ドメインと特定ドメインのKGを用いて,最先端のLCMを体系的に評価した。この実験は、ChatGPTがすべてのドメインで一貫してトップパフォーマーであることを示している。また, LLMの性能は命令の微調整, ドメイン, 質問の複雑さに左右され, 相手のコンテキストに左右される傾向がある。

関連論文リスト

Knowledge Augmented Finetuning Matters in both RAG and Agent Based Dialog Systems [18.83666259380603]
大規模言語モデル (LLM) はダイアログシステムに適用されている。 LLMは知識集約的なシナリオでエラーを起こしやすい。検索拡張生成(RAG)とエージェントに基づくアプローチが現われ,実際の精度が向上した。
論文参考訳（メタデータ） (2025-06-28T11:26:31Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
SteLLA: A Structured Grading System Using LLMs with RAG [2.630522349105014]
本稿では,SteLLA (Structured Grading System Using LLMs with RAG) について述べる。受験生の回答を含む実世界のデータセットを大学レベルの生物学コースから収集した。実験により,本システムでは,人間の学級との相当な合意を達成でき,また,その問題で検討されたすべての知識点について,ブレークダウングレードとフィードバックを提供することができた。
論文参考訳（メタデータ） (2025-01-15T19:24:48Z)
Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization [7.522493227357079]
大規模言語モデル(LLM)は大規模コーパスで事前訓練されている。 LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。 SMART-SLICはドメイン固有のLLMフレームワークである。
論文参考訳（メタデータ） (2024-10-03T17:40:55Z)
DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation [19.907074685082]
Retrieval-Augmented Generationは、大規模言語モデルの様々な制限に対処する有望なソリューションを提供する。現在の研究は、しばしばウィキペディアのような一般的な知識ソースを使って、常識的な問題を解決するモデルの能力を評価している。対話型RAGの能力を含むRAGモデルに必要な6つの能力を特定した。
論文参考訳（メタデータ） (2024-06-09T05:33:51Z)
Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-05-10T15:10:20Z)
Generate-on-Graph: Treat LLM as both Agent and KG in Incomplete Knowledge Graph Question Answering [87.67177556994525]
我々は、知識グラフ(KG)を探索しながら、新しい実写トリプルを生成する、Generate-on-Graph(GoG)と呼ばれる学習自由な手法を提案する。 GoGはIKGQAでLLMをエージェントとKGの両方として扱うThinking-Searching-Generatingフレームワークを通じて推論を行う。
論文参考訳（メタデータ） (2024-04-23T04:47:22Z)
Certifying Knowledge Comprehension in LLMs [3.6293956720749425]
我々は,Large Language Models(LLMs)における知識理解のための最初の仕様と認定フレームワークを紹介する。固定されたデータセットの代わりに、自然ノイズを伴う知識理解の確率分布を数学的に禁止的に表す新しい仕様を設計する。我々は,SOTA LLMを高精度医療と一般質問応答の2つの領域で認証する枠組みを適用した。
論文参考訳（メタデータ） (2024-02-24T23:16:57Z)
Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context [4.1229332722825]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文参考訳（メタデータ） (2024-01-23T11:25:34Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文参考訳（メタデータ） (2023-06-15T17:20:46Z)
Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。我々は,LSMの入力において,その知識を直接拡張することを提案する。我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文参考訳（メタデータ） (2023-06-07T04:15:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。