Fugu-MT 論文翻訳(概要): Large Language Models as Reliable Knowledge Bases?

論文の概要: Large Language Models as Reliable Knowledge Bases?

arxiv url: http://arxiv.org/abs/2407.13578v1
Date: Thu, 18 Jul 2024 15:20:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 14:51:11.031034
Title: Large Language Models as Reliable Knowledge Bases?
Title（参考訳）: 信頼できる知識基盤としての大規模言語モデル?
Authors: Danna Zheng, Mirella Lapata, Jeff Z. Pan,
Abstract要約: 大きな言語モデル(LLM)は潜在的な知識ベース(KB)と見なすことができる。本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性に焦点をあてる。 ICLや微調整のような戦略は、LLMをより良くKBにするには失敗している。
参考スコア（独自算出の注目度）: 60.25969380388974
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The NLP community has recently shown a growing interest in leveraging Large Language Models (LLMs) for knowledge-intensive tasks, viewing LLMs as potential knowledge bases (KBs). However, the reliability and extent to which LLMs can function as KBs remain underexplored. While previous studies suggest LLMs can encode knowledge within their parameters, the amount of parametric knowledge alone is not sufficient to evaluate their effectiveness as KBs. This study defines criteria that a reliable LLM-as-KB should meet, focusing on factuality and consistency, and covering both seen and unseen knowledge. We develop several metrics based on these criteria and use them to evaluate 26 popular LLMs, while providing a comprehensive analysis of the effects of model size, instruction tuning, and in-context learning (ICL). Our results paint a worrying picture. Even a high-performant model like GPT-3.5-turbo is not factual or consistent, and strategies like ICL and fine-tuning are unsuccessful at making LLMs better KBs.
Abstract（参考訳）: NLPコミュニティは最近、LLMを潜在的な知識ベース(KB)と見なしながら、知識集約的なタスクにLLM(Large Language Models)を活用することへの関心が高まっている。しかし、LLMがKBとして機能する信頼性と範囲は未解明のままである。従来の研究では、LLMはパラメータ内の知識を符号化できるが、パラメトリック知識の量だけではKBとしての有効性を評価するには不十分である。本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性を重視し、目に見えない知識と見えない知識の両方をカバーする。我々はこれらの基準に基づいていくつかの指標を開発し、26の人気のあるLCMを評価しながら、モデルサイズ、命令チューニング、文脈内学習(ICL)の影響を包括的に分析する。私たちの結果は心配そうな絵を描きます。 GPT-3.5-turboのような高性能モデルでさえ現実的あるいは一貫したものではなく、ICLや微調整のような戦略はLCMをより良いKBにすることに失敗している。

関連論文リスト

Assessing LLM Reasoning Steps via Principal Knowledge Grounding [22.194851964203128]
ステップバイステップ推論は、複雑なタスクに取り組むための大規模言語モデル(LLM)の標準的アプローチとなっている。中間的推論に基づく知識を体系的に評価する新しい評価スイートを提案する。
論文参考訳（メタデータ） (2025-11-02T10:25:43Z)
OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness [44.37155305736321]
大規模言語モデル(LLM)における意図しない記憶の軽減を目的とした機械学習手法実世界の知識の暗黙構造をより正確に捉えた知識未学習評価フレームワークを提案する。私たちのフレームワークは、未学習のパフォーマンスをより現実的で厳格に評価します。
論文参考訳（メタデータ） (2025-06-06T04:35:19Z)
Evaluating the Unseen Capabilities: How Many Theorems Do LLMs Know? [27.743708975564214]
未知の知識を定量化することによって、より包括的な評価を提供するために設計された統計フレームワークであるKnowSumを紹介する。 KnowSumは、観測された知識インスタンスの頻度の出現から外挿することで、観測されていない部分を推定する。実験の結果,観測されたLLMの性能にのみ依存する場合,かなりの量の知識が省略されることが判明した。
論文参考訳（メタデータ） (2025-06-01T15:32:44Z)
Exploring the Generalizability of Factual Hallucination Mitigation via Enhancing Precise Knowledge Utilization [49.95746521480879]
PKUE(Precise Knowledge utilization Enhancement, 精密知識利用促進)を導入し, 正確かつ単純な事実質問に対する自己生成応答のモデルを微調整する。大規模な実験により、PKUEはLLM全体の性能を著しく改善することが示された。
論文参考訳（メタデータ） (2025-02-26T13:34:52Z)
Decoding Knowledge in Large Language Models: A Framework for Categorization and Comprehension [14.039653386385519]
大規模言語モデル(LLM)は知識を取得し、保持し、適用する。本稿では,LLMの知識を2次元に分類する新しいフレームワークK-(CSA)2を紹介する。
論文参考訳（メタデータ） (2025-01-02T16:34:10Z)
A Survey on LLM-as-a-Judge [20.228675148114245]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。 LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。 LLM-as-a-Judgeシステムはどうやって構築できるのか?
論文参考訳（メタデータ） (2024-11-23T16:03:35Z)
Traditional Methods Outperform Generative LLMs at Forecasting Credit Ratings [17.109522466982476]
大規模言語モデル(LLM)は多くの下流タスクでうまく機能することが示されている。本稿では,企業信用格付け予測におけるLCMの業績について検討する。
論文参考訳（メタデータ） (2024-07-24T20:30:55Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文参考訳（メタデータ） (2024-04-19T15:40:39Z)
Certifying Knowledge Comprehension in LLMs [3.6293956720749425]
我々は,Large Language Models(LLMs)における知識理解のための最初の仕様と認定フレームワークを紹介する。固定されたデータセットの代わりに、自然ノイズを伴う知識理解の確率分布を数学的に禁止的に表す新しい仕様を設計する。我々は,SOTA LLMを高精度医療と一般質問応答の2つの領域で認証する枠組みを適用した。
論文参考訳（メタデータ） (2024-02-24T23:16:57Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
Fairness of ChatGPT and the Role Of Explainable-Guided Prompts [6.079011829257036]
本研究では,大規模言語モデル(LLM),特に OpenAI の GPT の信用リスク評価における可能性について検討する。この結果から,LLMは従来の機械学習(ML)モデルの性能を並列化できる可能性が示唆された。
論文参考訳（メタデータ） (2023-07-14T09:20:16Z)
Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling [34.59678835272862]
代表的大規模言語モデル(LLM)であるChatGPTは、その強力な創発的能力のために注目されている。本稿では,知識グラフ強化大言語モデル(KGLLM)によるLLMの強化を提案する。 KGLLMはLLMの事実推論能力を高めるソリューションを提供し、LLM研究のための新たな道を開く。
論文参考訳（メタデータ） (2023-06-20T12:21:06Z)
KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文参考訳（メタデータ） (2023-06-15T17:20:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。