Fugu-MT 論文翻訳(概要): Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory

論文の概要: Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory

arxiv url: http://arxiv.org/abs/2412.20846v1
Date: Mon, 30 Dec 2024 10:29:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.753899
Title: Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory
Title（参考訳）: LLMは本当に理解できないのか? LLMの記憶に潜む知識を掘り下げる
Authors: Xingjian Tao, Yiwei Wang, Yujun Cai, Zhicheng Yang, Jing Tang,
Abstract要約: 大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。 LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
参考スコア（独自算出の注目度）: 15.986679553468989
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown promise as potential knowledge bases, yet they often struggle with question-answering tasks and are prone to hallucinations. While previous research attributes these issues to knowledge gaps in the model's parameters, our investigation reveals a different phenomenon: LLMs often retain correct knowledge even when generating incorrect answers. Through analysis of model's internal representations, we find that correct answers frequently appear among high-probability tokens despite not being selected as final outputs. Based on this observation, we introduce Hits@k, a new metric to assess knowledge retention independent of expression accuracy. Our extensive experiments demonstrate that LLMs store significantly more knowledge than their QA performance suggests. Building on these findings, we develop SkipUnsure, a method to improve answer accuracy by leveraging detected but unexpressed knowledge. Experiments on both open-domain and specific-domain datasets show consistent improvements, with accuracy gains of up to 11.8% on DBPedia and 6.3% on IMDB, without requiring model retraining.
Abstract（参考訳）: 大きな言語モデル(LLM)は潜在的な知識基盤として有望であることを示しているが、しばしば疑問に答えるタスクに悩まされ、幻覚を起こす傾向にある。これまでの研究では、これらの問題はモデルのパラメータの知識ギャップに起因しているが、我々の調査では異なる現象が明らかになっている。モデルの内部表現の分析により、最終的な出力として選択されていないにもかかわらず、確率の高いトークンに正しい答えが頻繁に現れることがわかった。この観測に基づいて,表現精度に依存しない知識保持を評価するための新しい指標Hits@kを紹介する。我々の大規模な実験は、LLMがQA性能よりもはるかに多くの知識を蓄積していることを示している。これらの知見に基づいて,検出されたが表現されていない知識を活用することで解答精度を向上させるSkipUnsureを開発した。オープンドメインと特定ドメインの両方の実験では、モデル再トレーニングを必要とせず、DBPediaで最大11.8%、IMDBで最大6.3%の精度で、一貫した改善が見られた。

関連論文リスト

KnowledgeSmith: Uncovering Knowledge Updating in LLMs with Model Editing and Unlearning [23.5611669268224]
知識編集と機械学習は、大規模言語モデル(LLM)が最新の状態を維持するための一般的なアプローチである。本稿では,LLMの更新メカニズムを体系的に理解するための統合フレームワークであるKnowledgeSmithを提案する。
論文参考訳（メタデータ） (2025-10-01T00:15:25Z)
An Analysis of Decoding Methods for LLM-based Agents for Faithful Multi-Hop Question Answering [44.41915467956464]
大規模言語モデル(LLM)は、しばしば事実的に不正確な出力を生成する。この現象は知識集約型NLPタスクにおける精度を制限する。近年の研究では、モデル世代に対する忠実性を改善するために、トレーニング不要なデコード戦略を探求している。
論文参考訳（メタデータ） (2025-03-30T12:18:21Z)
Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文参考訳（メタデータ） (2025-03-19T15:21:48Z)
Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Understanding Knowledge Drift in LLMs through Misinformation [11.605377799885238]
大規模言語モデル(LLM)は多くのアプリケーションに革命をもたらしました。我々は,QnAシナリオで誤情報に遭遇した場合に,現状のLCMの事実的不正確性に対する感受性を解析する。実験の結果,LLMの不確実性が56.6%まで増加することが判明した。
論文参考訳（メタデータ） (2024-09-11T08:11:16Z)
On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models [33.08049246893537]
検索拡張現実(RAG)は,大規模言語モデル(LLM)の知識能力向上に際し,優れた性能を示す本稿では,LLMの簡易かつ効果的なロングテール知識検出手法を提案する。提案手法は,平均推定時間で4倍以上の高速化を実現し,下流タスクにおける一貫した性能向上を実現している。
論文参考訳（メタデータ） (2024-06-24T07:17:59Z)
Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning [18.283963879468466]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚のような課題に直面している。本研究では,モデルの知識境界を認識する能力を向上させるために,不確実性感性チューニングと呼ばれる新しい手法を提案する。実験結果から,提案手法が不確実性領域の同定能力を高めることが示唆された。
論文参考訳（メタデータ） (2024-06-14T14:56:04Z)
Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-05-10T15:10:20Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。 SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文参考訳（メタデータ） (2023-10-08T04:22:33Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。