論文の概要: Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity
- arxiv url: http://arxiv.org/abs/2310.07521v3
- Date: Sat, 16 Dec 2023 12:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:57:22.244517
- Title: Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity
- Title(参考訳): 大規模言語モデルにおけるファクタリティに関する調査:知識・検索・ドメイン特質
- Authors: Cunxiang Wang, Xiaoze Liu, Yuanhao Yue, Xiangru Tang, Tianhang Zhang,
Cheng Jiayang, Yunzhi Yao, Wenyang Gao, Xuming Hu, Zehan Qi, Yidong Wang,
Linyi Yang, Jindong Wang, Xing Xie, Zheng Zhang, Yue Zhang
- Abstract要約: 本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
- 参考スコア(独自算出の注目度): 61.54815512469125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This survey addresses the crucial issue of factuality in Large Language
Models (LLMs). As LLMs find applications across diverse domains, the
reliability and accuracy of their outputs become vital. We define the
Factuality Issue as the probability of LLMs to produce content inconsistent
with established facts. We first delve into the implications of these
inaccuracies, highlighting the potential consequences and challenges posed by
factual errors in LLM outputs. Subsequently, we analyze the mechanisms through
which LLMs store and process facts, seeking the primary causes of factual
errors. Our discussion then transitions to methodologies for evaluating LLM
factuality, emphasizing key metrics, benchmarks, and studies. We further
explore strategies for enhancing LLM factuality, including approaches tailored
for specific domains. We focus two primary LLM configurations standalone LLMs
and Retrieval-Augmented LLMs that utilizes external data, we detail their
unique challenges and potential enhancements. Our survey offers a structured
guide for researchers aiming to fortify the factual reliability of LLMs.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs)における事実性の重要課題について述べる。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
我々は、現実と矛盾するコンテンツを生成するLLMの確率として、現実問題を定義する。
まず、これらの不正確さの影響を掘り下げ、LCM出力における事実誤りによる潜在的な結果と課題を明らかにする。
その後,LLMが事実を保存・処理するメカニズムを解析し,事実誤りの主な原因を探究する。
この議論は、LLMの事実性を評価する方法論に移行し、主要な指標、ベンチマーク、研究を強調する。
特定のドメインに適したアプローチを含む,LLMの事実性向上戦略についても検討する。
独立LLMと外部データを利用するRetrieval-Augmented LLMの2つの主要なLLM構成に注目し、それらの固有の課題と潜在的な拡張について詳述する。
本調査は,llmの信頼性を高めることを目的とした構造化ガイドを提供する。
関連論文リスト
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Benchmarking LLMs via Uncertainty Quantification [95.67653501674995]
我々は,Large Language Models (LLM) のための新しいベンチマーク手法を導入する。
本試験では,5つの自然言語処理タスクにまたがる8つのLLMについて検討した。
予測精度と予測不確実性の両方を考慮して,不確実性を考慮した評価指標UAccを導入する。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - LLM Factoscope: Uncovering LLMs' Factual Discernment through Inner
States Analysis [12.411191820675045]
大規模言語モデル(LLM)は、現実と異なる出力を生成する。
この現象は特に、医療相談や法的な助言といった繊細な応用に関係している。
本稿では,LCMの内部状態を実測に活用した,新しいシームズネットワークベースモデルであるLCMファクトスコープを提案する。
論文 参考訳(メタデータ) (2023-12-27T01:44:47Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。