Fugu-MT 論文翻訳(概要): Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity

論文の概要: Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity

arxiv url: http://arxiv.org/abs/2310.07521v3
Date: Sat, 16 Dec 2023 12:47:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 19:57:22.244517
Title: Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity
Title（参考訳）: 大規模言語モデルにおけるファクタリティに関する調査:知識・検索・ドメイン特質
Authors: Cunxiang Wang, Xiaoze Liu, Yuanhao Yue, Xiangru Tang, Tianhang Zhang, Cheng Jiayang, Yunzhi Yao, Wenyang Gao, Xuming Hu, Zehan Qi, Yidong Wang, Linyi Yang, Jindong Wang, Xing Xie, Zheng Zhang, Yue Zhang
Abstract要約: 本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
参考スコア（独自算出の注目度）: 61.54815512469125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.
Abstract（参考訳）: 本稿では,Large Language Models (LLMs)における事実性の重要課題について述べる。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。我々は、現実と矛盾するコンテンツを生成するLLMの確率として、現実問題を定義する。まず、これらの不正確さの影響を掘り下げ、LCM出力における事実誤りによる潜在的な結果と課題を明らかにする。その後,LLMが事実を保存・処理するメカニズムを解析し,事実誤りの主な原因を探究する。この議論は、LLMの事実性を評価する方法論に移行し、主要な指標、ベンチマーク、研究を強調する。特定のドメインに適したアプローチを含む,LLMの事実性向上戦略についても検討する。独立LLMと外部データを利用するRetrieval-Augmented LLMの2つの主要なLLM構成に注目し、それらの固有の課題と潜在的な拡張について詳述する。本調査は,llmの信頼性を高めることを目的とした構造化ガイドを提供する。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
Generative Evaluation of Complex Reasoning in Large Language Models [39.195491367590485]
大規模言語モデル(LLM)における推論評価に特化して設計された生成的評価フレームワークであるKUMOを紹介する。自動パイプラインを通じて、KUMOは、超人記憶よりも真の一般化を示すために、オープンエンドドメインにまたがる新しいタスクを連続的に生成する。我々は、KUMOが作成した100のドメインにまたがる5000のタスクに対して、23の最先端LCMを評価し、大学生に対する推論能力をベンチマークした。
論文参考訳（メタデータ） (2025-04-03T17:54:18Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。 GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文参考訳（メタデータ） (2024-05-27T11:39:59Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
LLM Factoscope: Uncovering LLMs' Factual Discernment through Inner States Analysis [11.712916673150245]
大規模言語モデル(LLM)は、現実と異なる出力を生成する。この現象は特に、医療相談や法的な助言といった繊細な応用に関係している。本稿では,LCMの内部状態を実測に活用した,新しいシームズネットワークベースモデルであるLCMファクトスコープを提案する。
論文参考訳（メタデータ） (2023-12-27T01:44:47Z)
Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文参考訳（メタデータ） (2023-11-01T17:42:45Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。 LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文参考訳（メタデータ） (2023-04-28T19:00:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。