論文の概要: The Perils & Promises of Fact-checking with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.13549v2
- Date: Wed, 7 Feb 2024 12:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:44:49.691376
- Title: The Perils & Promises of Fact-checking with Large Language Models
- Title(参考訳): 大規模言語モデルによるファクトチェックのペリルと約束
- Authors: Dorian Quelle, Alexandre Bovet
- Abstract要約: 大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。
語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。
本研究は, 文脈情報を用いたLLMの高度化を示すものである。
LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
- 参考スコア(独自算出の注目度): 55.869584426820715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated fact-checking, using machine learning to verify claims, has grown
vital as misinformation spreads beyond human fact-checking capacity. Large
Language Models (LLMs) like GPT-4 are increasingly trusted to write academic
papers, lawsuits, and news articles and to verify information, emphasizing
their role in discerning truth from falsehood and the importance of being able
to verify their outputs. Understanding the capacities and limitations of LLMs
in fact-checking tasks is therefore essential for ensuring the health of our
information ecosystem. Here, we evaluate the use of LLM agents in fact-checking
by having them phrase queries, retrieve contextual data, and make decisions.
Importantly, in our framework, agents explain their reasoning and cite the
relevant sources from the retrieved context. Our results show the enhanced
prowess of LLMs when equipped with contextual information. GPT-4 outperforms
GPT-3, but accuracy varies based on query language and claim veracity. While
LLMs show promise in fact-checking, caution is essential due to inconsistent
accuracy. Our investigation calls for further research, fostering a deeper
comprehension of when agents succeed and when they fail.
- Abstract(参考訳): クレームの検証に機械学習を使用する自動ファクトチェックは、人間のファクトチェック能力を超えて誤情報が広まるにつれ、重要になっている。
gpt-4のような大規模言語モデル(llm)は、学術論文や訴訟、ニュース記事の執筆や情報検証にますます信頼され、真理を虚偽と認識し、結果を確認することの重要性を強調している。
事実チェックタスクにおけるLCMの能力と限界を理解することは、私たちの情報エコシステムの健全性を確保するために不可欠である。
そこで我々は,LLMエージェントの語句検索,文脈データ検索,意思決定による事実確認における使用状況の評価を行った。
重要なことは、我々のフレームワークにおいて、エージェントはそれらの推論を説明し、検索されたコンテキストから関連するソースを引用する。
本研究は, 文脈情報を用いたLLMの高度化を示すものである。
GPT-4はGPT-3より優れているが、精度はクエリ言語とクレームの正確性によって異なる。
LLMは事実チェックにおいて有望であるが、不整合精度のため注意が必要である。
我々の調査はさらなる研究を要求し、エージェントがいつ成功し、いつ失敗するかをより深く理解する。
関連論文リスト
- To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong [35.64962031447787]
大規模言語モデル(LLM)は、Web上の情報へのアクセスにますます使われています。
80人のクラウドワーカーによる実験では,事実チェックを容易にするために,言語モデルと検索エンジン(情報検索システム)を比較した。
LLMの説明を読むユーザーは、類似の精度を保ちながら、検索エンジンを使用するものよりもはるかに効率的である。
論文 参考訳(メタデータ) (2023-10-19T08:09:58Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - FactLLaMA: Optimizing Instruction-Following Language Models with
External Knowledge for Automated Fact-Checking [10.046323978189847]
本稿では,命令追従言語モデルと外部エビデンス検索を併用して,ファクトチェック性能を向上させることを提案する。
我々のアプローチは、与えられた入力クレームに関する適切な証拠を検索するために検索エンジンを活用することである。
そして、この証拠を用いて、LLaMAと呼ばれるオープンソースの言語モデルを作成し、入力クレームの正確性をより正確に予測できるようにする。
論文 参考訳(メタデータ) (2023-09-01T04:14:39Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。