論文の概要: Fact-checking AI-generated news reports: Can LLMs catch their own lies?
- arxiv url: http://arxiv.org/abs/2503.18293v1
- Date: Mon, 24 Mar 2025 02:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:17.084134
- Title: Fact-checking AI-generated news reports: Can LLMs catch their own lies?
- Title(参考訳): ファクトチェックでAIが生成したニュース:LLMは自分の嘘をつかめるのか?
- Authors: Jiayi Yao, Haibo Sun, Nianwen Xue,
- Abstract要約: 我々は,Large Language Models (LLMs) が自らのコンテンツを効果的にファクトチェックできるかどうかを評価する。
LLMは、地方ニュースよりも、全国ニュースや国際ニュースの主張を評価するのに効果的である。
LLMが評価できないクレームの数を大幅に減らすことができる。
- 参考スコア(独自算出の注目度): 4.232709762282742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we evaluate the ability of Large Language Models (LLMs) to assess the veracity of claims in ''news reports'' generated by themselves or other LLMs. Our goal is to determine whether LLMs can effectively fact-check their own content, using methods similar to those used to verify claims made by humans. Our findings indicate that LLMs are more effective at assessing claims in national or international news stories than in local news stories, better at evaluating static information than dynamic information, and better at verifying true claims compared to false ones. We hypothesize that this disparity arises because the former types of claims are better represented in the training data. Additionally, we find that incorporating retrieved results from a search engine in a Retrieval-Augmented Generation (RAG) setting significantly reduces the number of claims an LLM cannot assess. However, this approach also increases the occurrence of incorrect assessments, partly due to irrelevant or low-quality search results. This diagnostic study highlights the need for future research on fact-checking machine-generated reports to prioritize improving the precision and relevance of retrieved information to better support fact-checking efforts. Furthermore, claims about dynamic events and local news may require human-in-the-loop fact-checking systems to ensure accuracy and reliability.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を用いて,自己あるいは他のLCMが生成する'News Report'におけるクレームの正確性を評価する。
我々のゴールは、人間によるクレームの検証と同様の手法を用いて、LLMが自らのコンテンツを効果的にファクトチェックできるかどうかを判断することである。
以上の結果から, LLMは地域ニュースよりも, 国内ニュースや国際ニュースのクレーム評価に有効であり, 動的情報よりも静的情報の評価に優れ, 偽ニュースよりも真クレームの検証に優れていたことが示唆された。
この格差は、旧来のクレームがトレーニングデータでよりよく表現されているため生じるという仮説を立てる。
さらに,LLMが評価できないクレーム数を著しく減少させるため,検索結果の検索をRAG(Retrieval-Augmented Generation)設定に組み込むことで,検索結果が大幅に削減できることが判明した。
しかし、この手法は、不適切な検索結果や低品質な検索結果が原因で、誤評価の発生も増大させる。
この診断研究は、検索された情報の精度と関連性の向上を優先し、ファクトチェックの取り組みを支援するために、ファクトチェックマシン生成レポートの今後の研究の必要性を強調している。
さらに、ダイナミックイベントとローカルニュースに関する主張は、正確さと信頼性を保証するために、ループ内ファクトチェックシステムを必要とする可能性がある。
関連論文リスト
- How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation [24.355564722047244]
大規模言語モデル(LLM)は多様なシナリオに広くデプロイされている。
彼らが誤報をうまく広める程度は、重大な安全上の懸念として浮かび上がっている。
暗黙的誤報の最初のベンチマークであるECHOMISTをキュレートした。
論文 参考訳(メタデータ) (2025-03-12T17:59:18Z) - Fact-checking with Generative AI: A Systematic Cross-Topic Examination of LLMs Capacity to Detect Veracity of Political Information [0.0]
本研究の目的は,大規模言語モデル (LLM) がファクトチェックにどのように用いられるかを評価することである。
我々は5つのLLMの性能を体系的に評価するAI監査手法を用いる。
結果は、特にセンシティブなトピックにおいて、モデルが偽文を識別するのが優れていることを示している。
論文 参考訳(メタデータ) (2025-03-11T13:06:40Z) - Evaluating open-source Large Language Models for automated fact-checking [0.13499500088995461]
大規模言語モデル(LLM)は、自動ファクトチェックの潜在的なツールとして登場した。
本研究は,異なるレベルの文脈情報を用いてクレームを評価する能力に焦点をあてる。
論文 参考訳(メタデータ) (2025-03-07T16:45:33Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - The Perils & Promises of Fact-checking with Large Language Models [55.869584426820715]
大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。
語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。
本研究は, 文脈情報を用いたLLMの高度化を示すものである。
LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
論文 参考訳(メタデータ) (2023-10-20T14:49:47Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。