Fugu-MT 論文翻訳(概要): Evaluating open-source Large Language Models for automated fact-checking

論文の概要: Evaluating open-source Large Language Models for automated fact-checking

arxiv url: http://arxiv.org/abs/2503.05565v1
Date: Fri, 07 Mar 2025 16:45:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:15.069426
Title: Evaluating open-source Large Language Models for automated fact-checking
Title（参考訳）: ファクトチェック自動化のためのオープンソースの大規模言語モデルの評価
Authors: Nicolo' Fontana, Francesco Corso, Enrico Zuccolotto, Francesco Pierri,
Abstract要約: 大規模言語モデル(LLM)は、自動ファクトチェックの潜在的なツールとして登場した。本研究は,異なるレベルの文脈情報を用いてクレームを評価する能力に焦点をあてる。
参考スコア（独自算出の注目度）: 0.13499500088995461
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing prevalence of online misinformation has heightened the demand for automated fact-checking solutions. Large Language Models (LLMs) have emerged as potential tools for assisting in this task, but their effectiveness remains uncertain. This study evaluates the fact-checking capabilities of various open-source LLMs, focusing on their ability to assess claims with different levels of contextual information. We conduct three key experiments: (1) evaluating whether LLMs can identify the semantic relationship between a claim and a fact-checking article, (2) assessing models' accuracy in verifying claims when given a related fact-checking article, and (3) testing LLMs' fact-checking abilities when leveraging data from external knowledge sources such as Google and Wikipedia. Our results indicate that LLMs perform well in identifying claim-article connections and verifying fact-checked stories but struggle with confirming factual news, where they are outperformed by traditional fine-tuned models such as RoBERTa. Additionally, the introduction of external knowledge does not significantly enhance LLMs' performance, calling for more tailored approaches. Our findings highlight both the potential and limitations of LLMs in automated fact-checking, emphasizing the need for further refinements before they can reliably replace human fact-checkers.
Abstract（参考訳）: オンライン誤情報の増加により、自動事実確認ソリューションの需要が高まっている。大規模言語モデル(LLM)はこのタスクを補助する潜在的なツールとして登場したが、その有効性はまだ不明である。本研究では,異なるレベルの文脈情報によるクレーム評価能力に着目し,様々なオープンソースLCMの事実チェック能力を評価する。 1) クレームとファクトチェック項目のセマンティックな関係を識別できるかどうかを評価すること,(2) 関連するファクトチェック項目が与えられた場合のクレーム検証におけるモデルの精度を評価すること,(3) グーグルやウィキペディアなどの外部知識ソースからのデータを活用する際に,LCMのファクトチェック能力をテストすること,の3つの重要な実験を行う。以上の結果から,LCMはクレーム・アーティクル・コネクションの同定や事実チェックされたストーリーの検証に優れていたが,RoBERTaのような従来の微調整モデルよりも優れていた事実ニュースの確認に苦慮していることがわかった。加えて、外部知識の導入はLLMのパフォーマンスを著しく向上させておらず、よりカスタマイズされたアプローチを求めている。本研究は, 自動ファクトチェックにおけるLCMの可能性と限界を強調し, 人間のファクトチェックを確実に置き換える前に, さらなる改善の必要性を強調した。

関連論文リスト

Fact-checking AI-generated news reports: Can LLMs catch their own lies? [4.232709762282742]
我々は,Large Language Models (LLMs) が自らのコンテンツを効果的にファクトチェックできるかどうかを評価する。 LLMは、地方ニュースよりも、全国ニュースや国際ニュースの主張を評価するのに効果的である。 LLMが評価できないクレームの数を大幅に減らすことができる。
論文参考訳（メタデータ） (2025-03-24T02:32:02Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
LEAF: Learning and Evaluation Augmented by Fact-Checking to Improve Factualness in Large Language Models [11.453585039783901]
LEAF: Fact-Checkingによって強化された学習と評価は、大規模言語モデル(LLM)の現実的信頼性を高めるために設計された新しいアプローチである。最初の戦略であるFact-Check-Then-RAGは、ファクトチェック結果を取り入れて、モデルパラメータを更新せずに検索プロセスをガイドすることによって、検索精度を向上させる。第2の戦略であるLearning from Fact-Checks via Self-Trainingは、ファクトチェックされた応答の監督された微調整(SFT)や、ファクトチェックをランキングメカニズムとして適用するSimple Preference Optimization(SimPO)である。
論文参考訳（メタデータ） (2024-10-31T00:18:05Z)
Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文参考訳（メタデータ） (2023-11-29T05:04:52Z)
RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文参考訳（メタデータ） (2023-11-14T13:24:19Z)
The Perils & Promises of Fact-checking with Large Language Models [55.869584426820715]
大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。本研究は, 文脈情報を用いたLLMの高度化を示すものである。 LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
論文参考訳（メタデータ） (2023-10-20T14:49:47Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。