論文の概要: Facts are Harder Than Opinions -- A Multilingual, Comparative Analysis of LLM-Based Fact-Checking Reliability
- arxiv url: http://arxiv.org/abs/2506.03655v1
- Date: Wed, 04 Jun 2025 07:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.203632
- Title: Facts are Harder Than Opinions -- A Multilingual, Comparative Analysis of LLM-Based Fact-Checking Reliability
- Title(参考訳): ファクトはオピニオンより難しい -- LLMに基づくファクトチェッキング信頼性の多言語比較分析
- Authors: Lorraine Saju, Arnim Bleier, Jana Lasser, Claudia Wagner,
- Abstract要約: 本稿では,複数の言語やトピックに61,514のクレームを含む新しい動的データセットを導入し,既存のデータセットを2024年まで拡張する。
GPT-4o, GPT-3.5 Turbo, LLaMA 3.1, Mixtral 8x7B の5つの主要言語モデル(LLM)を評価した。
すべてのモデルにおいて、事実に耳を傾ける主張は意見よりもしばしば誤分類され、重要な脆弱性が明らかになる。
- 参考スコア(独自算出の注目度): 1.1135113962297134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of misinformation necessitates scalable, automated fact-checking solutions. Yet, current benchmarks often overlook multilingual and topical diversity. This paper introduces a novel, dynamically extensible data set that includes 61,514 claims in multiple languages and topics, extending existing datasets up to 2024. Through a comprehensive evaluation of five prominent Large Language Models (LLMs), including GPT-4o, GPT-3.5 Turbo, LLaMA 3.1, and Mixtral 8x7B, we identify significant performance gaps between different languages and topics. While overall GPT-4o achieves the highest accuracy, it declines to classify 43% of claims. Across all models, factual-sounding claims are misclassified more often than opinions, revealing a key vulnerability. These findings underscore the need for caution and highlight challenges in deploying LLM-based fact-checking systems at scale.
- Abstract(参考訳): 誤報の拡散は、スケーラブルで自動化されたファクトチェックソリューションを必要とする。
しかし、現在のベンチマークは多言語とトピックの多様性を見落としていることが多い。
本稿では,複数の言語やトピックに61,514のクレームを含む,動的に拡張可能な新しいデータセットを紹介し,既存のデータセットを2024年まで拡張する。
GPT-4o, GPT-3.5 Turbo, LLaMA 3.1, Mixtral 8x7B を含む5つの顕著な大規模言語モデル (LLM) の総合評価を通じて, 異なる言語とトピック間の顕著なパフォーマンスギャップを同定した。
GPT-4oは全体の43%のクレームを分類するために低下する。
すべてのモデルにおいて、事実に耳を傾ける主張は意見よりもしばしば誤分類され、重要な脆弱性が明らかになる。
これらの知見は, LLMベースのファクトチェックシステムを大規模に展開する上で, 注意が必要であること, 課題を強調している。
関連論文リスト
- Out of Style: RAG's Fragility to Linguistic Variation [29.59506089890902]
ユーザクエリは言語的なバリエーションが大きく、依存するRAGコンポーネント間のカスケードエラーを引き起こす可能性がある。
我々は,4つの言語的次元(形式性,可読性,丁寧性,文法的正しさ)がRAG性能に与える影響を分析する。
論文 参考訳(メタデータ) (2025-04-11T03:30:26Z) - Fact-checking with Generative AI: A Systematic Cross-Topic Examination of LLMs Capacity to Detect Veracity of Political Information [0.0]
本研究の目的は,大規模言語モデル (LLM) がファクトチェックにどのように用いられるかを評価することである。
我々は5つのLLMの性能を体系的に評価するAI監査手法を用いる。
結果は、特にセンシティブなトピックにおいて、モデルが偽文を識別するのが優れていることを示している。
論文 参考訳(メタデータ) (2025-03-11T13:06:40Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Surprising Efficacy of Fine-Tuned Transformers for Fact-Checking over Larger Language Models [1.985242455423935]
本研究では,ファクトチェックのための微調整トランスフォーマーモデルにより,大規模言語モデルよりも優れた性能が得られることを示す。
数量を含む複雑なクレームと多言語設定におけるファクトチェックのための微調整モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-02-19T14:00:35Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - The Perils & Promises of Fact-checking with Large Language Models [55.869584426820715]
大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。
語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。
本研究は, 文脈情報を用いたLLMの高度化を示すものである。
LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
論文 参考訳(メタデータ) (2023-10-20T14:49:47Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。