論文の概要: Understanding Inequality of LLM Fact-Checking over Geographic Regions with Agent and Retrieval models
- arxiv url: http://arxiv.org/abs/2503.22877v1
- Date: Fri, 28 Mar 2025 21:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:28.972889
- Title: Understanding Inequality of LLM Fact-Checking over Geographic Regions with Agent and Retrieval models
- Title(参考訳): エージェントモデルと検索モデルを用いたLLM Fact-Checkingの地理的領域における不等式理解
- Authors: Bruno Coelho, Shujaat Mirza, Yuyuan Cui, Christina Pöpper, Damon McCoy,
- Abstract要約: オープンモデルとプライベートモデルの実際の精度を、さまざまな領域やシナリオで評価する。
以上の結果から,グローバル・ノースの発言は,シナリオやLLMによらず,グローバル・サウスの発言よりも格段に優れていたことが判明した。
- 参考スコア(独自算出の注目度): 7.604241782666465
- License:
- Abstract: Fact-checking is a potentially useful application of Large Language Models (LLMs) to combat the growing dissemination of disinformation. However, the performance of LLMs varies across geographic regions. In this paper, we evaluate the factual accuracy of open and private models across a diverse set of regions and scenarios. Using a dataset containing 600 fact-checked statements balanced across six global regions we examine three experimental setups of fact-checking a statement: (1) when just the statement is available, (2) when an LLM-based agent with Wikipedia access is utilized, and (3) as a best case scenario when a Retrieval-Augmented Generation (RAG) system provided with the official fact check is employed. Our findings reveal that regardless of the scenario and LLM used, including GPT-4, Claude Sonnet, and LLaMA, statements from the Global North perform substantially better than those from the Global South. Furthermore, this gap is broadened for the more realistic case of a Wikipedia agent-based system, highlighting that overly general knowledge bases have a limited ability to address region-specific nuances. These results underscore the urgent need for better dataset balancing and robust retrieval strategies to enhance LLM fact-checking capabilities, particularly in geographically diverse contexts.
- Abstract(参考訳): Fact-checkingは、偽情報の拡散に対処するために、Large Language Models (LLMs) の潜在的に有用な応用である。
しかし,LLMの性能は地域によって異なる。
本稿では,様々な領域やシナリオを対象としたオープンモデルとプライベートモデルの現実的精度を評価する。
6つのグローバルリージョンでバランスのとれた600のファクトチェックステートメントを含むデータセットを用いて,(1) ステートメントが利用可能である場合,(2) ウィキペディアにアクセス可能な LLM ベースのエージェントを利用する場合,(3) 公式のファクトチェックを備えたレトリーバル拡張生成(RAG)システムを使用する場合,3つの実験的なファクトチェックのセットアップを検討する。
この結果から, GPT-4, Claude Sonnet, LLaMA などのシナリオや LLM によらず,Global North の発言はGlobal South の発言よりもかなり優れていた。
さらに、このギャップはウィキペディアのエージェントベースのシステムのより現実的なケースに対して広がり、過度に一般的な知識ベースが地域固有のニュアンスに対処する能力に制限があることを強調している。
これらの結果は、特に地理的に多様な文脈において、LCMのファクトチェック能力を高めるために、より良いデータセットバランスとロバストな検索戦略の緊急の必要性を浮き彫りにしている。
関連論文リスト
- Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - What can LLM tell us about cities? [6.405546719612814]
本研究では,世界規模で都市や地域に関する知識を提供する上で,大規模言語モデル(LLM)の能力について検討する。
実験の結果、LLMはグローバルな都市に広範に多様な知識を組み込んでおり、MLモデルはLLMに由来する特徴に基づいて一貫して訓練され、予測精度が向上していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T09:07:56Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Knowing When to Ask -- Bridging Large Language Models and Data [3.111987311375933]
大規模言語モデル(LLM)は、数値および統計データやその他のタイムリーな事実を含むクエリに応答するときに、事実的に誤った情報を生成する傾向がある。
本稿では,LLMをData Commonsに統合することで,LCMの精度を高める手法を提案する。
論文 参考訳(メタデータ) (2024-09-10T17:51:21Z) - DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection [50.805599761583444]
大規模な言語モデルは、事実性や幻覚の難しさによって制限され、ニュース記事の正確さを判断するために、棚外で直接使用される。
我々は,LLMをパイプラインの一部として組み込む誤情報検出の3つの重要な段階を同定するDellを提案する。
論文 参考訳(メタデータ) (2024-02-16T03:24:56Z) - Global-Liar: Factuality of LLMs over Time and Geographic Regions [3.715487408753612]
本研究は, GPT-3.5 や GPT-4 を含む広く採用されている GPT モデルにおける実測精度, 安定性, バイアスを評価する。
地理的および時間的表現の観点から一意にバランスのとれたデータセットである「Global-Liar」を導入する。
論文 参考訳(メタデータ) (2024-01-31T13:57:24Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language
Models [13.659853119356507]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。
彼らは幻覚を起こす傾向があり、モデルがその反応の中で誤った情報や誤った情報を公開する。
ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法として,LLMMapsを提案する。
論文 参考訳(メタデータ) (2023-04-02T05:47:09Z) - Jalisco's multiclass land cover analysis and classification using a
novel lightweight convnet with real-world multispectral and relief data [51.715517570634994]
本稿では、LC分類と解析を行うために、新しい軽量(89kパラメータのみ)畳み込みニューラルネットワーク(ConvNet)を提案する。
本研究では,実世界のオープンデータソースを3つ組み合わせて13のチャネルを得る。
組込み分析は、いくつかのクラスにおいて限られたパフォーマンスを期待し、最も類似したクラスをグループ化する機会を与えてくれます。
論文 参考訳(メタデータ) (2022-01-26T14:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。