論文の概要: UrduFactCheck: An Agentic Fact-Checking Framework for Urdu with Evidence Boosting and Benchmarking
- arxiv url: http://arxiv.org/abs/2505.15063v2
- Date: Tue, 28 Oct 2025 20:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:43.28093
- Title: UrduFactCheck: An Agentic Fact-Checking Framework for Urdu with Evidence Boosting and Benchmarking
- Title(参考訳): UrduFactCheck:Evidence BoostingとBenchmarkingを備えたUrduのエージェントFact-Checkingフレームワーク
- Authors: Sarfraz Ahmad, Hasan Iqbal, Momina Ahsan, Numaan Naeem, Muhammad Ahsan Riaz Khan, Arham Riaz, Muhammad Arslan Manzoor, Yuxia Wang, Preslav Nakov,
- Abstract要約: 既存のファクトチェックシステムは、主に英語で開発されており、世界中の2億人以上のウルドゥー語話者にとって大きなギャップを残している。
UrduFactBenchとUrduFactQAは、Urduにおける事実チェックと事実整合性評価を可能にするために設計された2つの新しいベンチマークである。
これらのベンチマークを補完するために,モノリンガルおよび翻訳に基づくエビデンス検索戦略を組み込んだモジュール型ファクトチェックフレームワークであるUrduFactCheckを紹介する。
- 参考スコア(独自算出の注目度): 43.71125919897474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of Large Language Models (LLMs) has raised important concerns about the factual reliability of their outputs, particularly in low-resource languages such as Urdu. Existing automated fact-checking systems are predominantly developed for English, leaving a significant gap for the more than 200 million Urdu speakers worldwide. In this work, we present UrduFactBench and UrduFactQA, two novel hand-annotated benchmarks designed to enable fact-checking and factual consistency evaluation in Urdu. While UrduFactBench focuses on claim verification, UrduFactQA targets the factuality of LLMs in question answering. These resources, the first of their kind for Urdu, were developed through a multi-stage annotation process involving native Urdu speakers. To complement these benchmarks, we introduce UrduFactCheck, a modular fact-checking framework that incorporates both monolingual and translation-based evidence retrieval strategies to mitigate the scarcity of high-quality Urdu evidence. Leveraging these resources, we conduct an extensive evaluation of twelve LLMs and demonstrate that translation-augmented pipelines consistently enhance performance compared to monolingual ones. Our findings reveal persistent challenges for open-source LLMs in Urdu and underscore the importance of developing targeted resources. All code and data are publicly available at https://github.com/mbzuai-nlp/UrduFactCheck.
- Abstract(参考訳): LLM(Large Language Models)の急速な採用は、特にUrduのような低リソース言語において、アウトプットの実際の信頼性に関する重要な懸念を引き起こしている。
既存のファクトチェックシステムは、主に英語で開発されており、世界中の2億人以上のウルドゥー語話者にとって大きなギャップを残している。
本稿では,Urduにおける事実チェックと事実整合性評価を実現するために,UrduFactBenchとUrduFactQAを提案する。
UrduFactBench はクレーム検証に重点を置いているが、UrduFactQA は疑問に答える LLM の事実性を目標としている。
これらのリソースは、Urduにとって最初のものであり、ネイティブなUrdu話者を含む多段階のアノテーションプロセスを通じて開発された。
これらのベンチマークを補完するため,モジュール型ファクトチェックフレームワークであるUrduFactCheckを紹介した。
これらの資源を活用して、12個のLLMを広範囲に評価し、翻訳拡張パイプラインが単言語パイプラインと比較して一貫して性能を向上することを示した。
この結果から,Urdu におけるオープンソース LLM の持続的課題が明らかとなり,目標とするリソース開発の重要性が浮き彫りになった。
すべてのコードとデータはhttps://github.com/mbzuai-nlp/UrduFactCheck.comで公開されている。
関連論文リスト
- UrBLiMP: A Benchmark for Evaluating the Linguistic Competence of Large Language Models in Urdu [12.952822154200497]
言語最小ペア(UrBLiMP)のUrduベンチマークについて述べる。
UrBLiMPは10コアの構文現象を対象とする5,696個の最小ペアから構成される。
UrBLiMPアノテーションの人間による評価は96.10%のアノテーション間の合意を得た。
論文 参考訳(メタデータ) (2025-08-01T18:16:37Z) - Unified Large Language Models for Misinformation Detection in Low-Resource Linguistic Settings [1.5811829698567754]
ウルドゥー語のような地域言語でニュースを検出するための資源と戦略には顕著なギャップがある。
現在のUrduのフェイクニュースデータセットはドメイン固有であり、一般にはアクセスできないことが多い。
本稿では,Urduニュースのための最初のベンチマーク大規模FNDデータセットについて述べる。
論文 参考訳(メタデータ) (2025-06-02T12:19:28Z) - Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models [10.663446796160567]
生成AIにおける幻覚、特にLarge Language Models(LLMs)は、多言語アプリケーションの信頼性に重大な課題をもたらす。
幻覚検出のための既存のベンチマークは、主に英語といくつかの広く話されている言語に焦点を当てている。
大規模多言語事実検証ベンチマークであるPoly-FEVERを紹介する。
論文 参考訳(メタデータ) (2025-03-19T01:46:09Z) - UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。
ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文 参考訳(メタデータ) (2025-02-24T08:38:21Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [15.619421104102516]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。
まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。
文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文 参考訳(メタデータ) (2024-01-27T20:26:03Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text
Generation [70.77243918587321]
複数の側面で生成されたテキストを制御するマルチアスペクト制御可能なテキスト生成が注目されている。
干渉に対する理論的な下界を提供し、プレフィックスが挿入される層の数に応じて干渉が増加することを経験的に見出した。
トレーニング可能なゲートを用いてプレフィックスの介入を正規化し、増大する干渉を抑制することを提案する。
論文 参考訳(メタデータ) (2022-12-19T11:53:59Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。