論文の概要: UrduFactCheck: An Agentic Fact-Checking Framework for Urdu with Evidence Boosting and Benchmarking
- arxiv url: http://arxiv.org/abs/2505.15063v1
- Date: Wed, 21 May 2025 03:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.841819
- Title: UrduFactCheck: An Agentic Fact-Checking Framework for Urdu with Evidence Boosting and Benchmarking
- Title(参考訳): UrduFactCheck:Evidence BoostingとBenchmarkingを備えたUrduのエージェントFact-Checkingフレームワーク
- Authors: Sarfraz Ahmad, Hasan Iqbal, Momina Ahsan, Numaan Naeem, Muhammad Ahsan Riaz Khan, Arham Riaz, Muhammad Arslan Manzoor, Yuxia Wang, Preslav Nakov,
- Abstract要約: 既存のファクトチェックの自動化ソリューションは圧倒的に英語に重点を置いており、世界中の2億人以上のUrduスピーカーにとって大きなギャップを残している。
Urduに特化して最適化された、初めての総合的でモジュール化されたファクトチェックフレームワークであるUrduFactCheckを紹介します。
本システムは,モノリンガルと翻訳に基づくアプローチを組み合わせた動的,マルチストラテジーなエビデンス検索パイプラインを備えている。
- 参考スコア(独自算出の注目度): 23.83465391929839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid use of large language models (LLMs) has raised critical concerns regarding the factual reliability of their outputs, especially in low-resource languages such as Urdu. Existing automated fact-checking solutions overwhelmingly focus on English, leaving a significant gap for the 200+ million Urdu speakers worldwide. In this work, we introduce UrduFactCheck, the first comprehensive, modular fact-checking framework specifically tailored for Urdu. Our system features a dynamic, multi-strategy evidence retrieval pipeline that combines monolingual and translation-based approaches to address the scarcity of high-quality Urdu evidence. We curate and release two new hand-annotated benchmarks: UrduFactBench for claim verification and UrduFactQA for evaluating LLM factuality. Extensive experiments demonstrate that UrduFactCheck, particularly its translation-augmented variants, consistently outperforms baselines and open-source alternatives on multiple metrics. We further benchmark twelve state-of-the-art (SOTA) LLMs on factual question answering in Urdu, highlighting persistent gaps between proprietary and open-source models. UrduFactCheck's code and datasets are open-sourced and publicly available at https://github.com/mbzuai-nlp/UrduFactCheck.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な使用は、特にウルドゥー語のような低リソース言語において、アウトプットの実際の信頼性に関する重要な懸念を引き起こしている。
既存のファクトチェックの自動化ソリューションは圧倒的に英語に重点を置いており、世界中の2億人以上のUrduスピーカーにとって大きなギャップを残している。
本稿では,Urduに特化して設計された,初めての包括的でモジュール化されたファクトチェックフレームワークであるUrduFactCheckを紹介する。
本システムでは,モノリンガルと翻訳に基づくアプローチを組み合わせて,高品質なウルドゥー語証拠の不足に対処する動的,マルチストラテジーなエビデンス検索パイプラインを特徴とする。
クレーム検証のためのUrduFactBenchと、LLMの事実性を評価するUrduFactQAの2つの新しい手書きのベンチマークをキュレートしてリリースする。
大規模な実験によると、UrduFactCheck、特にその翻訳拡張版は、ベースラインとオープンソースの代替品を複数のメトリクスで一貫して上回っている。
我々はさらに、Urduにおける実際の質問応答に関する12のSOTA (State-of-the-art) LLMをベンチマークし、プロプライエタリモデルとオープンソースモデルの間の永続的なギャップを強調した。
UrduFactCheckのコードとデータセットはオープンソースで、https://github.com/mbzuai-nlp/UrduFactCheckで公開されている。
関連論文リスト
- Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models [10.663446796160567]
生成AIにおける幻覚、特にLarge Language Models(LLMs)は、多言語アプリケーションの信頼性に重大な課題をもたらす。
幻覚検出のための既存のベンチマークは、主に英語といくつかの広く話されている言語に焦点を当てている。
大規模多言語事実検証ベンチマークであるPoly-FEVERを紹介する。
論文 参考訳(メタデータ) (2025-03-19T01:46:09Z) - UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。
ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文 参考訳(メタデータ) (2025-02-24T08:38:21Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [15.619421104102516]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。
まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。
文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文 参考訳(メタデータ) (2024-01-27T20:26:03Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text
Generation [70.77243918587321]
複数の側面で生成されたテキストを制御するマルチアスペクト制御可能なテキスト生成が注目されている。
干渉に対する理論的な下界を提供し、プレフィックスが挿入される層の数に応じて干渉が増加することを経験的に見出した。
トレーニング可能なゲートを用いてプレフィックスの介入を正規化し、増大する干渉を抑制することを提案する。
論文 参考訳(メタデータ) (2022-12-19T11:53:59Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。