論文の概要: UrduBench: An Urdu Reasoning Benchmark using Contextually Ensembled Translations with Human-in-the-Loop
- arxiv url: http://arxiv.org/abs/2601.21000v1
- Date: Wed, 28 Jan 2026 19:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.414988
- Title: UrduBench: An Urdu Reasoning Benchmark using Contextually Ensembled Translations with Human-in-the-Loop
- Title(参考訳): UrduBench: コンテキストアンサンブル翻訳を用いたUrdu推論ベンチマーク
- Authors: Muhammad Ali Shafique, Areej Mehboob, Layba Fiaz, Muhammad Usman Qadeer, Hamza Farooq,
- Abstract要約: 本稿では,Urdu推論ベンチマークを開発するために,人間によるループ検証を用いた文脈アンサンブル翻訳フレームワークを提案する。
このフレームワークを用いて、MGSM、MATH-500、CommonSenseQA、OpenBookQAを含む広く採用されている推論および質問応答ベンチマークをUrduに翻訳する。
分析の結果,(1)4つのデータセット,(2)5つのタスク難易度,(3)多様なモデルアーキテクチャ,(4)複数のモデルスケーリング設定,(5)言語整合性テストにおける性能差が明らかになった。
- 参考スコア(独自算出の注目度): 0.17126708168238125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have led to strong reasoning capabilities; however, evaluating such models in low-resource languages remains challenging due to the lack of standardized benchmarks. In particular, Urdu reasoning evaluation has been limited by the sensitivity of machine translation and an emphasis on general language tasks rather than reasoning benchmarks. In this paper, we propose a contextually ensembled translation framework with human-in-the-loop validation that leverages multiple translation systems to develop Urdu reasoning benchmarks while preserving contextual and structural integrity. Using this framework, we translate widely adopted reasoning and question-answering benchmarks, including MGSM, MATH-500, CommonSenseQA, and OpenBookQA, into Urdu, collectively referred to as UrduBench, and conduct a comprehensive evaluation of both reasoning-oriented and instruction-tuned LLMs across multiple prompting strategies. Our analysis reveals performance differences across (1) four datasets, (2) five task difficulty levels, (3) diverse model architectures, (4) multiple model scaling settings, and (5) language consistency tests. We find that multi-step and symbolic reasoning tasks pose significant challenges in Urdu, and that stable language alignment is a critical prerequisite for robust reasoning. Overall, our work establishes a scalable methodology for standardized reasoning evaluation in Urdu and provides empirical insights into multilingual reasoning failures. This experimental setup is also broadly applicable to other low-resource languages. The code and datasets will be publicly released.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、強力な推論能力をもたらしたが、標準化されたベンチマークが欠如しているため、低リソース言語でのそのようなモデルの評価は難しいままである。
特に、Urdu推論評価は、機械翻訳の感度と、推論ベンチマークよりも一般的な言語タスクに重点を置いているため、制限されている。
本稿では,複数の翻訳システムを活用し,文脈的・構造的整合性を保ちつつ,Urdu推論ベンチマークを開発するためのコンテキストアンサンブル翻訳フレームワークを提案する。
このフレームワークを用いて、MGSM、MATH-500、CommonSenseQA、OpenBookQAといった広く採用されている推論と質問応答のベンチマークをUrduBenchと総称してUrduに翻訳し、複数のプロンプト戦略にまたがる推論指向LLMと命令指向LLMの両方を包括的に評価する。
分析の結果,(1)4つのデータセット,(2)5つのタスク難易度,(3)多様なモデルアーキテクチャ,(4)複数のモデルスケーリング設定,(5)言語整合性テストにおける性能差が明らかになった。
マルチステップおよびシンボリック推論タスクは、Urduにおいて重要な課題となり、安定した言語アライメントがロバスト推論にとって重要な前提条件であることがわかった。
全体として、我々の研究は、Urduにおける標準化された推論評価のためのスケーラブルな方法論を確立し、多言語推論の失敗に関する実証的な洞察を提供する。
この実験的なセットアップは、他の低リソース言語にも広く適用できる。
コードとデータセットは公開される。
関連論文リスト
- mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - ScholarBench: A Bilingual Benchmark for Abstraction, Comprehension, and Reasoning Evaluation in Academic Contexts [8.181151553582488]
textttScholarBenchは、大規模言語モデル(LLM)の学術的推論能力を評価するためのベンチマークである。
このベンチマークは韓国語で5,031例、英語で5,309例で、o3-miniのような最先端のモデルでさえ、平均評価スコアは0.543点だった。
論文 参考訳(メタデータ) (2025-05-22T11:59:06Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [85.78821098963607]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。
我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - Multilingual European Language Models: Benchmarking Approaches and Challenges [2.413212225810367]
生成型大規模言語モデル(LLM)は、チャットインタラクションによってさまざまなタスクを解決できる。
本稿では、多言語欧州ベンチマークに着目し、現在の評価データセットの利点と限界について分析する。
本稿では,翻訳品質と文化バイアスを高めるための潜在的な解決策について論じる。
論文 参考訳(メタデータ) (2025-02-18T14:32:17Z) - ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian [0.0]
本稿では,ウクライナの標準教育試験システムによる実際の試験課題に基づくZNO-Evalベンチマークを提案する。
それは、異なるドメインと複雑さにわたる推論能力の徹底的な分析への道を開く。
GPT-3.5-Turbo、GPT-4-Turbo、Mistral Large、Claude 3 Opus、Gemini-1.5 Proなど、よく知られた言語モデルの評価。
論文 参考訳(メタデータ) (2025-01-12T04:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。