論文の概要: MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs
- arxiv url: http://arxiv.org/abs/2507.17476v1
- Date: Wed, 23 Jul 2025 12:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.996932
- Title: MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs
- Title(参考訳): MultiNRC: LLMの多言語推論評価ベンチマーク
- Authors: Alexander R. Fabbri, Diego Mares, Jorge Flores, Meher Mankikar, Ernesto Hernandez, Dean Lee, Bing Liu, Chen Xing,
- Abstract要約: 大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。
MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。
文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
- 参考スコア(独自算出の注目度): 56.87573414161703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although recent Large Language Models (LLMs) have shown rapid improvement on reasoning benchmarks in English, the evaluation of such LLMs' multilingual reasoning capability across diverse languages and cultural contexts remains limited. Existing multilingual reasoning benchmarks are typically constructed by translating existing English reasoning benchmarks, biasing these benchmarks towards reasoning problems with context in English language/cultures. In this work, we introduce the Multilingual Native Reasoning Challenge (MultiNRC), a benchmark designed to assess LLMs on more than 1,000 native, linguistic and culturally grounded reasoning questions written by native speakers in French, Spanish, and Chinese. MultiNRC covers four core reasoning categories: language-specific linguistic reasoning, wordplay & riddles, cultural/tradition reasoning, and math reasoning with cultural relevance. For cultural/tradition reasoning and math reasoning with cultural relevance, we also provide English equivalent translations of the multilingual questions by manual translation from native speakers fluent in English. This set of English equivalents can provide a direct comparison of LLM reasoning capacity in other languages vs. English on the same reasoning questions. We systematically evaluate current 14 leading LLMs covering most LLM families on MultiNRC and its English equivalent set. The results show that (1) current LLMs are still not good at native multilingual reasoning, with none scoring above 50% on MultiNRC; (2) LLMs exhibit distinct strengths and weaknesses in handling linguistic, cultural, and logical reasoning tasks; (3) Most models perform substantially better in math reasoning in English compared to in original languages (+10%), indicating persistent challenges with culturally grounded knowledge.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) は、英語の推論基準を急速に改善したものの、様々な言語や文化的文脈にまたがる多言語推論能力の評価は依然として限られている。
既存の多言語推論ベンチマークは通常、既存の英語推論ベンチマークを翻訳することで構築され、これらのベンチマークは英語や文化における文脈に関する推論問題に偏っている。
本研究では,フランス語,スペイン語,中国語の母語話者による質問に対する,1,000以上の母語的,言語的,文化的な根拠に基づく理性評価のためのベンチマークであるMultiNRC(MultiNRC)を紹介する。
MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。
文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
この英語の同値集合は、他の言語におけるLLM推論能力と同一の推論質問における英語との直接比較を提供することができる。
本稿は,MultiNRCとその英語等価セット上で,LLMファミリーの大部分をカバーする14のLLMを体系的に評価する。
その結果,(1)現在のLLMは母国語の多言語推論が苦手であり,50%以上の得点は得られていないこと,(2)言語,文化,論理的推論のタスクに対処する上での長所と短所を示すこと,(3)原語(+10%)に比べて英語の数学推論において顕著に優れており,文化的根拠のある知識の持続的課題を示していること,などが示唆された。
関連論文リスト
- Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [38.52080213211765]
ジオファクトX(GeoFact-X)は、5つの言語で注釈付き推論トレースを持つ地理ベースの多言語事実推論ベンチマークである。
本稿では,教師付き微調整およびテスト時間強化学習を指導する新しいトレーニング手法BRIDGEを提案する。
その結果,BRIDGEは多言語推論の忠実度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - XToM: Exploring the Multilingual Theory of Mind for Large Language Models [57.9821865189077]
LLMにおける既存の心の理論の評価は英語に限られている。
XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。
以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文 参考訳(メタデータ) (2025-06-03T05:23:25Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - Evaluating Large Language Models with Tests of Spanish as a Foreign Language: Pass or Fail? [2.9630910534509924]
本研究は,最近発表された海外学生を対象としたスペイン試験と類似の尺度を用いて,最先端のLCMの性能評価を行った。
その結果,LLMはスペイン語の理解に優れていたが,文法的能力の面では,母語話者のレベルには程遠いことがわかった。
論文 参考訳(メタデータ) (2024-09-08T11:30:03Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、ほとんどは不均衡なトレーニングコーパスのため英語中心である。
実世界のユーザクエリと非英語中心のLLMに評価を拡張し、多言語性能のより広範な評価を提供する。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Breaking the Language Barrier: Improving Cross-Lingual Reasoning with
Structured Self-Attention [18.439771003766026]
多言語言語モデル(MultiLM)が、異なる言語での推論のために微調整された場合、論理的推論能力を他の言語に伝達できるかどうかを検討する。
我々は,MultiLMが言語間の推論能力をモノリンガルな環境で伝達できることを実証した。
この観察に続いて,コードスイッチングシーケンスにおける言語横断的な注意を促すために,専用パラメータセットを用いた新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2023-10-23T18:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。