論文の概要: Understand, Solve and Translate: Bridging the Multilingual Mathematical Reasoning Gap
- arxiv url: http://arxiv.org/abs/2501.02448v2
- Date: Fri, 31 Jan 2025 07:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:13.669765
- Title: Understand, Solve and Translate: Bridging the Multilingual Mathematical Reasoning Gap
- Title(参考訳): 理解・解決・翻訳:多言語数学的推論ギャップのブリッジ化
- Authors: Hyunwoo Ko, Guijin Son, Dasol Choi,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて例外的な性能を示す。
高リソース言語では強い推論能力があるが、他の言語では大きなパフォーマンスギャップが持続する。
提案するUST(Understand, Solve, and Translate)は,推論と解生成のためのアンカーとして英語を戦略的に利用する手法である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) demonstrate exceptional performance on complex reasoning tasks. However, despite their strong reasoning capabilities in high-resource languages (e.g., English and Chinese), a significant performance gap persists in other languages. To investigate this gap in Korean, we introduce HRM8K, a benchmark comprising 8,011 English-Korean parallel bilingual math problems. Through systematic analysis of model behaviors, we identify a key finding: these performance disparities stem primarily from difficulties in comprehending non-English inputs, rather than limitations in reasoning capabilities. Based on these findings, we propose UST (Understand, Solve, and Translate), a method that strategically uses English as an anchor for reasoning and solution generation. By fine-tuning the model on 130k synthetically generated data points, UST achieves a 10.91% improvement on the HRM8K benchmark and reduces the multilingual performance gap from 11.6% to 0.7%. Additionally, we show that improvements from UST generalize effectively to different Korean domains, demonstrating that capabilities acquired from machine-verifiable content can be generalized to other areas. We publicly release the benchmark, training dataset, and models.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて例外的な性能を示す。
しかし、高ソース言語(例えば、英語、中国語)では強力な推論能力があるにもかかわらず、他の言語では大きなパフォーマンスギャップが持続する。
韓国におけるこのギャップを解明するために,8,011の英韓並列二言語数学問題からなるベンチマークであるHRM8Kを紹介する。
これらの性能格差は主に、推論能力の制限ではなく、非英語入力の理解の困難に起因する。
そこで本研究では,UST (Understand, Solve, and Translate) という,推論と解生成のためのアンカーとして英語を戦略的に利用する手法を提案する。
130kの合成データポイントでモデルを微調整することで、USTはHRM8Kベンチマークで10.91%の改善を実現し、多言語のパフォーマンスギャップを11.6%から0.7%に削減した。
さらに,USTによる改善が韓国の異なる領域に効果的に一般化できることを示し,機械検証コンテンツから得られる能力を他の領域に一般化できることを示す。
ベンチマーク、トレーニングデータセット、モデルを公開しています。
関連論文リスト
- Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - Multi-Step Reasoning in Korean and the Emergent Mirage [0.0]
HRMCR(HAE-RAE Multi-Step Commonsense Reasoning)は,文化的に特定の文脈で多段階推論を行う大規模言語モデルの能力を評価するためのベンチマークである。
質問はテンプレートやアルゴリズムを通じて自動的に生成され、韓国の文化知識をシーケンシャルな推論ステップに統合する必要がある。
実験の結果, (2 cdot 1025) 未満の FLOP のトレーニングモデルでは, ほぼゼロに近い性能を示しながら, 問題の解決に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-01-10T05:07:27Z) - SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。
実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文 参考訳(メタデータ) (2025-01-07T10:29:43Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。