論文の概要: Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning
- arxiv url: http://arxiv.org/abs/2507.05418v1
- Date: Mon, 07 Jul 2025 19:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.311856
- Title: Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning
- Title(参考訳): グローバルに学ぶ, ローカルに語る: 多言語推論におけるギャップのブリッジ
- Authors: Jaedong Hwang, Kumar Tanmay, Seok-Jin Lee, Ayush Agrawal, Hamid Palangi, Kumar Ayush, Ila Fiete, Paul Pu Liang,
- Abstract要約: ジオファクトX(GeoFact-X)は、5つの言語で注釈付き推論トレースを持つ地理ベースの多言語事実推論ベンチマークである。
本稿では,教師付き微調整およびテスト時間強化学習を指導する新しいトレーニング手法BRIDGEを提案する。
その結果,BRIDGEは多言語推論の忠実度を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 38.52080213211765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved strong performance in domains like mathematics, factual QA, and code generation, yet their multilingual reasoning capabilities in these tasks remain underdeveloped. Especially for low-resource languages such as Swahili or Thai, LLMs can often misinterpret prompts or default to reasoning in English. This implicit bias toward high-resource languages undermines factual accuracy, interpretability, and trust. Current multilingual benchmarks focus only on final answers, overlooking whether models actually reason in the target language. To address this gap, we introduce GeoFact-X, a geography-based multilingual factual reasoning benchmark with annotated reasoning traces in five languages: English, Hindi, Japanese, Swahili, and Thai. We further propose BRIDGE, a novel training method that guides supervised fine-tuning and test-time reinforcement learning with a language-consistency reward to align reasoning with the input language. Finally, we develop an automatic evaluation protocol using LLM-as-a-judge to assess answer correctness and the quality and language consistency of reasoning traces, enabling nuanced and scalable analysis beyond surface-level metrics. Our results show that BRIDGE significantly enhances multilingual reasoning fidelity, demonstrating that reasoning-aware multilingual reinforcement learning is crucial for robust cross-lingual generalization. https://jd730.github.io/projects/GeoFact-X_BRIDGE
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学、実数QA、コード生成などの領域で高いパフォーマンスを達成しているが、これらのタスクにおける多言語推論能力はまだ未熟である。
特にスワヒリ語やタイ語のような低リソース言語では、LLMはプロンプトやデフォルトを英語の推論と誤解釈することがある。
この高リソース言語に対する暗黙の偏見は、事実の正確性、解釈可能性、信頼を損なう。
現在の多言語ベンチマークは最終回答のみに焦点を当てており、モデルが実際にターゲット言語で理にかなっているかどうかを見落としている。
このギャップに対処するため、GeoFact-Xという地理ベースの多言語事実推論ベンチマークを5つの言語(英語、ヒンディー語、日本語、スワヒリ語、タイ語)で導入した。
さらに,教師付き微調整およびテスト時間強化学習を言語に一貫性のある報酬で指導し,推論を入力言語と整合させる新たな学習手法BRIDGEを提案する。
最後に, LLM-as-a-judge を用いた自動評価プロトコルを開発し, 応答の正しさと推論トレースの品質と言語整合性を評価する。
以上の結果から,BRIDGEは多言語推論の忠実度を著しく向上させ,多言語多言語強化学習が頑健な言語間一般化に不可欠であることが示唆された。
https://jd730.github.io/projects/GeoFact-X_BRIDGE
関連論文リスト
- MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。
我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。
我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-04-02T16:58:36Z) - The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.399229357408043]
多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。
この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-13T16:25:16Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。