論文の概要: Best-of-L: Cross-Lingual Reward Modeling for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2509.15811v1
- Date: Fri, 19 Sep 2025 09:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.111168
- Title: Best-of-L: Cross-Lingual Reward Modeling for Mathematical Reasoning
- Title(参考訳): 数学的推論のためのBest-of-L:クロスリンガル・リワードモデリング
- Authors: Sara Rajaee, Rochelle Choenni, Ekaterina Shutova, Christof Monz,
- Abstract要約: 我々は、言語間で与えられた質問に対して生成された応答をランク付けするために報酬モデルを訓練する。
この結果から,言語間報酬モデルにより数学的推論性能が大幅に向上することが示唆された。
多様な言語の相補的強みを活用して多言語推論を改善する新たな機会を明らかにする。
- 参考スコア(独自算出の注目度): 32.924257962911575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the reasoning abilities of large language models (LLMs) continue to advance, it remains unclear how such ability varies across languages in multilingual LLMs and whether different languages produce reasoning paths that complement each other. To investigate this question, we train a reward model to rank generated responses for a given question across languages. Our results show that our cross-lingual reward model substantially improves mathematical reasoning performance compared to using reward modeling within a single language, benefiting even high-resource languages. While English often exhibits the highest performance in multilingual models, we find that cross-lingual sampling particularly benefits English under low sampling budgets. Our findings reveal new opportunities to improve multilingual reasoning by leveraging the complementary strengths of diverse languages.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は進歩を続けているが、多言語LLMにおける言語間の違いや、異なる言語が相互に補完する推論パスを生成するかどうかは不明である。
そこで本研究では,与えられた質問に対する回答を言語間でランク付けするために,報奨モデルを訓練する。
この結果から,我々の言語間報酬モデルでは,単一言語での報酬モデルを用いた場合に比べて,数学的推論性能が大幅に向上し,高資源言語にもメリットがあることがわかった。
英語は多言語モデルにおいて高い性能を示すことが多いが、特に低サンプリング予算下では、言語横断サンプリングは英語に特に有益である。
多様な言語の相補的強みを活用して多言語推論を改善する新たな機会を明らかにする。
関連論文リスト
- Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.399229357408043]
多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。
この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-13T16:25:16Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - LOLA -- An Open-Source Massively Multilingual Large Language Model [1.5704590739448838]
LOLAは160以上の言語で訓練された多言語大言語モデルである。
私たちのアーキテクチャと実装の選択は、言語多様性を活用するという課題に対処します。
学習したエキスパート・ルーティング機構は、暗黙の系統パターンを利用して、多言語性の呪いを和らげる可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-17T15:23:08Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。