論文の概要: Demystifying Multilingual Chain-of-Thought in Process Reward Modeling
- arxiv url: http://arxiv.org/abs/2502.12663v1
- Date: Tue, 18 Feb 2025 09:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:55.820266
- Title: Demystifying Multilingual Chain-of-Thought in Process Reward Modeling
- Title(参考訳): プロセス・リワード・モデリングにおける多言語連鎖のデミスティフィケーション
- Authors: Weixuan Wang, Minghao Wu, Barry Haddow, Alexandra Birch,
- Abstract要約: プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
- 参考スコア(独自算出の注目度): 71.12193680015622
- License:
- Abstract: Large language models (LLMs) are designed to perform a wide range of tasks. To improve their ability to solve complex problems requiring multi-step reasoning, recent research leverages process reward modeling to provide fine-grained feedback at each step of the reasoning process for reinforcement learning (RL), but it predominantly focuses on English. In this paper, we tackle the critical challenge of extending process reward models (PRMs) to multilingual settings. To achieve this, we train multilingual PRMs on a dataset spanning seven languages, which is translated from English. Through comprehensive evaluations on two widely used reasoning benchmarks across 11 languages, we demonstrate that multilingual PRMs not only improve average accuracy but also reduce early-stage reasoning errors. Furthermore, our results highlight the sensitivity of multilingual PRMs to both the number of training languages and the volume of English data, while also uncovering the benefits arising from more candidate responses and trainable parameters. This work opens promising avenues for robust multilingual applications in complex, multi-step reasoning tasks. In addition, we release the code to foster research along this line.
- Abstract(参考訳): 大規模言語モデル(LLM)は幅広いタスクを実行するように設計されている。
多段階推論を必要とする複雑な問題を解く能力を改善するために、近年の研究はプロセス報酬モデリングを活用し、強化学習のための推論プロセス(RL)の各ステップできめ細かいフィードバックを提供するが、主に英語に焦点を当てている。
本稿では,プロセス報酬モデル(PRM)を多言語設定に拡張する上で重要な課題に取り組む。
これを実現するために、英語から翻訳された7つの言語にまたがるデータセット上で多言語PRMを訓練する。
11言語にまたがる2つの広く使われている推論ベンチマークの総合的な評価を通じて、多言語PRMは平均精度を向上するだけでなく、早期の推論誤差も低減することを示した。
さらに、学習言語数と英語データの量の両方に対する多言語PRMの感度を強調し、さらに、より多くの候補応答とトレーニング可能なパラメータから生じる利点を明らかにした。
この作業は、複雑な多段階推論タスクにおける堅牢な多言語アプリケーションのための有望な道を開く。
さらに、この線に沿って研究を促進するためのコードもリリースしています。
関連論文リスト
- AdaCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Chain-of-Thought [19.692743208974296]
我々は多言語推論を強化するフレームワークであるAdaCoT(Adaptive Chain-of-Thought)を紹介する。
AdaCoTは、ターゲット言語応答を生成する前に、中間的な"思考言語"を通して思考プロセスを動的にルーティングする。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - Bactrainus: Optimizing Large Language Models for Multi-hop Complex Question Answering Tasks [5.439505575097552]
本研究では,HotpotQAデータセットを用いて,大規模言語モデルのドメイン固有タスク実行能力を評価する。
このタスクは、これらのモデルの言語理解能力を評価するための挑戦的なベンチマークとなる。
その結果,これらの手法と大規模言語モデルを統合することで,F1スコアの最大4%の改善が期待できることがわかった。
論文 参考訳(メタデータ) (2025-01-10T18:44:06Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Eliciting Better Multilingual Structured Reasoning from LLMs through Code [17.870002864331322]
我々は6言語にまたがる4つのタスクを網羅する,xSTREETと呼ばれる多言語構造推論と説明データセットを提案する。
xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。
このギャップを緩和する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-03-05T00:48:56Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。