Fugu-MT 論文翻訳(概要): Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

論文の概要: Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2502.17407v1
Date: Mon, 24 Feb 2025 18:36:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.724221
Title: Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning
Title（参考訳）: 数理推論におけるテスト時間スケーリングの言語的一般化可能性
Authors: Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne,
Abstract要約: 本稿では,55言語における競合レベルの問題を特徴とする多言語数学ベンチマークMCLMを紹介する。テスト時間スケーリングの3つのメソッドをテストします - Outcome Reward Modeling(ORM)、Process Reward Modeling(ORM)、Budget Forcing(BF)です。実験の結果,Qwen2.5-1.5B Math with ORMはMCLMでは35.8,MR1-1.5BではBFは35.2であった。
参考スコア（独自算出の注目度）: 8.73181950200897
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Scaling pre-training compute has proven effective for achieving mulitlinguality, but does the same hold for test-time scaling? In this work, we introduce MCLM, a multilingual math benchmark featuring competition-level problems in 55 languages. We test three test-time scaling methods-Outcome Reward Modeling (ORM), Process Reward Modeling (ORM), and Budget Forcing (BF)-on both Qwen2.5-1.5B Math and MR1-1.5B, a multilingual LLM we trained for extended reasoning. Our experiments show that using Qwen2.5-1.5B Math with ORM achieves a score of 35.8 on MCLM, while BF on MR1-1.5B attains 35.2. Although "thinking LLMs" have recently garnered significant attention, we find that their performance is comparable to traditional scaling methods like best-of-N once constrained to similar levels of inference FLOPs. Moreover, while BF yields a 20-point improvement on English AIME, it provides only a 1.94-point average gain across other languages-a pattern consistent across the other test-time scaling methods we studied-higlighting that test-time scaling may not generalize as effectively to multilingual tasks. To foster further research, we release MCLM, MR1-1.5B, and evaluation results.
Abstract（参考訳）: 事前トレーニングコンピューティングのスケーリングは、多言語性を達成する上で有効であることが証明された。本稿では,55言語における競合レベルの問題を特徴とする多言語数学ベンチマークMCLMを紹介する。我々は、Qwen2.5-1.5B MathとMR1-1.5Bの両方で、ORM(Outcome Reward Modeling)、ORM(Process Reward Modeling)、Budget Forcing(BF)の3つのテストタイムスケーリングメソッドをテストする。実験の結果,Qwen2.5-1.5B Math with ORMはMCLMでは35.8,MR1-1.5BではBFは35.2であった。 LLMの考え方”は近年大きな注目を集めていますが、それらのパフォーマンスは、かつては同様のレベルの推論FLOPに制約されていたベスト・オブ・Nのような従来のスケーリング手法に匹敵するものであることが分かりました。さらに、BFは英語のAIMEを20ポイント改善するが、他の言語で平均1.94ポイントのゲインしか提供していない。さらなる研究を促進するため, MCLM, MR1-1.5B, および評価結果を公表した。

関連論文リスト

e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs [49.01449646799905]
既存の推論モデルでは外挿がうまく行われていないことが示される。レシピ e3 は AIME'25 と HMMT'25 のスコアに基づいて最もよく知られた 1.7B モデルを生成する。 e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
論文参考訳（メタデータ） (2025-06-10T17:52:42Z)
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models [9.674458633565111]
テスト時間スケーリングにおいて,小言語モデル(sLM)がアウトプットを確実に自己検証できるかどうかを検討する。本稿では,コードインタプリタなどの外部ツールに多量の検証ステップを委譲するツール統合自己検証(T1)を提案する。理論解析により,ツール統合は記憶の要求を減らし,テストタイムのスケーリング性能を向上することが示された。
論文参考訳（メタデータ） (2025-04-07T04:01:17Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文参考訳（メタデータ） (2025-02-17T18:43:24Z)
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文参考訳（メタデータ） (2025-02-17T07:21:11Z)
TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。 TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文参考訳（メタデータ） (2025-02-16T16:22:23Z)
s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文参考訳（メタデータ） (2025-01-31T18:48:08Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
Remember what you did so you know what to do next [10.526351131118096]
我々は,初等科学実験のためのテキストゲームシミュレータであるScienceWorldにおいて,シミュレーションロボットが30の目標を達成する計画を立てる。実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが示され、タスクに対する平均化が重大なパフォーマンス上の問題を隠蔽する可能性が示唆された。
論文参考訳（メタデータ） (2023-10-30T19:29:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。