Fugu-MT 論文翻訳(概要): Training Verifiers to Solve Math Word Problems

論文の概要: Training Verifiers to Solve Math Word Problems

arxiv url: http://arxiv.org/abs/2110.14168v1
Date: Wed, 27 Oct 2021 04:49:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-28 12:52:45.447606
Title: Training Verifiers to Solve Math Word Problems
Title（参考訳）: 数学語問題を解くための検証器の訓練
Authors: Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman
Abstract要約: GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。最大のトランスモデルでさえ高いテスト性能を達成できないことがわかった。性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
参考スコア（独自算出の注目度）: 12.307284507186342
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State-of-the-art language models can match human performance on many tasks, but they still struggle to robustly perform multi-step mathematical reasoning. To diagnose the failures of current models and support research, we introduce GSM8K, a dataset of 8.5K high quality linguistically diverse grade school math word problems. We find that even the largest transformer models fail to achieve high test performance, despite the conceptual simplicity of this problem distribution. To increase performance, we propose training verifiers to judge the correctness of model completions. At test time, we generate many candidate solutions and select the one ranked highest by the verifier. We demonstrate that verification significantly improves performance on GSM8K, and we provide strong empirical evidence that verification scales more effectively with increased data than a finetuning baseline.
Abstract（参考訳）: 最先端の言語モデルは、多くのタスクで人間のパフォーマンスにマッチするが、複数のステップの数学的推論を堅牢に実行するのに苦労している。現状のモデルの故障の診断と研究支援を目的として,8.5Kの高品質言語学的に多様な小学校数学語問題からなるデータセットGSM8Kを紹介した。問題分散の概念的単純さにもかかわらず、最大のトランスフォーマーモデルでさえ高いテスト性能を達成できないことがわかった。性能向上のために,モデル補完の正しさを判定するトレーニング検証器を提案する。テスト時には、多くの候補ソリューションを生成し、検証者によって最もランクの高いものを選択する。検証によってgsm8kの性能が大幅に向上することを示すとともに,精度の高いベースラインよりもデータ量の増加による検証が効果的であることを示す。

関連論文リスト

Teaching Large Language Models to Reason through Learning and Forgetting [23.384882158333156]
大規模言語モデルにおける推論時間探索の活用は、複雑な数学的および推論問題を解くための訓練されたモデルの能力をさらに強化するために有効であることが証明されている。このアプローチは計算コストと推論時間を大幅に向上させる。本稿では,検索機能を直接モデルに組み込むための効果的な手法を提案する。
論文参考訳（メタデータ） (2025-04-15T16:30:02Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文参考訳（メタデータ） (2025-03-31T23:40:28Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Lean-ing on Quality: How High-Quality Data Beats Diverse Multilingual Data in AutoFormalization [1.204553980682492]
本稿では,言語モデルの数学的能力を高めるために,手書きのプロンプトを用いた逆翻訳を利用する新しい手法を提案する。提案手法は,広範囲な多言語データセットを用いた微調整性能を上回ることを示す。まとめると、我々の手法は、形式化に必要なリソースを大幅に削減し、数学のためのAIを加速する、有望な新しいアプローチを示す。
論文参考訳（メタデータ） (2025-02-18T19:16:54Z)
Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-08T04:39:51Z)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳（メタデータ） (2024-11-17T12:31:04Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Concept Distillation from Strong to Weak Models via Hypotheses-to-Theories Prompting [7.146498833443095]
概念蒸留(CD)は、複雑なタスクにおいてより弱いモデルを強化するための自動プロンプト最適化手法である。 CDは、(1)ベースプロンプト(初期化)による弱いモデルによるミスの収集、(2)強いモデルを使用してこれらのミスの原因を生成し、弱いモデル(推論)のためのルール/概念を作成し、(3)検証セットのパフォーマンスに基づいてこれらのルールをフィルタリングする。我々はNL2Codeと数学的推論タスクにおけるCDの評価を行い、より小型で弱い言語モデルに対する顕著な性能向上を観察した。
論文参考訳（メタデータ） (2024-08-18T05:37:48Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文参考訳（メタデータ） (2024-06-04T07:43:33Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文参考訳（メタデータ） (2023-05-31T17:24:00Z)
WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文参考訳（メタデータ） (2022-12-20T08:04:36Z)
Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2021-05-06T14:12:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。