Fugu-MT 論文翻訳(概要): Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models

論文の概要: Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models

arxiv url: http://arxiv.org/abs/2403.02178v1
Date: Mon, 4 Mar 2024 16:21:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 18:06:34.424191
Title: Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models
Title（参考訳）: マスキング思考: 部分的推論ステップをマスキングするだけで言語モデルの数学的推論学習を改善する
Authors: Changyu Chen, Xiting Wang, Ting-En Lin, Ang Lv, Yuchuan Wu, Xin Gao, Ji-Rong Wen, Rui Yan and Yongbin Li
Abstract要約: 推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に代えて,外部リソースを回避する手法を開発した。私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
参考スコア（独自算出の注目度）: 106.59263704052206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In reasoning tasks, even a minor error can cascade into inaccurate results, leading to suboptimal performance of large language models in such domains. Earlier fine-tuning approaches sought to mitigate this by leveraging more precise supervisory signals from human labeling, larger models, or self-sampling, although at a high cost. Conversely, we develop a method that avoids external resources, relying instead on introducing perturbations to the input. Our training approach randomly masks certain tokens within the chain of thought, a technique we found to be particularly effective for reasoning tasks. When applied to fine-tuning with GSM8K, this method achieved a 5% improvement in accuracy over standard supervised fine-tuning with a few codes modified and no additional labeling effort. Furthermore, it is complementary to existing methods. When integrated with related data augmentation methods, it leads to an average improvement of 3% improvement in GSM8K accuracy and 1% improvement in MATH accuracy across five datasets of various quality and size, as well as two base models. We further investigate the mechanisms behind this improvement through case studies and quantitative analysis, suggesting that our approach may provide superior support for the model in capturing long-distance dependencies, especially those related to questions. This enhancement could deepen understanding of premises in questions and prior steps. Our code is available at Github.
Abstract（参考訳）: 推論タスクでは、小さなエラーでさえ不正確な結果にカスケードし、そのようなドメインにおける大規模言語モデルの最適性能を低下させる。初期の微調整アプローチでは、高コストではあるものの、人間のラベル付け、より大きなモデル、あるいは自己サンプリングからのより正確な監視信号を活用することで、これを緩和しようとした。逆に、外部リソースを回避し、代わりに入力に摂動を導入する方法を開発した。私たちのトレーニングアプローチでは、思考連鎖内の特定のトークンをランダムにマスクしています。 GSM8Kで微調整を施すと、標準的な教師付き微調整よりも5%精度が向上し、わずかなコード修正と追加のラベル付けは行わなかった。また、既存の方法と相補的である。関連するデータ拡張手法と統合すると、GSM8Kの精度が平均3%向上し、さまざまな品質とサイズを持つ5つのデータセットと2つのベースモデルでMATHの精度が1%向上する。さらに, ケーススタディと定量的分析により, この改善の背景にあるメカニズムを解明し, 長距離依存, 特に質問に関するモデルに対する優れたサポートを提供する可能性が示唆された。この強化は、質問や事前ステップにおける前提の理解を深める可能性がある。私たちのコードはGithubで入手可能です。

関連論文リスト

Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-11-29T18:58:22Z)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳（メタデータ） (2024-11-17T12:31:04Z)
Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning [7.702162381335683]
ステップバイステップのChain-of-Thought(CoT)推論は、大規模言語モデル(LLM)の数学的能力を向上させる。モデル微調整を伴わないステップ誘導推論法を提案する。 AMC23データセットの精度は30%から57.5%に向上し,91.7%に向上し,MATHデータセットのレベル5問題では55.8%に向上し,43%から67%に向上した。
論文参考訳（メタデータ） (2024-10-18T01:38:24Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの数学的推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。提案手法により,Falcon2-11B と Mistral-7B の GSM8K と AQuA-RAT の数学的推論ベンチマークの精度が向上する。 ARCベンチマークやシンボリック推論問題など、改良された能力は非数学的なタスクに移行した。
論文参考訳（メタデータ） (2024-06-23T09:51:06Z)
Large-Scale Meta-Learning with Continual Trajectory Shifting [76.29017270864308]
メタリアナーがより多くの内部勾配ステップをとれるようにすることで、ヘテロジニアスタスクや大規模タスクの構造をよりよく把握できることを示す。メタ更新の頻度を増やすために、タスク固有のパラメータの必要なシフトを推定することを提案する。このアルゴリズムは, 一般化性能と収束性の両方において, 先行する一階メタ学習法を大きく上回っていることを示す。
論文参考訳（メタデータ） (2021-02-14T18:36:33Z)
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文参考訳（メタデータ） (2020-04-21T17:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。