Fugu-MT 論文翻訳(概要): Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models

論文の概要: Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models

arxiv url: http://arxiv.org/abs/2403.02178v2
Date: Wed, 10 Jul 2024 19:15:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 23:07:33.015764
Title: Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models
Title（参考訳）: Masked Thought:simply Masking partial Reasoning Steps can improves Mathematical Reasoning Learning of Language Models
Authors: Changyu Chen, Xiting Wang, Ting-En Lin, Ang Lv, Yuchuan Wu, Xin Gao, Ji-Rong Wen, Rui Yan, Yongbin Li,
Abstract要約: 推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
参考スコア（独自算出の注目度）: 102.72940700598055
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In reasoning tasks, even a minor error can cascade into inaccurate results, leading to suboptimal performance of large language models in such domains. Earlier fine-tuning approaches sought to mitigate this by leveraging more precise supervisory signals from human labeling, larger models, or self-sampling, although at a high cost. Conversely, we develop a method that avoids external resources, relying instead on introducing perturbations to the input. Our training approach randomly masks certain tokens within the chain of thought, a technique we found to be particularly effective for reasoning tasks. When applied to fine-tuning with GSM8K on Llama-2-7B, this method achieved a 5\% improvement in GSM8K accuracy and a 10\% improvement in GSM-IC accuracy over standard supervised fine-tuning with a few codes modified. Furthermore, it is complementary to existing methods. When integrated with related explicit data augmentation methods, it leads to improvements across five datasets of various augmentation methods, as well as two different base models. We further investigate the mechanisms behind this improvement through case studies and quantitative analysis, suggesting that our approach may provide superior support for the model in capturing long-distance dependencies, especially those related to questions. This enhancement could deepen understanding of the premises in questions and prior steps. Our code is available at Github.
Abstract（参考訳）: 推論タスクでは、マイナーエラーでさえ不正確な結果にカスケードすることができ、そのような領域における大規模言語モデルの最適下性能をもたらす。初期の微調整アプローチでは、高コストではあるものの、人間のラベル付け、より大きなモデル、あるいは自己サンプリングからのより正確な監視信号を活用することで、これを緩和しようとした。逆に、入力に摂動を導入する代わりに、外部リソースを避ける手法を開発する。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。 Llama-2-7B 上の GSM8K による微調整に適用すると、GSM8K の精度は 5 % 向上し、標準教師付き微調整に比べて GSM-IC の精度は 10 % 向上した。さらに、既存の手法を補完するものである。関連する明示的なデータ拡張メソッドと統合すると、さまざまな拡張メソッドの5つのデータセットと2つの異なるベースモデルが改善される。さらに, ケーススタディと定量的分析により, この改善の背景にあるメカニズムを解明し, 長距離依存, 特に質問に関連する要因の把握において, モデルに対する優れたサポートを提供する可能性が示唆された。この強化は、質問や事前ステップにおける前提の理解を深める可能性がある。私たちのコードはGithubで入手可能です。

関連論文リスト

Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-11-29T18:58:22Z)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳（メタデータ） (2024-11-17T12:31:04Z)
Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning [7.702162381335683]
ステップバイステップのChain-of-Thought(CoT)推論は、大規模言語モデル(LLM)の数学的能力を向上させる。モデル微調整を伴わないステップ誘導推論法を提案する。 AMC23データセットの精度は30%から57.5%に向上し,91.7%に向上し,MATHデータセットのレベル5問題では55.8%に向上し,43%から67%に向上した。
論文参考訳（メタデータ） (2024-10-18T01:38:24Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの数学的推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。提案手法により,Falcon2-11B と Mistral-7B の GSM8K と AQuA-RAT の数学的推論ベンチマークの精度が向上する。 ARCベンチマークやシンボリック推論問題など、改良された能力は非数学的なタスクに移行した。
論文参考訳（メタデータ） (2024-06-23T09:51:06Z)
Large-Scale Meta-Learning with Continual Trajectory Shifting [76.29017270864308]
メタリアナーがより多くの内部勾配ステップをとれるようにすることで、ヘテロジニアスタスクや大規模タスクの構造をよりよく把握できることを示す。メタ更新の頻度を増やすために、タスク固有のパラメータの必要なシフトを推定することを提案する。このアルゴリズムは, 一般化性能と収束性の両方において, 先行する一階メタ学習法を大きく上回っていることを示す。
論文参考訳（メタデータ） (2021-02-14T18:36:33Z)
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文参考訳（メタデータ） (2020-04-21T17:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。