論文の概要: Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models
- arxiv url: http://arxiv.org/abs/2403.02178v1
- Date: Mon, 4 Mar 2024 16:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:06:34.424191
- Title: Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models
- Title(参考訳): マスキング思考: 部分的推論ステップをマスキングするだけで言語モデルの数学的推論学習を改善する
- Authors: Changyu Chen, Xiting Wang, Ting-En Lin, Ang Lv, Yuchuan Wu, Xin Gao,
Ji-Rong Wen, Rui Yan and Yongbin Li
- Abstract要約: 推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
- 参考スコア(独自算出の注目度): 106.59263704052206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reasoning tasks, even a minor error can cascade into inaccurate results,
leading to suboptimal performance of large language models in such domains.
Earlier fine-tuning approaches sought to mitigate this by leveraging more
precise supervisory signals from human labeling, larger models, or
self-sampling, although at a high cost. Conversely, we develop a method that
avoids external resources, relying instead on introducing perturbations to the
input. Our training approach randomly masks certain tokens within the chain of
thought, a technique we found to be particularly effective for reasoning tasks.
When applied to fine-tuning with GSM8K, this method achieved a 5% improvement
in accuracy over standard supervised fine-tuning with a few codes modified and
no additional labeling effort. Furthermore, it is complementary to existing
methods. When integrated with related data augmentation methods, it leads to an
average improvement of 3% improvement in GSM8K accuracy and 1% improvement in
MATH accuracy across five datasets of various quality and size, as well as two
base models. We further investigate the mechanisms behind this improvement
through case studies and quantitative analysis, suggesting that our approach
may provide superior support for the model in capturing long-distance
dependencies, especially those related to questions. This enhancement could
deepen understanding of premises in questions and prior steps. Our code is
available at Github.
- Abstract(参考訳): 推論タスクでは、小さなエラーでさえ不正確な結果にカスケードし、そのようなドメインにおける大規模言語モデルの最適性能を低下させる。
初期の微調整アプローチでは、高コストではあるものの、人間のラベル付け、より大きなモデル、あるいは自己サンプリングからのより正確な監視信号を活用することで、これを緩和しようとした。
逆に、外部リソースを回避し、代わりに入力に摂動を導入する方法を開発した。
私たちのトレーニングアプローチでは、思考連鎖内の特定のトークンをランダムにマスクしています。
GSM8Kで微調整を施すと、標準的な教師付き微調整よりも5%精度が向上し、わずかなコード修正と追加のラベル付けは行わなかった。
また、既存の方法と相補的である。
関連するデータ拡張手法と統合すると、GSM8Kの精度が平均3%向上し、さまざまな品質とサイズを持つ5つのデータセットと2つのベースモデルでMATHの精度が1%向上する。
さらに, ケーススタディと定量的分析により, この改善の背景にあるメカニズムを解明し, 長距離依存, 特に質問に関するモデルに対する優れたサポートを提供する可能性が示唆された。
この強化は、質問や事前ステップにおける前提の理解を深める可能性がある。
私たちのコードはGithubで入手可能です。
関連論文リスト
- Multi-step Problem Solving Through a Verifier: An Empirical Analysis on
Model-induced Process Supervision [43.03988648915096]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - Blending gradient boosted trees and neural networks for point and
probabilistic forecasting of hierarchical time series [0.0]
本稿では、勾配木やニューラルネットワークファミリーに属する機械学習モデルのブレンディング手法について述べる。
これらの原則は、最近のM5コンペティションにおいて、正確性と不確実性の両方のトラックでうまく適用された。
論文 参考訳(メタデータ) (2023-10-19T09:42:02Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Convolutional Ensembling based Few-Shot Defect Detection Technique [0.0]
我々は,複数の事前学習された畳み込みモデルの知識ベースを用いる,複数ショット分類に対する新しいアプローチを提案する。
本フレームワークでは,パラメータの総数を劇的に削減しつつ,精度を高めるために,新しいアンサンブル手法を用いている。
論文 参考訳(メタデータ) (2022-08-05T17:29:14Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。