論文の概要: DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving
- arxiv url: http://arxiv.org/abs/2407.13690v1
- Date: Tue, 18 Jun 2024 07:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:07:30.748414
- Title: DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving
- Title(参考訳): DART-Math:数学的問題解決のための難易度認識型リジェクションチューニング
- Authors: Yuxuan Tong, Xiwen Zhang, Rui Wang, Ruidong Wu, Junxian He,
- Abstract要約: 本稿では,難解なクエリを合成フェーズに割り当てるDART(Difficulty-Aware Rejection Tuning)を提案する。
DARTは、合成フェーズ中に難しいクエリをより多くのトライアルに割り当て、難しいサンプルのより広範なトレーニングを可能にする。
データセットのさまざまなベースモデルを7Bから70Bまで微調整し、DART-MATHと呼ばれる一連の強力なモデルを作成しました。
- 参考スコア(独自算出の注目度): 15.815363023014248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving mathematical problems requires advanced reasoning abilities and presents notable challenges for large language models. Previous works usually synthesize data from proprietary models to augment existing datasets, followed by instruction tuning to achieve top-tier results. However, our analysis of these datasets reveals severe biases towards easy queries, with frequent failures to generate any correct response for the most challenging queries. Hypothesizing that difficult queries are crucial to learn complex reasoning, we propose Difficulty-Aware Rejection Tuning (DART), a method that allocates difficult queries more trials during the synthesis phase, enabling more extensive training on difficult samples. Utilizing DART, we have created new datasets for mathematical problem-solving that focus more on difficult queries and are substantially smaller than previous ones. Remarkably, our synthesis process solely relies on a 7B-sized open-weight model, without reliance on the commonly used proprietary GPT-4. We fine-tune various base models on our datasets ranging from 7B to 70B in size, resulting in a series of strong models called DART-MATH. In comprehensive in-domain and out-of-domain evaluation on 6 mathematical benchmarks, DART-MATH outperforms vanilla rejection tuning significantly, being superior or comparable to previous arts, despite using much smaller datasets and no proprietary models. Furthermore, our results position our synthetic datasets as the most effective and cost-efficient publicly available resources for advancing mathematical problem-solving.
- Abstract(参考訳): 数学的な問題を解くには高度な推論能力が必要であり、大きな言語モデルに対する顕著な課題を提示している。
従来の作業は通常、プロプライエタリなモデルからデータを合成して既存のデータセットを拡張する。
しかしながら、これらのデータセットの分析により、最も困難なクエリに対して正しいレスポンスを生成するのに頻繁に失敗する、簡単なクエリに対する深刻なバイアスが明らかになる。
難解なクエリは複雑な推論を学習するために重要であると仮定し、難解なクエリを合成フェーズ中により試行的に割り当てるDART(Difficulty-Aware Rejection Tuning)を提案する。
DARTを利用して数学的問題解決のための新しいデータセットを作成しました。
興味深いことに、我々の合成プロセスは7Bサイズのオープンウェイトモデルにのみ依存しており、一般的に使われているプロプライエタリなGPT-4に依存しない。
データセットのさまざまなベースモデルを7Bから70Bまで微調整し、DART-MATHと呼ばれる一連の強力なモデルを作成しました。
DART-MATHは6つの数学ベンチマークの包括的なドメイン内評価とドメイン外評価において、はるかに小さなデータセットを使用し、プロプライエタリなモデルがないにもかかわらず、バニラ拒絶チューニングを大幅に上回っている。
さらに,本研究の結果は,我々の合成データセットを,数学的問題解決を推進するための最も効率的かつ費用効率の高い公開資源と位置づけた。
関連論文リスト
- OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling [9.617742955894247]
高品質な最適化モデリングデータセットの欠如は、大きな言語モデルを悩ませます。
本稿では,OptMATHという高品質なデータセットを合成するためのスケーラブルなフレームワークを提案する。
我々は,OptMATHでトレーニングした様々なサイズのモデルが,複数のモデリングベンチマークにおいて優れた結果が得られることを実証した。
論文 参考訳(メタデータ) (2025-02-16T12:38:37Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Advancing Math Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.377908992869814]
問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。
本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-01-23T12:14:57Z) - OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文 参考訳(メタデータ) (2024-10-02T14:00:09Z) - Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。
これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。
様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (2024-09-27T03:49:56Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。
本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。
本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文 参考訳(メタデータ) (2024-01-12T18:36:29Z) - Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文 参考訳(メタデータ) (2023-11-08T01:27:34Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。