Fugu-MT 論文翻訳(概要): DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving

論文の概要: DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving

arxiv url: http://arxiv.org/abs/2407.13690v2
Date: Mon, 23 Dec 2024 17:32:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.623368
Title: DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving
Title（参考訳）: DART-Math:数学的問題解決のための難易度認識型リジェクションチューニング
Authors: Yuxuan Tong, Xiwen Zhang, Rui Wang, Ruidong Wu, Junxian He,
Abstract要約: 本稿では,難解なクエリを合成フェーズに割り当てるDART(Difficulty-Aware Rejection Tuning)を提案する。 DARTは、合成フェーズ中に難しいクエリをより多くのトライアルに割り当て、難しいサンプルのより広範なトレーニングを可能にする。データセットのさまざまなベースモデルを7Bから70Bまで微調整し、DART-MATHと呼ばれる一連の強力なモデルを作成しました。
参考スコア（独自算出の注目度）: 15.815363023014248
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Solving mathematical problems requires advanced reasoning abilities and presents notable challenges for large language models. Previous works usually synthesize data from proprietary models to augment existing datasets, followed by instruction tuning to achieve top-tier results. However, our analysis of these datasets reveals severe biases towards easy queries, with frequent failures to generate any correct response for the most challenging queries. Hypothesizing that difficult queries are crucial to learn complex reasoning, we propose Difficulty-Aware Rejection Tuning (DART), a method that allocates difficult queries more trials during the synthesis phase, enabling more extensive training on difficult samples. Utilizing DART, we have created new datasets for mathematical problem-solving that focus more on difficult queries and are substantially smaller than previous ones. Remarkably, our synthesis process solely relies on a 7B-sized open-weight model, without reliance on the commonly used proprietary GPT-4. We fine-tune various base models on our datasets ranging from 7B to 70B in size, resulting in a series of strong models called DART-MATH. In comprehensive in-domain and out-of-domain evaluation on 6 mathematical benchmarks, DART-MATH outperforms vanilla rejection tuning significantly, being superior or comparable to previous arts, despite using much smaller datasets and no proprietary models. Furthermore, our results position our synthetic datasets as the most effective and cost-efficient publicly available resources for advancing mathematical problem-solving.
Abstract（参考訳）: 数学的な問題を解くには高度な推論能力が必要であり、大きな言語モデルに対する顕著な課題を提示している。従来の作業は通常、プロプライエタリなモデルからデータを合成して既存のデータセットを拡張する。しかしながら、これらのデータセットの分析により、最も困難なクエリに対して正しいレスポンスを生成するのに頻繁に失敗する、簡単なクエリに対する深刻なバイアスが明らかになる。難解なクエリは複雑な推論を学習するために重要であると仮定し、難解なクエリを合成フェーズ中により試行的に割り当てるDART(Difficulty-Aware Rejection Tuning)を提案する。 DARTを利用して数学的問題解決のための新しいデータセットを作成しました。興味深いことに、我々の合成プロセスは7Bサイズのオープンウェイトモデルにのみ依存しており、一般的に使われているプロプライエタリなGPT-4に依存しない。データセットのさまざまなベースモデルを7Bから70Bまで微調整し、DART-MATHと呼ばれる一連の強力なモデルを作成しました。 DART-MATHは6つの数学ベンチマークの包括的なドメイン内評価とドメイン外評価において、はるかに小さなデータセットを使用し、プロプライエタリなモデルがないにもかかわらず、バニラ拒絶チューニングを大幅に上回っている。さらに,本研究の結果は,我々の合成データセットを,数学的問題解決を推進するための最も効率的かつ費用効率の高い公開資源と位置づけた。

関連論文リスト

Bidirectional Curriculum Generation: A Multi-Agent Framework for Data-Efficient Mathematical Reasoning [16.95900718416944]
各トレーニングサンプルの教育的価値を最大化するために,新しい双方向カリキュラム生成フレームワークを導入する。剛性軌道とは異なり、我々のマルチエージェントエコシステムは適応的な教育を模倣し、閉じたフィードバックループを確立する。このメカニズムは、モデルが任意の段階で最も効果的なデータのみを消費することを保証します。
論文参考訳（メタデータ） (2026-03-05T12:49:21Z)
Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models [54.29243291958429]
本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
論文参考訳（メタデータ） (2025-11-13T03:08:51Z)
QueST: Incentivizing LLMs to Generate Difficult Problems [77.75835742350644]
大規模言語モデルは、推論タスク、競合レベルのコーディングと数学の問題を解く上で、強力なパフォーマンスを達成した。既存の競合するコーディングデータセットには、数千から数万の問題しか含まれていない。本稿では,難解なグラフサンプリングと難解な拒否の微調整を組み合わせた新しいフレームワークであるQueSTを提案する。
論文参考訳（メタデータ） (2025-10-20T16:29:53Z)
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning [51.946959481392064]
大規模推論モデル (LRM) は複雑な問題解決において顕著な能力を示している。難しい問題の生成をスケールするために設計されたパイプラインであるScaleDiffを提案する。我々のパイプラインは、より大きくて高価な教師モデルに頼ることなく、高度な推論能力を効果的に伝達できることを示します。
論文参考訳（メタデータ） (2025-09-25T12:22:44Z)
SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers [13.763623961742391]
textbfSAND-Math (textbfSynthetic textbfAugmented textbfNovel and textbfDifficult Mathematics problem and Solution)は,高品質な問題をゼロから解決するパイプラインである。提案手法の有効性を2つの重要な知見から実証する。
論文参考訳（メタデータ） (2025-07-28T05:17:48Z)
DUSE: A Data Expansion Framework for Low-resource Automatic Modulation Recognition based on Active Learning [17.651073556023167]
動的不確実性駆動型サンプル拡張(DUSE)と呼ばれるデータ拡張フレームワークを導入する。 DUSEは不確実性スコアリング機能を使用して、関連するAMRデータセットから有用なサンプルをフィルタリングする。実験によると、DUSEはクラスバランスとクラスバランスの設定の両方で8コアセット選択ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-07-16T08:09:41Z)
Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling [9.617742955894247]
高品質な最適化モデリングデータセットの欠如は、大きな言語モデルを悩ませます。本稿では,OptMATHという高品質なデータセットを合成するためのスケーラブルなフレームワークを提案する。我々は,OptMATHでトレーニングした様々なサイズのモデルが,複数のモデリングベンチマークにおいて優れた結果が得られることを実証した。
論文参考訳（メタデータ） (2025-02-16T12:38:37Z)
Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.377908992869814]
問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2025-01-23T12:14:57Z)
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問) texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文参考訳（メタデータ） (2024-10-02T14:00:09Z)
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文参考訳（メタデータ） (2024-09-27T03:49:56Z)
InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning [13.728595670907136]
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
論文参考訳（メタデータ） (2024-08-09T08:18:20Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文参考訳（メタデータ） (2024-01-12T18:36:29Z)
Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文参考訳（メタデータ） (2023-11-08T01:27:34Z)
Generalization of Neural Combinatorial Solvers Through the Lens of Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文参考訳（メタデータ） (2021-10-21T07:28:11Z)
On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。 ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文参考訳（メタデータ） (2021-06-02T00:48:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。