論文の概要: STORM-BORN: A Challenging Mathematical Derivations Dataset Curated via a Human-in-the-Loop Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2506.01531v2
- Date: Tue, 03 Jun 2025 05:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.74284
- Title: STORM-BORN: A Challenging Mathematical Derivations Dataset Curated via a Human-in-the-Loop Multi-Agent Framework
- Title(参考訳): STORM-BORN:Human-in-the-Loop Multi-Agent Frameworkを使って計算した数学的導出データセット
- Authors: Wenhao Liu, Zhenyi Lu, Xinyu Hu, Jierui Zhang, Dailin Li, Jiacheng Cen, Huilin Cao, Haiteng Wang, Yuhan Li, Kun Xie, Dandan Li, Pei Zhang, Chengbo Zhang, Yuxiang Ren, Xiaohong Huang, Yan Ma,
- Abstract要約: STORM-BORN(STORM-BORN)は、最先端の学術論文から得られた数学的導出の超混成データセットである。
2,000種類の合成試料をキュレートし,最も難しい問題100点を意図的に選択した。
STORM-BORNの微調整により精度は7.84%(LLaMA3-8B)と9.12%(Qwen2.5-7B)向上する
- 参考スコア(独自算出の注目度): 25.911928883289512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality math datasets are crucial for advancing the reasoning abilities of large language models (LLMs). However, existing datasets often suffer from three key issues: outdated and insufficient challenging content, neglecting human-like reasoning, and limited reliability due to single-LLM generation. To address these, we introduce STORM-BORN, an ultra-challenging dataset of mathematical derivations sourced from cutting-edge academic papers, which includes dense human-like approximations and heuristic cues. To ensure the reliability and quality, we propose a novel human-in-the-loop, multi-agent data generation framework, integrating reasoning-dense filters, multi-agent collaboration, and human mathematicians' evaluations. We curated a set of 2,000 synthetic samples and deliberately selected the 100 most difficult problems. Even most advanced models like GPT-o1 solved fewer than 5% of them. Fine-tuning on STORM-BORN boosts accuracy by 7.84% (LLaMA3-8B) and 9.12% (Qwen2.5-7B). As AI approaches mathematician-level reasoning, STORM-BORN provides both a high-difficulty benchmark and a human-like reasoning training resource. Our code and dataset are publicly available at https://github.com/lwhere/STORM-BORN.
- Abstract(参考訳): 高品質な数学データセットは、大規模言語モデル(LLM)の推論能力を向上させるために不可欠である。
しかしながら、既存のデータセットは、時代遅れで不十分なコンテンツ、ヒューマンライクな推論を無視し、単一LLM生成による信頼性の制限という、3つの大きな問題に悩まされることが多い。
このような問題に対処するために,我々は,高密度な人間のような近似とヒューリスティックな手がかりを含む,最先端の学術論文から得られた数学的導出の超ヘアリングデータセットSTORM-BORNを紹介した。
信頼性と品質を確保するため,提案する新たなヒューマン・イン・ザ・ループ,マルチエージェント・データ生成フレームワーク,推論・センス・フィルタの統合,マルチエージェント・コラボレーション,人間数学者の評価などを提案する。
2,000種類の合成試料をキュレートし,最も難しい問題100点を意図的に選択した。
GPT-o1のような先進的なモデルでさえ、その5%以下を解決した。
STORM-BORNの微調整により精度は7.84%(LLaMA3-8B)と9.12%(Qwen2.5-7B)向上する。
AIが数学者レベルの推論に近づくにつれ、STORM-BORNは高度なベンチマークと人間のような推論トレーニングリソースを提供する。
私たちのコードとデータセットはhttps://github.com/lwhere/STORM-BORN.orgで公開されています。
関連論文リスト
- Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models [54.29243291958429]
本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。
我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。
本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
論文 参考訳(メタデータ) (2025-11-13T03:08:51Z) - A Comprehensive Dataset for Human vs. AI Generated Text Detection [23.0218614564443]
ニューヨーク・タイムズ紙の記事から58,000件以上のテキストサンプルからなる包括的データセットを提案する。
このデータセットは、オリジナルの記事をプロンプトとして抽象化し、完全な人間による物語を提供する。
AI生成テキストと人書きテキストを区別し、AIテキストを8.92%の精度で生成モデルに関連付けるという2つの重要なタスクのベースライン結果を確立します。
論文 参考訳(メタデータ) (2025-10-26T23:50:52Z) - AgenticMath: Enhancing LLM Reasoning via Agentic-based Math Data Generation [27.20238706824152]
AgenticMathは、高品質な数学的質問応答ペアを生成するための新しいエージェントパイプラインである。
提案手法は,(1)高情報豊かさ,複雑性,明快さの質問を選択できるシード質問フィルタ,(2)多エージェントシステムを用いて多様な論理的一貫したパラフレーズを生成するエージェント質問文生成ステップ,(3)チェーン・オブ・シークレット推論を用いて回答を書き直し,数値的および論理的正当性を高めるアンサー拡張ステップの4段階を通じて機能する。
論文 参考訳(メタデータ) (2025-10-22T08:34:13Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文 参考訳(メタデータ) (2024-10-02T14:00:09Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation [59.77275587857252]
総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-25T17:58:46Z) - Increasing Diversity While Maintaining Accuracy: Text Data Generation
with Large Language Models and Human Interventions [30.464763055981933]
大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためにテキストデータを生成するために用いられる。
LLMベースのテキストデータ生成において,高い多様性と精度を実現するために,人間とAIのパートナーシップを検討する。
論文 参考訳(メタデータ) (2023-06-07T04:27:09Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。