論文の概要: A self-evolving multi-role collaborative framework with fine-grained difficulty guidance for innovative mathematical problem generation
- arxiv url: http://arxiv.org/abs/2601.11792v1
- Date: Fri, 16 Jan 2026 21:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.32645
- Title: A self-evolving multi-role collaborative framework with fine-grained difficulty guidance for innovative mathematical problem generation
- Title(参考訳): 革新的数学的問題生成のためのきめ細かい難易度ガイダンスを用いた自己進化型マルチロール協調フレームワーク
- Authors: Yifei Sun, Yongan Li, A. K. Qin, Sicheng Hou, Tamas Pflanzner,
- Abstract要約: 我々は革新的数学問題生成(IMPG)の課題を提案する。
本稿では,細かな難易度ガイダンスを備えた自己進化型マルチロール協調型フレームワークを提案する。
実験の結果,提案手法はベースラインモデルと比較して,生成した問題の革新性を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 3.4082981066509928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical problem generation (MPG) is a significant research direction in the field of intelligent education. In recent years, the rapid development of large language models (LLMs) has enabled new technological approaches to problem-generation tasks. Although existing LLMs can achieve high correctness rates, they generally lack innovation and exhibit poor discrimination. In this paper, we propose the task of innovative math problem generation (IMPG). To solve the IMPG task, this paper proposes a self-evolving, multi-role collaborative framework with fine-grained difficulty guidance. First, a multi-role collaborative mechanism comprising a sampler, generator, evaluator, state machine, and memory is constructed, ensuring the correctness of generated problems through iterative optimization informed by self-assessment and external feedback. Second, we introduce an improved difficulty model to quantify difficulty and provide fine-grained guidance. We adopt the data-driven association-guided path sampling (DAPS) algorithm to enhance the semantic rationality of sampled encodings. Third, we construct the HSM3K-CN dataset, which comprises high-quality high school math problems. A multi-stage training pipeline is adopted, incorporating continual pre-training (CPT), supervised fine-tuning (SFT), and group relative policy optimization (GRPO), to enhance the generation and evaluation capabilities of the base model. Finally, system self-evolution is achieved by transferring evaluation capabilities from the expert model to the apprentice model via distillation. Experiments show that, compared to baseline models, our proposed method significantly improves the innovation of the generated problems while maintaining a high correctness rate.
- Abstract(参考訳): 数学的問題生成(MPG)は知的教育の分野で重要な研究方向である。
近年,大規模言語モデル (LLM) の急速な発展により,問題生成タスクに対する新たな技術アプローチが実現されている。
既存のLSMは高い正当性を達成できるが、一般的にはイノベーションが欠如し、差別が不十分である。
本稿では,革新的数学問題生成(IMPG)の課題を提案する。
IMPG課題を解決するために,難易度をきめ細かなガイダンス付き自己進化型マルチロール協調フレームワークを提案する。
まず、サンプリング装置、ジェネレータ、評価装置、状態マシン、メモリからなる複数ロール協調機構を構築し、自己評価及び外部フィードバックによって情報を得る反復最適化により、発生した問題の正しさを確保する。
第2に,難易度を定量化し,詳細なガイダンスを提供するために,改良された難易度モデルを導入する。
我々は,データ駆動型アソシエーション誘導経路サンプリング(DAPS)アルゴリズムを採用し,サンプル符号化の意味論的合理性を高める。
第3に,高品質な高校数学問題を含むHSM3K-CNデータセットを構築した。
連続事前学習(CPT)、教師付き微調整(SFT)、グループ相対政策最適化(GRPO)を取り入れた多段階訓練パイプラインを採用し、ベースモデルの生成と評価能力を向上させる。
最後に、システム自己進化は、蒸留を通して専門家モデルから見習いモデルに評価能力を移すことによって達成される。
実験の結果,提案手法はベースラインモデルと比較して,高い精度を維持しつつ,生成した問題の革新性を著しく向上させることがわかった。
関連論文リスト
- Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models [54.29243291958429]
本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。
我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。
本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
論文 参考訳(メタデータ) (2025-11-13T03:08:51Z) - A Survey on Generative Recommendation: Data, Model, and Tasks [55.36322811257545]
ジェネレーティブ・レコメンデーションは、差別的なスコアではなく、世代としてのレコメンデーションを再認識する。
この調査は、データ、モデル、タスク次元にまたがる統合された三部構成のフレームワークを通じて包括的な調査を提供する。
世界知識の統合、自然言語理解、推論能力、スケーリング法則、創造的生成の5つの主要な利点を特定します。
論文 参考訳(メタデータ) (2025-10-31T04:02:58Z) - Experience-Guided Reflective Co-Evolution of Prompts and Heuristics for Automatic Algorithm Design [124.54166764570972]
組合せ最適化問題は伝統的に手作りのアルゴリズムで取り組まれている。
最近の進歩は、大規模言語モデルによる自動設計の可能性を強調している。
本稿では,自動アルゴリズム設計のためのPmpt and Heuristics (EvoPH) を用いた経験進化的リフレクティブ・ガイドを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:24:09Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models [17.673293240849787]
我々は、小言語モデル(SLM)における推論を強化する自己進化型データ生成パイプラインSPHEREを紹介する。
SPHEREは、 (i) 自己生成(Self-Generation)、 (ii) 自己補正(Self-Correction)、 (iii) 多様性誘導(diversity induction)、そして、複数の有効な推論軌道を通じて堅牢性を改善する。
本研究では,SPHERE学習モデルがベースバージョンよりも大幅に向上し,特定のベンチマークでGPT-4oにマッチすることを示す。
論文 参考訳(メタデータ) (2025-03-04T14:43:25Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。