論文の概要: RIDE: Difficulty Evolving Perturbation with Item Response Theory for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2511.04120v1
- Date: Thu, 06 Nov 2025 07:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.340217
- Title: RIDE: Difficulty Evolving Perturbation with Item Response Theory for Mathematical Reasoning
- Title(参考訳): RIDE:数学的推論のための項目応答理論を用いた摂動の難しさ
- Authors: Xinyuan Li, Murong Xu, Wenbiao Tao, Hanlun Zhu, Yike Zhao, Jipeng Zhang, Yunshi Lan,
- Abstract要約: 大規模言語モデル (LLM) は数学的推論において高い性能を達成する。
現在の規則に基づく摂動法は、しばしば不適切な質問を発生させる。
本稿では,新しい逆問題書き換えフレームワーク RIDE を提案する。
- 参考スコア(独自算出の注目度): 26.91583214616048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve high performance on mathematical reasoning, but these results can be inflated by training data leakage or superficial pattern matching rather than genuine reasoning. To this end, an adversarial perturbation-based evaluation is needed to measure true mathematical reasoning ability. Current rule-based perturbation methods often generate ill-posed questions and impede the systematic evaluation of question difficulty and the evolution of benchmarks. To bridge this gap, we propose RIDE, a novel adversarial question-rewriting framework that leverages Item Response Theory (IRT) to rigorously measure question difficulty and to generate intrinsically more challenging, well-posed variations of mathematical problems. We employ 35 LLMs to simulate students and build a difficulty ranker from their responses. This ranker provides a reward signal during reinforcement learning and guides a question-rewriting model to reformulate existing questions across difficulty levels. Applying RIDE to competition-level mathematical benchmarks yields perturbed versions that degrade advanced LLM performance, with experiments showing an average 21.73% drop across 26 models, thereby exposing limited robustness in mathematical reasoning and confirming the validity of our evaluation approach.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論において高い性能を達成するが、これらの結果は真の推論ではなく、データ漏洩や表面パターンマッチングの訓練によって膨らませることができる。
この目的のためには、真の数学的推論能力を測定するために、逆摂動に基づく評価が必要である。
現在の規則に基づく摂動法は、しばしば不適切な質問を発生させ、問題の難しさとベンチマークの進化の体系的な評価を妨げる。
このギャップを埋めるため,本論文では,項目応答理論(IRT)を利用して質問の難易度を厳格に測定し,本質的により困難で適切な数学的問題を生成するための,新たな逆問題書き換えフレームワーク RIDE を提案する。
学生をシミュレートし,回答から難易度ランク付けを行うために35個のLLMを使用している。
このランク付け器は、強化学習中に報酬信号を提供し、難易度にまたがる既存の質問を書き換えるための質問書作成モデルを導出する。
RIDEを競合レベルの数学ベンチマークに適用すると、高度なLLM性能を低下させる摂動バージョンが得られ、26モデルで平均21.73%の低下を示し、数学的推論において限られたロバスト性を示し、評価手法の有効性を確認することができる。
関連論文リスト
- EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing [45.89558878854675]
EvolMathEvalは、進化テストに基づく自動数学的ベンチマーク生成と進化のフレームワークである。
連続的な自己イテレーションによって大量の高次問題を生成することができる。
また、進化を通じてGSM8Kのような公開データセットの複雑さを著しく向上させ、モデルの精度を平均48%削減する。
論文 参考訳(メタデータ) (2025-08-18T15:24:10Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。