論文の概要: WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.23219v1
- Date: Sat, 27 Sep 2025 09:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.108076
- Title: WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning
- Title(参考訳): WirelessMathLM:強化学習による無線通信におけるLLMの数学的推論
- Authors: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen,
- Abstract要約: 大規模言語モデル(LLM)は、一般的な数学的推論では優れているが、専門的な技術的数学では破滅的に失敗する。
無線通信では、問題は情報理論的境界の正確な操作を必要とするが、最先端のモデルでさえ有能な性能を達成するのに苦労する。
本稿では、コンパクトモデル(0.5B-7Bパラメータ)がドメイン固有強化学習により、より大きなモデルに適合または超えることを示す。
- 参考スコア(独自算出の注目度): 51.13280433665446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at general mathematical reasoning but fail catastrophically on specialized technical mathematics. In wireless communications, where problems require precise manipulation of information-theoretic bounds, optimization constraints, and signal processing formulations, even state-of-the-art models struggle to achieve competent performance. We present WirelessMathLM, demonstrating that compact models (0.5B-7B parameters) can match or exceed much larger models through domain-specific reinforcement learning with verifiable rewards. Our key insight is that wireless mathematics problems possess a unique property--verifiable correctness--that enables effective reinforcement learning without human feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027 problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with binary verification rewards, we train models directly from base checkpoints without supervised warm-start. Our 7B model achieves 39.5% accuracy on WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B +81%), with positive transfer to general mathematics benchmarks--our models gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and AIME without any training on these tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的な数学的推論では優れているが、専門的な技術的数学では破滅的に失敗する。
無線通信では、情報理論的境界、最適化の制約、信号処理の定式化といった問題を正確に操作する必要があるが、最先端のモデルでさえ、有能な性能を達成するのに苦労している。
本稿では,コンパクトモデル(0.5B-7Bパラメータ)がドメイン固有強化学習と検証可能な報酬によって,はるかに大きなモデルに一致するか,あるいは超えられることを示す。
我々の重要な洞察は、ワイヤレス数学の問題は、人間のフィードバックなしに効果的な強化学習を可能にする、独特な性質、検証可能な正しさを持っているということである。
我々は970論文から4,027件の総合的なベンチマークである WirelessMathBench-XL を構築した。
グループ相対政策最適化 (GRPO) とバイナリ検証報酬を用いて, 温暖化開始を監督せずに, ベースチェックポイントから直接モデルを訓練する。
我々の 7B モデルは WirelessMathBench-XL で 39.5% の精度を実現し、GPT-4o (40.4%) に近づき、DeepSeek-R1 (671B, 57.4%) の約100倍のパラメータを使用した。
GRPOトレーニングはすべてのモデルスケール(0.5B +11%, 3B + 103%, 7B + 81%)のパフォーマンスをほぼ2倍にし、一般的な数学のベンチマークに積極的に移行した。
関連論文リスト
- WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications [39.029769739081495]
WirelessMathBenchは,Large Language Models (LLMs) を評価するために設計された,新しいベンチマークである。
私たちのベンチマークは、40の最先端の研究論文から得られた、587の厳密にキュレートされた質問で構成されています。
ベンチマークで最高のパフォーマーであるDeepSeek-R1でさえ、平均精度は38.05%に過ぎず、完全な方程式の完成率は7.83%である。
論文 参考訳(メタデータ) (2025-05-20T13:38:10Z) - UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。
これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。
最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文 参考訳(メタデータ) (2023-09-11T17:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。