論文の概要: WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications
- arxiv url: http://arxiv.org/abs/2505.14354v1
- Date: Tue, 20 May 2025 13:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.265148
- Title: WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications
- Title(参考訳): WirelessMathBench: 無線通信におけるLCMの数学的モデリングベンチマーク
- Authors: Xin Li, Mengbing Liu, Li Wei, Jiancheng An, Mérouane Debbah, Chau Yuen,
- Abstract要約: WirelessMathBenchは,Large Language Models (LLMs) を評価するために設計された,新しいベンチマークである。
私たちのベンチマークは、40の最先端の研究論文から得られた、587の厳密にキュレートされた質問で構成されています。
ベンチマークで最高のパフォーマーであるDeepSeek-R1でさえ、平均精度は38.05%に過ぎず、完全な方程式の完成率は7.83%である。
- 参考スコア(独自算出の注目度): 39.029769739081495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved impressive results across a broad array of tasks, yet their capacity for complex, domain-specific mathematical reasoning-particularly in wireless communications-remains underexplored. In this work, we introduce WirelessMathBench, a novel benchmark specifically designed to evaluate LLMs on mathematical modeling challenges to wireless communications engineering. Our benchmark consists of 587 meticulously curated questions sourced from 40 state-of-the-art research papers, encompassing a diverse spectrum of tasks ranging from basic multiple-choice questions to complex equation completion tasks, including both partial and full completions, all of which rigorously adhere to physical and dimensional constraints. Through extensive experimentation with leading LLMs, we observe that while many models excel in basic recall tasks, their performance degrades significantly when reconstructing partially or fully obscured equations, exposing fundamental limitations in current LLMs. Even DeepSeek-R1, the best performer on our benchmark, achieves an average accuracy of only 38.05%, with a mere 7.83% success rate in full equation completion. By publicly releasing WirelessMathBench along with the evaluation toolkit, we aim to advance the development of more robust, domain-aware LLMs for wireless system analysis and broader engineering applications.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、幅広いタスクにまたがって印象的な成果を上げている。
本研究では,無線通信工学における数学的モデリング課題のLLMを評価するための新しいベンチマークである WirelessMathBench を紹介する。
我々のベンチマークは、40の最先端研究論文から得られた587の厳密なキュレートされた質問から成り、基本的な多重選択質問から、部分的および完全完了を含む複雑な方程式完了タスクまで、多岐にわたるタスクを網羅し、それらすべてが物理的および次元的な制約に厳密に固執している。
先行するLLMを用いた広範囲な実験により、多くのモデルが基本的なリコールタスクに優れるが、その性能は部分的にあるいは完全に不明瞭な方程式を再構成する際に著しく低下し、現在のLLMの基本的限界が明らかになる。
ベンチマークで最高のパフォーマーであるDeepSeek-R1でさえ、平均精度は38.05%に過ぎず、完全な方程式の完成率は7.83%である。
評価ツールキットとともに WirelessMathBench を公開することにより,無線システム解析およびより広範な工学的応用のための,より堅牢でドメイン対応の LLM の開発を進めることを目指している。
関連論文リスト
- Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing [19.577278316436807]
大きな言語モデル(LLM)はコンテキストウィンドウサイズによって制限される。
そこで本研究では,LLM自体の注意情報を利用して正確な検索を行う手法を提案する。
InfiniRetriは0.5Bパラメータモデルを用いて、1Mトークン上でのNeedle-In-a-Haystack(NIH)テストで100%精度を達成する。
論文 参考訳(メタデータ) (2025-02-18T15:45:36Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting [0.6675160100853794]
我々は,高度に構成された高次マルチモーダル物理問題を含む新しいデータセットMM-PhyQAをキュレートした。
GPT-4を用いたゼロショット予測とLLaVA(LLaVAとLLaVA-1.5)を用いて,マルチモーダル入力からなる質問に対する回答を生成する。
テキスト入力のみからなるLLMの性能を評価するため,Mistral-7BおよびLLaMA2-7bモデルのベースおよび微調整版の性能試験を行った。
論文 参考訳(メタデータ) (2024-04-11T07:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。