論文の概要: Large Language Model enabled Mathematical Modeling
- arxiv url: http://arxiv.org/abs/2510.19895v1
- Date: Wed, 22 Oct 2025 17:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.529036
- Title: Large Language Model enabled Mathematical Modeling
- Title(参考訳): 大規模言語モデルによる数学的モデリング
- Authors: Guoyun Zhang,
- Abstract要約: 本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
- 参考スコア(独自算出の注目度): 2.132096006921049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models (LLMs) with optimization modeling offers a promising avenue for advancing decision-making in operations research (OR). Traditional optimization methods,such as linear programming, mixed integer programming, and simulation depend heavily on domain expertise to translate real-world problems into solvable mathematical models. While solvers like Gurobi and COPT are powerful, expert input remains essential for defining objectives, constraints, and variables. This research investigates the potential of LLMs, specifically the DeepSeek-R1 model, to bridge this formulation gap using natural language understanding and code generation. Although prior models like GPT-4, Claude, and Bard have shown strong performance in NLP and reasoning tasks, their high token costs and tendency toward hallucinations limit real-world applicability in supply chain contexts. In contrast, DeepSeek-R1, a cost-efficient and high-performing model trained with reinforcement learning, presents a viable alternative. Despite its success in benchmarks such as LiveCodeBench and Math-500, its effectiveness in applied OR scenarios remains under explored. This study systematically evaluates DeepSeek-R1 across four key OR benchmarks: NL4OPT, IndustryOR, EasyLP, and ComplexOR. Our methodology includes baseline assessments, the development of a hallucination taxonomy, and the application of mitigation strategies like LLM-as-a-Judge, Few-shot Learning (FSL), Tool Calling, and a Multi-agent Framework. These techniques aim to reduce hallucinations, enhance formulation accuracy, and better align model outputs with user intent.
- Abstract(参考訳): LLM(Large Language Models)と最適化モデリングの統合は、オペレーションリサーチ(OR)における意思決定を進めるための有望な道を提供する。
線形プログラミング、混合整数プログラミング、シミュレーションといった従来の最適化手法は、現実世界の問題を解ける数学的モデルに変換するために、ドメインの専門知識に大きく依存している。
GurobiやCOPTのような解法は強力だが、目的、制約、変数を定義するには専門家の入力が不可欠である。
本研究では,LLM,特にDeepSeek-R1モデルが自然言語理解とコード生成を用いて,この定式化ギャップを埋める可能性について検討する。
GPT-4、Claude、Bardといった以前のモデルでは、NLPや推論タスクのパフォーマンスは高いが、それらの高いトークンコストと幻覚への傾向はサプライチェーンのコンテキストにおける現実の応用性を制限している。
対照的に、強化学習でトレーニングされた費用効率が高く高性能なモデルであるDeepSeek-R1は、実行可能な代替手段である。
LiveCodeBenchやMath-500のようなベンチマークで成功したにもかかわらず、応用ORシナリオにおける有効性はまだ検討されていない。
本研究は、NL4OPT, IndustryOR, EasyLP, ComplexORの4つの主要なORベンチマークでDeepSeek-R1を体系的に評価する。
本手法は,ベースライン評価,幻覚分類法の開発,LLM-as-a-Judge,Few-shot Learning (FSL), Tool Calling, Multi-agent Frameworkなどの緩和戦略の適用を含む。
これらの技術は、幻覚の低減、定式化の精度の向上、モデルの出力とユーザの意図との整合性の向上を目的としている。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Large Language Models in Operations Research: Methods, Applications, and Challenges [9.208082097215314]
オペレーションリサーチ(OR)は、輸送、サプライチェーン管理、生産スケジュールなど、複雑なシステム決定を支援する。
専門家主導のモデリングと手動パラメータチューニングに依存する従来のアプローチは、しばしば大規模、動的、マルチ制約の問題に悩まされる。
本稿では,大規模言語モデル(LLM)をORに適用し,既存の手法を3つの経路に分類する。
論文 参考訳(メタデータ) (2025-09-18T01:52:19Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。
RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-24T01:39:34Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - To Code or not to Code? Adaptive Tool Integration for Math Language Models via Expectation-Maximization [30.057052324461534]
本稿では,メタ認知ツール利用決定と進化能力の間の自己強化サイクルを構築するために,構造化探索(E-step)と非政治最適化(M-step)を併用する新しいフレームワークを提案する。
当社の7Bモデルは、MATH500では11%、AIMEでは9.4%、o1のようなCoTでは9.4%改善しています。
論文 参考訳(メタデータ) (2025-02-02T06:32:23Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。