論文の概要: OR-Toolformer: Modeling and Solving Operations Research Problems with Tool Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2510.01253v1
- Date: Wed, 24 Sep 2025 14:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.75844
- Title: OR-Toolformer: Modeling and Solving Operations Research Problems with Tool Augmented Large Language Models
- Title(参考訳): OR-Toolformer:ツール強化大言語モデルによる作業のモデル化と解決に関する研究
- Authors: Jianzhang Zhang, Jialong Zhou, Chuang Liu,
- Abstract要約: 大規模言語モデル(LLM)は強い数学的推論を示す。
Llama-3.1-8B-Instructを半自動データ合成パイプラインで微調整するOR-Toolformerを導入する。
4つの標準ベンチマークのうち、OR-Toolformerは最大80.1%の実行精度を達成している。
- 参考スコア(独自算出の注目度): 3.7202906625021934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate strong mathematical reasoning, but reliance on closed-source APIs for OR tasks raises privacy concerns, and training open-source models from scratch incurs high compute costs. We introduce OR-Toolformer, which fine-tunes Llama-3.1-8B-Instruct with a semi-automatic data synthesis pipeline that generates diverse OR problem-answer pairs and augments the model with external solvers to produce API calls. On three of four standard benchmarks, OR-Toolformer achieves up to 80.1% execution accuracy, exceeding size-matched baselines by over 4.3%. In zero-shot evaluation on two unseen OR problem types, it attains 54% average accuracy, a 21 percentage-point improvement over the strongest baseline. These findings validate the efficacy of tool-augmented fine-tuning LLMs for accurate and generalizable OR problem modeling and solving.
- Abstract(参考訳): 大きな言語モデル(LLM)は、強力な数学的推論を示すが、ORタスクのためのクローズドソースAPIに依存しているため、プライバシの懸念が高まり、スクラッチからオープンソースモデルをトレーニングすることで、高い計算コストが発生する。
Llama-3.1-8B-Instructed a semi-automatic data synthesis pipeline that generate various OR problem-anwer pairs and augments the model with external solver to produce API call。
4つの標準ベンチマークのうち、OR-Toolformerは最大80.1%の実行精度を達成し、サイズマッチングベースラインを4.3%以上越えている。
2つの未確認OR問題のゼロショット評価では、最強のベースラインよりも平均精度が54%、21ポイント改善した。
これらの結果から,ツール強化型微調整LDMの高精度かつ一般化可能なOR問題モデリングおよび解法への応用が検証された。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Narrowing the Gap: Supervised Fine-Tuning of Open-Source LLMs as a Viable Alternative to Proprietary Models for Pedagogical Tools [42.84219003918423]
この研究は、Supervised Fine-Tuning (SFT)を通じて強化された、より小型で専門化された言語モデルが、教育ツールのより実用的な代替手段であることを示す。
そこで本研究では,CS1/2(Real Introductory Programming)とCS1/2(Real Introductory Programming)を併用した,4万個のCコンパイラのエラー説明データセットを構築した。
以上の結果から,SFTは小型モデルの教育的品質を著しく向上させ,より大きなモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2025-07-07T08:03:49Z) - Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models [43.895478182631116]
ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。
この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。
ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。
結果は、ToolBHベンチマークで提示された重要な課題を示している。
論文 参考訳(メタデータ) (2024-06-28T16:03:30Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。