論文の概要: OR-Toolformer: Modeling and Solving Operations Research Problems with Tool Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2510.01253v1
- Date: Wed, 24 Sep 2025 14:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.75844
- Title: OR-Toolformer: Modeling and Solving Operations Research Problems with Tool Augmented Large Language Models
- Title(参考訳): OR-Toolformer:ツール強化大言語モデルによる作業のモデル化と解決に関する研究
- Authors: Jianzhang Zhang, Jialong Zhou, Chuang Liu,
- Abstract要約: 大規模言語モデル(LLM)は強い数学的推論を示す。
Llama-3.1-8B-Instructを半自動データ合成パイプラインで微調整するOR-Toolformerを導入する。
4つの標準ベンチマークのうち、OR-Toolformerは最大80.1%の実行精度を達成している。
- 参考スコア(独自算出の注目度): 3.7202906625021934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate strong mathematical reasoning, but reliance on closed-source APIs for OR tasks raises privacy concerns, and training open-source models from scratch incurs high compute costs. We introduce OR-Toolformer, which fine-tunes Llama-3.1-8B-Instruct with a semi-automatic data synthesis pipeline that generates diverse OR problem-answer pairs and augments the model with external solvers to produce API calls. On three of four standard benchmarks, OR-Toolformer achieves up to 80.1% execution accuracy, exceeding size-matched baselines by over 4.3%. In zero-shot evaluation on two unseen OR problem types, it attains 54% average accuracy, a 21 percentage-point improvement over the strongest baseline. These findings validate the efficacy of tool-augmented fine-tuning LLMs for accurate and generalizable OR problem modeling and solving.
- Abstract(参考訳): 大きな言語モデル(LLM)は、強力な数学的推論を示すが、ORタスクのためのクローズドソースAPIに依存しているため、プライバシの懸念が高まり、スクラッチからオープンソースモデルをトレーニングすることで、高い計算コストが発生する。
Llama-3.1-8B-Instructed a semi-automatic data synthesis pipeline that generate various OR problem-anwer pairs and augments the model with external solver to produce API call。
4つの標準ベンチマークのうち、OR-Toolformerは最大80.1%の実行精度を達成し、サイズマッチングベースラインを4.3%以上越えている。
2つの未確認OR問題のゼロショット評価では、最強のベースラインよりも平均精度が54%、21ポイント改善した。
これらの結果から,ツール強化型微調整LDMの高精度かつ一般化可能なOR問題モデリングおよび解法への応用が検証された。
関連論文リスト
- Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing [16.839489120513505]
InfToolは3つの協調エージェントを編成し、単一のターン呼び出しから複雑なマルチステップのゲートコールにまたがる多様な検証されたトラジェクトリを生成する。
InfToolは、ベース32Bモデルを19.8%から70.9%の精度(+258%)に変換し、Claude-Opusより10倍大きく、競合するClaude-Opusを上回ります。
論文 参考訳(メタデータ) (2025-12-29T17:12:39Z) - AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - OR-R1: Automating Modeling and Solving of Operations Research Optimization Problem via Test-Time Reinforcement Learning [44.346973471913856]
本稿では,自動最適化のためのデータ効率トレーニングフレームワークOR-R1を提案する。
実験の結果、OR-R1は平均解法精度が67.7%の最先端性能を達成していることがわかった。
論文 参考訳(メタデータ) (2025-11-12T08:05:31Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Narrowing the Gap: Supervised Fine-Tuning of Open-Source LLMs as a Viable Alternative to Proprietary Models for Pedagogical Tools [42.84219003918423]
この研究は、Supervised Fine-Tuning (SFT)を通じて強化された、より小型で専門化された言語モデルが、教育ツールのより実用的な代替手段であることを示す。
そこで本研究では,CS1/2(Real Introductory Programming)とCS1/2(Real Introductory Programming)を併用した,4万個のCコンパイラのエラー説明データセットを構築した。
以上の結果から,SFTは小型モデルの教育的品質を著しく向上させ,より大きなモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2025-07-07T08:03:49Z) - Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models [43.895478182631116]
ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。
この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。
ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。
結果は、ToolBHベンチマークで提示された重要な課題を示している。
論文 参考訳(メタデータ) (2024-06-28T16:03:30Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。