論文の概要: Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling
- arxiv url: http://arxiv.org/abs/2505.11792v2
- Date: Wed, 28 May 2025 05:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:28.036173
- Title: Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling
- Title(参考訳): ソルバーインフォームドRL:認証最適化モデリングのための大規模言語モデルの構築
- Authors: Yitian Chen, Jingfan Xia, Siyu Shao, Dongdong Ge, Yinyu Ye,
- Abstract要約: 大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。
本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.253908111652627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization modeling is fundamental to decision-making across diverse domains. Despite progress in automating optimization formulation from natural language descriptions, Large Language Models (LLMs) often struggle to generate formally correct and usable models against hallucinations, posing a challenge for reliable automation. Inspired by the success of Reinforcement Learning (RL) in enhancing Large Reasoning Models, we present Solver-Informed Reinforcement Learning (SIRL), a novel framework that significantly improves the authenticity of LLMs for optimization modeling using Reinforcement Learning with Verifiable Reward by leveraging external optimization solvers as verifiers. These verifiers automatically assess the executable code and the instance-level mathematical model represented by the associated LP file, yielding precise and comprehensive feedback signals -- including syntax, feasibility, and solution quality, serving as direct rewards for the RL process. This automated verification process, particularly from classic optimization solvers, also underpins our instance-enhanced self-consistency method to synthesize high-quality training data. Extensive experiments on diverse public benchmarks demonstrate that SIRL achieves state-of-the-art performance, substantially outperforming existing methods in generating accurate and executable optimization models. Our code is publicly available at https://github.com/Cardinal-Operations/SIRL.
- Abstract(参考訳): 最適化モデリングは、さまざまな領域にわたる意思決定に不可欠である。
自然言語の記述から最適化の定式化の自動化が進んでいるにもかかわらず、Large Language Models (LLM) は幻覚に対して形式的に正確で使用可能なモデルを生成するのに苦慮しており、信頼性の高い自動化の課題となっている。
大規模推論モデルの強化における強化学習(Reinforcement Learning, RL)の成功に触発されて, 外部最適化ソルバを検証者として活用して, 検証再帰を用いた強化学習(Reinforcement Learning with Verifiable Reward)を用いた最適化モデリングにおいて, LLMの信頼性を大幅に向上させる新しいフレームワークであるSIRLを提案する。
これらの検証者は、対応するLPファイルで表される実行可能コードとインスタンスレベルの数学的モデルを自動的に評価し、構文、実現可能性、ソリューションの品質など、正確で包括的なフィードバック信号を生成し、RLプロセスの直接的な報酬として機能する。
この自動検証プロセス、特に古典的最適化解法は、私たちのインスタンス強化された自己整合性法を基盤として、高品質なトレーニングデータを合成する。
様々な公開ベンチマークに関する大規模な実験により、SIRLは最先端のパフォーマンスを達成し、正確かつ実行可能な最適化モデルを生成する既存の手法を大幅に上回っていることが示されている。
私たちのコードはhttps://github.com/Cardinal-Operations/SIRL.comで公開されています。
関連論文リスト
- ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。
提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
本稿では,オープンソースのLLMをトレーニングし,モデリングやソルバコードの開発を最適化する実行可能なパスを提案する。
この研究は、実用的なOR問題の解決においてLLMを評価するための最初の産業ベンチマークであるIndustrialORも導入した。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。