Fugu-MT 論文翻訳(概要): Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling

論文の概要: Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling

arxiv url: http://arxiv.org/abs/2505.11792v1
Date: Sat, 17 May 2025 02:32:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.849307
Title: Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling
Title（参考訳）: ソルバーインフォームドRL:認証最適化モデリングのための大規模言語モデルの構築
Authors: Yitian Chen, Jingfan Xia, Siyu Shao, Dongdong Ge, Yinyu Ye,
Abstract要約: 大型言語モデル(LLM)は、幻覚によって形式的に正しい、使用可能なモデルを生成するのに苦労することが多い。大規模推論モデルの強化における強化学習(RL)の成功に触発されて、SIRL(Solver-Informed Reinforcement Learning)を提案する。
参考スコア（独自算出の注目度）: 3.253908111652627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimization modeling is fundamental to decision-making across diverse domains.Despite progress in automating optimization formulation from natural language descriptions, Large Language Models (LLMs) often struggle to generate formally correct and usable models due to hallucinations, posing a challenge for reliable automation. Inspired by the success of Reinforcement Learning (RL) in enhancing Large Reasoning Models, we present Solver-Informed Reinforcement Learning (SIRL).This novel framework leverages external optimization solvers as verifiable reward mechanisms to significantly improve the authenticity of LLMs for optimization modeling.Acting as precise verifiers, these solvers automatically assess the executable code and the instance-level mathematical model represented by the associated LP file, yielding precise and comprehensive feedback signals -- including syntax, feasibility, and solution quality that directly inform the RL process. This automated verification process, powered by classic optimization solvers, also underpins our instance-enhanced self-consistency method to synthesize high-quality training data. Extensive experiments on diverse public benchmarks demonstrate that SIRL achieves state-of-the-art performance, substantially outperforming existing methods in generating accurate and executable optimization models.
Abstract（参考訳）: 最適化モデリングは、さまざまな領域にわたる意思決定に基本的であり、自然言語記述からの最適化定式化の自動化の進歩にもかかわらず、大型言語モデル(LLM)は幻覚による形式的正確で有用なモデルの生成に苦慮することが多く、信頼性の高い自動化の課題となっている。大規模推論モデルの強化における強化学習(RL)の成功に触発されて、SIRL(Solver-Informed Reinforcement Learning)を提案する。この新しいフレームワークは、外部最適化ソルバを検証可能な報酬メカニズムとして活用し、最適化モデリングのためのLLMの信頼性を大幅に向上させる。正確な検証を行うと、これらのソルバは、対応するLPファイルで表される実行可能コードとインスタンスレベルの数学的モデルを自動的に評価し、構文、実現可能性、およびRLプロセスに直接通知するソリューション品質を含む、正確で包括的なフィードバック信号を生成する。この自動検証プロセスは、古典的な最適化解法を駆使して、私たちのインスタンス強化された自己整合性法を基盤とし、高品質なトレーニングデータを合成する。様々な公開ベンチマークに関する大規模な実験により、SIRLは最先端のパフォーマンスを達成し、正確かつ実行可能な最適化モデルを生成する既存の手法を大幅に上回っていることが示されている。

関連論文リスト

Toward a Trustworthy Optimization Modeling Agent via Verifiable Synthetic Data Generation [11.988926173584154]
本稿では,信頼性の高い大規模言語モデル(LLM)エージェントを合成データ生成パイプラインを介して訓練するためのフレームワークを提案する。 OptiTrustは、自然言語からソルバ対応コードへの多言語翻訳を行うモジュール型LLMエージェントである。我々のエージェントは、標準ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-05T05:54:20Z)
Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文参考訳（メタデータ） (2025-06-21T21:49:02Z)
ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-04-02T06:38:56Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文参考訳（メタデータ） (2024-11-26T00:44:37Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文参考訳（メタデータ） (2024-08-30T14:15:48Z)
ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
本稿では,オープンソースのLLMをトレーニングし,モデリングやソルバコードの開発を最適化する実行可能なパスを提案する。この研究は、実用的なOR問題の解決においてLLMを評価するための最初の産業ベンチマークであるIndustrialORも導入した。
論文参考訳（メタデータ） (2024-05-28T01:55:35Z)
Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。最適モデルの復元が保証される混合整数最適化の定式化を開発する。平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文参考訳（メタデータ） (2024-03-28T22:45:38Z)
PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文参考訳（メタデータ） (2023-12-09T19:50:23Z)
CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文参考訳（メタデータ） (2023-09-14T16:16:40Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。