論文の概要: Strategy-Aware Optimization Modeling with Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2605.02545v1
- Date: Mon, 04 May 2026 12:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.288257
- Title: Strategy-Aware Optimization Modeling with Reasoning LLMs
- Title(参考訳): 推論LDMを用いた戦略対応最適化モデル
- Authors: Ruiqing Zhao, Fengzhi Li, Yuan Zuo, Rui Liu, Yansong Liu, Yunfei Ma, Fanyu Meng, Junlan Feng,
- Abstract要約: SAGEは、データ構築とポストトレーニングの両方において、モデリング戦略を明確にする戦略対応フレームワークである。
合成および実世界の設定にまたがる8つのベンチマークで、SAGEは最強のオープンソースベースラインに対して平均パス@1を72.7から80.3に改善した。
- 参考スコア(独自算出の注目度): 23.511229244176572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can generate syntactically valid optimization programs, yet often struggle to reliably choose an effective modeling strategy, leading to incorrect formulations and inefficient solver behavior. We propose SAGE, a strategy-aware framework that makes Modeling Strategy explicit in both data construction and post-training. SAGE builds a solver-verified multi-strategy dataset and trains a student model with supervised fine-tuning followed by Segment-Weighted GRPO using a composite reward over format compliance, correctness, and solver efficiency. Across eight benchmarks spanning synthetic and real-world settings, SAGE improves average pass@1 from 72.7 to 80.3 over the strongest open-source baseline. With multiple generations, SAGE discovers more distinct correct formulations and improves component-level diversity at pass@16 by 19-29%. At the largest scale, SAGE produces more compact constraint systems with 14.2% fewer constraints than the baseline, consistent with solver-efficient modeling. Overall, these results show that making Modeling Strategy explicit improves automated optimization modeling. Code is available at https://github.com/rachhhhing/SAGE.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構文的に有効な最適化プログラムを生成することができるが、しばしば効果的なモデリング戦略を確実に選択するのに苦労し、誤った定式化と非効率的な解法動作をもたらす。
データ構築とポストトレーニングの両方において、モデリング戦略を明確にする戦略対応フレームワークであるSAGEを提案する。
SAGEは、ソルバ検証されたマルチストラテジーデータセットを構築し、教師付き微調整で学生モデルをトレーニングし、続いて、フォーマットコンプライアンス、正確性、ソルバ効率に対する複合的な報酬を使用して、セグメンツ重み付きGRPOを使用する。
合成および実世界の設定にまたがる8つのベンチマークで、SAGEは最強のオープンソースベースラインに対して平均パス@1を72.7から80.3に改善した。
複数の世代で、SAGEはより明確な正しい定式化を発見し、pass@16でコンポーネントレベルの多様性を19-29%改善する。
最大のスケールでは、SAGEはベースラインよりも14.2%少ない制約を持つよりコンパクトな制約システムを生成し、ソルバ効率のモデリングと一致している。
これらの結果から,モデリング戦略の明確化は自動最適化モデルを改善することが示唆された。
コードはhttps://github.com/rachhhhing/SAGE.comで入手できる。
関連論文リスト
- Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization [13.271737599933147]
本稿では,エントロピー強化フレームワークであるEntroPOを紹介し,既存の優先最適化アルゴリズムをマルチターンツール支援設定に適用する。
EntroPOは、さまざまな家族やサイズのモデル群を微調整することで検証する。
swebenchのリーダーボードでは、オープンウェイトモデルの間で、新しい最先端の結果が確立される。
論文 参考訳(メタデータ) (2025-09-15T20:36:19Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。
本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T02:32:03Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Learning Distributionally Robust Models at Scale via Composite
Optimization [45.47760229170775]
DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。
また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。
論文 参考訳(メタデータ) (2022-03-17T20:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。