論文の概要: CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling
- arxiv url: http://arxiv.org/abs/2510.04204v1
- Date: Sun, 05 Oct 2025 13:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.515695
- Title: CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling
- Title(参考訳): STORM以前のCALM:最適化モデリングのためのネイティブ推論のアンロック
- Authors: Zhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang,
- Abstract要約: 大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。
既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。
我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
- 参考スコア(独自算出の注目度): 60.55856973678002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated strong capabilities in complex multi-step reasoning, opening new opportunities for automating optimization modeling. However, existing domain adaptation methods, originally designed for earlier instruction-tuned models, often fail to exploit the advanced reasoning patterns of modern LRMs -- In particular, we show that direct fine-tuning on traditional \textit{non-reflective} datasets leads to limited gains. To fully leverage LRMs' inherent reasoning abilities, we propose \textbf{CALM} (\textit{Corrective Adaptation with Lightweight Modification}), a framework that progressively refines LRMs within their native reasoning modes for optimization modeling tasks. In CALM, an expert intervener identifies reasoning flaws and provides concise corrective hints, which the LRM incorporates to produce improved reasoning trajectories. These interventions modify fewer than 2.6\% of generated tokens, but generate high-quality data for soft adaptation through supervised fine-tuning. The adapted model is then further improved through reinforcement learning. Building on CALM, we develop \textbf{STORM} (\textit{Smart Thinking Optimization Reasoning Model}), a 4B-parameter LRM that achieves a new state-of-the-art average accuracy of 68.9\% across five popular optimization modeling benchmarks, matching the performance of a 671B LRM. These results demonstrate that dynamic, hint-based data synthesis both preserves and amplifies the native reasoning patterns of modern LRMs, offering a more effective and scalable path towards expert-level performance on challenging optimization modeling tasks.
- Abstract(参考訳): 大規模推論モデル(LRM)は、複雑な多段階推論において強力な機能を示し、最適化モデリングを自動化するための新たな機会を開いた。
しかし、既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンを活用できないことが多い。
LRM固有の推論能力をフル活用するために、最適化モデリングタスクのために、LRMをネイティブな推論モード内で段階的に洗練するフレームワークである \textbf{CALM} (\textit{Corrective Adaptation with Lightweight Modification}) を提案する。
CALMでは、専門家の介入者が推論の欠陥を特定し、簡潔な修正ヒントを提供する。
これらの介入は生成されたトークンの2.6\%未満を修正しているが、教師付き微調整によってソフト適応のための高品質なデータを生成する。
適応モデルは強化学習によりさらに改善される。
そこで,CALM をベースとした 4B パラメータ LRM である \textbf{STORM} (\textit{Smart Thinking Optimization Reasoning Model}) を開発した。
これらの結果は、動的かつヒントに基づくデータ合成が、現代のLEMのネイティブな推論パターンを保存および増幅し、最適化モデリングタスクに挑戦する専門家レベルのパフォーマンスへ、より効果的でスケーラブルな経路を提供することを示した。
関連論文リスト
- Structural Reward Model: Enhancing Interpretability, Efficiency, and Scalability in Reward Modeling [23.919163488129985]
Structure Reward Model (SRM) はサイドブランチと補助機能ジェネレータを統合したモジュラーフレームワークである。
粒度の細かい寸法を導入することで、RMは解釈可能で効率的な評価、ターゲット診断、最適化を可能にします。
論文 参考訳(メタデータ) (2025-09-29T18:09:25Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Automated Optimization Modeling through Expert-Guided Large Language Model Reasoning [43.63419208391747]
本稿では,最適化プロセスを自動化するチェーン・オブ・シント推論を通じて,専門家レベルの最適化モデリングの原則を活用する新しいフレームワークを提案する。
また、ロジスティクス領域からの新しい最適化モデリングベンチマークであるLogiORを導入し、標準化されたアノテーションに関するより複雑な問題を含む。
論文 参考訳(メタデータ) (2025-08-20T04:14:54Z) - Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。
本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。
階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文 参考訳(メタデータ) (2025-05-23T07:30:13Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
本稿では,オープンソースのLLMをトレーニングし,モデリングやソルバコードの開発を最適化する実行可能なパスを提案する。
この研究は、実用的なOR問題の解決においてLLMを評価するための最初の産業ベンチマークであるIndustrialORも導入した。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。