論文の概要: LLM-Driven Heuristic Synthesis for Industrial Process Control: Lessons from Hot Steel Rolling
- arxiv url: http://arxiv.org/abs/2603.20537v1
- Date: Fri, 20 Mar 2026 22:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.959918
- Title: LLM-Driven Heuristic Synthesis for Industrial Process Control: Lessons from Hot Steel Rolling
- Title(参考訳): 産業プロセス制御のためのLCM駆動ヒューリスティック合成:熱間圧延からの教訓
- Authors: Nima H. Siboni, Seyedreza Kiamousavi, Emad Scharifi,
- Abstract要約: 産業プロセス制御は、ブラックボックスのニューラルポリシーが満たすのに苦労する要件である、解釈可能で監査可能なポリシーを要求する。
熱間圧延用LLM駆動フレームワークについて検討し, 言語モデルを用いて, 可読性を有するPythonコントローラを反復的に提案・改良する。
たった160イットのLubyキャンペーンは、52のアドホックランの合計730から得られる、後ろ向きの最適予算配分に近づいた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial process control demands policies that are interpretable and auditable, requirements that black-box neural policies struggle to meet. We study an LLM-driven heuristic synthesis framework for hot steel rolling, in which a language model iteratively proposes and refines human-readable Python controllers using rich behavioral feedback from a physics-based simulator. The framework combines structured strategic ideation, executable code generation, and per-component feedback across diverse operating conditions to search over control logic for height reduction, interpass time, and rolling velocity. Our first contribution is an auditable controller-synthesis pipeline for industrial process control. The generated controllers are explicit programs accessible to expert review, and we pair them with an automated audit pipeline that formally verifies key safety and monotonicity properties for the best synthesized heuristic. Our second contribution is a principled budget allocation strategy for LLM-driven heuristic search: we show that Luby-style universal restarts -- originally developed for randomized algorithms -- transfer directly to this setting, eliminating the need for problem-specific budget tuning. A single 160-iteration Luby campaign approaches the hindsight-optimal budget allocation derived from 52 ad-hoc runs totalling 730 iterations.
- Abstract(参考訳): 産業プロセス制御は、ブラックボックスのニューラルポリシーが満たすのに苦労する要件である、解釈可能で監査可能なポリシーを要求する。
本研究では, LLMによる熱間圧延用ヒューリスティック合成フレームワークについて検討し, 物理シミュレーションによるリッチな動作フィードバックを用いて, 言語モデルを用いて, 可読性Pythonコントローラを反復的に提案・改良する。
このフレームワークは、構造化された戦略的考え、実行可能コード生成、および様々な運用条件にまたがるコンポーネント毎のフィードバックを組み合わせて、ハイトダウン、インターパス時間、ローリング速度の制御ロジックを探索する。
最初のコントリビューションは、産業プロセス制御のための監査可能なコントローラ合成パイプラインです。
生成したコントローラは、専門家のレビューにアクセスできる明示的なプログラムであり、最適な合成ヒューリスティックのための重要な安全性と単調性特性を正式に検証する自動監査パイプラインと組み合わせる。
2つ目のコントリビューションは、LLM駆動のヒューリスティック検索のための原則化された予算配分戦略であり、Lubyスタイルのユニバーサルリスタート(元はランダム化アルゴリズム用に開発された)が、この問題固有の予算調整の必要性をなくし、直接この設定に移行することを示しています。
たった160イテレーションのLubyキャンペーンは、52のアドホックが合計730回実行することに由来する、後ろ向きの最適予算配分に近づいた。
関連論文リスト
- EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - Autonomous Control Leveraging LLMs: An Agentic Framework for Next-Generation Industrial Automation [0.0]
本稿では,大規模言語モデル(LLM)を個別のフォールトリカバリ計画と継続的プロセス制御の両方に活用する統合エージェントフレームワークを提案する。
その結果、構造化されたフィードバックとモジュラーエージェントにより、LLMは高レベルな記号計画と低レベルな連続制御を統一できることを示した。
論文 参考訳(メタデータ) (2025-07-03T11:20:22Z) - Linear Feedback Control Systems for Iterative Prompt Optimization in Large Language Models [0.9572675949441439]
大規模言語モデル(LLM)は、与えられたプロンプトに基づいて出力を生成することで、様々なアプリケーションに革命をもたらした。
本稿では,LLMにおける反復的プロンプト最適化プロセスとフィードバック制御システムとの並列性を示す新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-21T08:52:47Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Fine-Tuning Language Models Using Formal Methods Feedback [53.24085794087253]
我々は、自律システムにおけるアプリケーションのための、微調整済み言語モデルに対して、完全に自動化されたアプローチを提案する。
本手法は,自然言語タスク記述による事前学習モデルから自動制御器を合成する。
その結果、コントローラが満たした仕様の割合が60%から90%に改善したことが示唆された。
論文 参考訳(メタデータ) (2023-10-27T16:24:24Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Deep Reinforcement Learning with Shallow Controllers: An Experimental
Application to PID Tuning [3.9146761527401424]
実際の物理システム上での最先端RLアルゴリズムの実現における課題について述べる。
私たちのアプローチの核心は、トレーニング可能なRLポリシーとしてPIDコントローラを使用することです。
論文 参考訳(メタデータ) (2021-11-13T18:48:28Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。