論文の概要: OptiRepair: Closed-Loop Diagnosis and Repair of Supply Chain Optimization Models with LLM Agents
- arxiv url: http://arxiv.org/abs/2602.19439v2
- Date: Tue, 24 Feb 2026 21:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 13:37:25.48542
- Title: OptiRepair: Closed-Loop Diagnosis and Repair of Supply Chain Optimization Models with LLM Agents
- Title(参考訳): OptiRepair:LCMエージェントを用いたサプライチェーン最適化モデルのクローズドループ診断と修復
- Authors: Ruicheng Ao, David Simchi-Levi, Xinshang Wang,
- Abstract要約: サプライチェーン最適化モデルは、しばしばモデリングエラーのために実現不可能になる。
我々は、このタスクをドメインに依存しないフィージビリティフェーズとドメイン固有の検証フェーズの2つのフェーズに分解する。
976のマルチエキロンサプライチェーン問題に対して、7つのファミリーから22のAPIモデルをテストする。
- 参考スコア(独自算出の注目度): 19.31559944205485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supply chain optimization models frequently become infeasible because of modeling errors. Diagnosis and repair require scarce OR expertise: analysts must interpret solver diagnostics, trace root causes across echelons, and fix formulations without sacrificing operational soundness. Whether AI agents can perform this task remains untested. We decompose this task into two phases: a domain-agnostic feasibility phase that iteratively repairs any LP using IIS-guided diagnosis, and a domain-specific validation phase that enforces five rationality checks grounded in inventory theory. We test 22 API models from seven families on 976 multi-echelon supply chain problems and train two 8B-parameter models with self-taught reasoning and solver-verified rewards. The trained models reach 81.7% Rational Recovery Rate (RRR) -- the fraction of problems resolved to both feasibility and operational rationality -- versus 42.2% for the best API model and 21.3% on average. The gap concentrates in Phase 1 repair, where API models average 27.6% recovery rate versus 97.2% for trained models. Two gaps separate current AI from reliable model repair: solver interaction, as API models restore only 27.6% of infeasible formulations; and operational rationale, as roughly one in four feasible repairs violate supply chain theory. Each gap requires a different intervention -- targeted training closes the solver interaction gap, while explicit specification as solver-verifiable checks closes the rationality gap. For organizations adopting AI in operational planning, formalizing what 'rational' means in their context is the higher-return investment.
- Abstract(参考訳): サプライチェーン最適化モデルは、しばしばモデリングエラーのために実現不可能になる。
診断と修復には専門知識が不足している: アナリストは解答器の診断、エキロンをまたいだ根本原因の解明、および操作音を犠牲にすることなく定式化の修正が必要である。
AIエージェントがこのタスクを実行できるかどうかはまだ検証されていない。
本稿では,IIS誘導診断を用いて任意のLPを反復的に修復するドメインに依存しない実行可能性フェーズと,在庫理論に基づく5つの合理性チェックを実施するドメイン固有の検証フェーズの2つのフェーズに分解する。
976個の多エキロン系サプライチェーン問題に対して、7つのファミリーから22のAPIモデルを試験し、自己学習推論と解法検証による2つの8Bパラメータモデルを訓練した。
トレーニングされたモデルは81.7%のラショナルリカバリレート(RRR)に達し、実現可能性と運用上の合理性の両方に解決された問題の割合は42.2%、APIモデルの平均は21.3%に達した。
このギャップは第1フェーズの修復に集中しており、APIモデルの平均リカバリ率は27.6%であり、訓練されたモデルでは97.2%である。
2つのギャップは、現在のAIを信頼性のあるモデル修復から切り離している: 解決者相互作用、APIモデルは、実現不可能な定式化の27.6%しか回復していないこと、および運用上の理性、そして4つのうち1つがサプライチェーン理論に違反していることである。
目標とするトレーニングは、ソルバの相互作用ギャップを閉じる一方で、ソルバの検証可能なチェックとしての明示的な仕様は、合理性ギャップを閉じる。
AIを運用計画に採用する組織にとって、彼らのコンテキストにおける'合理的'の意味を形式化することは、より高いリターン投資である。
関連論文リスト
- ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization [6.572539312871392]
大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。
2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
論文 参考訳(メタデータ) (2026-02-17T20:20:33Z) - Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用 調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。
評価ループにtextbfsolver を配置するベンチマークを2つ導入する。
ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文 参考訳(メタデータ) (2026-01-28T20:02:44Z) - InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning [32.274434679047395]
アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。
Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
論文 参考訳(メタデータ) (2026-01-20T18:15:38Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。