Fugu-MT 論文翻訳(概要): ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization

論文の概要: ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization

arxiv url: http://arxiv.org/abs/2602.15983v1
Date: Tue, 17 Feb 2026 20:20:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-19 15:58:30.426301
Title: ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization
Title（参考訳）: ReLoop:信頼性LLM最適化のための構造化モデリングと行動検証
Authors: Junbo Jacob Lian, Yujun Sun, Huiling Chen, Chaoyu Zhang, Chung-Piaw Teo,
Abstract要約: 大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。 2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
参考スコア（独自算出の注目度）: 6.572539312871392
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) can translate natural language into optimization code, but silent failures pose a critical risk: code that executes and returns solver-feasible solutions may encode semantically incorrect formulations, creating a feasibility-correctness gap of up to 90 percentage points on compositional problems. We introduce ReLoop, addressing silent failures from two complementary directions. Structured generation decomposes code production into a four-stage reasoning chain (understand, formalize, synthesize, verify) that mirrors expert modeling practice, with explicit variable-type reasoning and self-verification to prevent formulation errors at their source. Behavioral verification detects errors that survive generation by testing whether the formulation responds correctly to solver-based parameter perturbation, without requiring ground truth -- an external semantic signal that bypasses the self-consistency problem inherent in LLM-based code review. The two mechanisms are complementary: structured generation dominates on complex compositional problems, while behavioral verification becomes the largest single contributor on problems with localized formulation defects. Together with execution recovery via IIS-enhanced diagnostics, ReLoop raises correctness from 22.6% to 31.1% and execution from 72.1% to 100.0% on the strongest model, with consistent gains across five models spanning three paradigms (foundation, SFT, RL) and three benchmarks. We additionally release RetailOpt-190, 190 compositional retail optimization scenarios targeting the multi-constraint interactions where LLMs most frequently fail.
Abstract（参考訳）: 大きな言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。 2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。構造化生成は、コードを4段階の推論チェーン(理解、形式化、合成、検証)に分解する。振る舞い検証は、LLMベースのコードレビューに固有の自己整合性問題を回避する外部セマンティックシグナルである、基底真理を必要とせずに、ホルマレーションがソルバベースのパラメータ摂動に正しく応答するかどうかをテストすることによって、生成を継続するエラーを検出する。 2つのメカニズムは相補的であり、構造化生成は複雑な構成問題に支配的であり、一方、振る舞い検証は局所的な定式化欠陥の問題に最大の貢献者となる。 IIS強化診断による実行回復とともに、ReLoopは精度を22.6%から31.1%に引き上げ、最強モデルでは72.1%から100.0%に引き上げた。また、LLMが頻繁に失敗するマルチ制約相互作用をターゲットとした190の合成小売最適化シナリオであるRetailOpt-190をリリースする。

関連論文リスト

Constructing Industrial-Scale Optimization Modeling Benchmark [26.61380804019141]
重要なボトルネックは、実際の最適化モデルに根ざした、自然言語仕様と参照定式化/解決コードとを一致させるベンチマークの欠如である。実混合整数線形プログラムから構造を意識した逆構成手法により構築したMIPLIB-NLを提案する。実験の結果,MIPLIB-NLは既存のベンチマークに強く依存するシステムに対して,大幅な性能低下を示した。
論文参考訳（メタデータ） (2026-02-11T02:45:31Z)
Task-Awareness Improves LLM Generations and Uncertainty [48.857040212979484]
ベイズ最適応答は、ビームサーチのような標準的な復号法より一貫して優れている。我々の決定論的なフレームワークは、潜在応答構造を持つあらゆる問題に適用できる。
論文参考訳（メタデータ） (2026-01-29T10:16:23Z)
Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7～39%増加させ、明確な質問を1.5～2.7$times$に減らした。
論文参考訳（メタデータ） (2025-11-11T21:50:44Z)
ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization [73.0780809974414]
本稿では,意味的整合性評価を自己形式化プロセスに統合する反射的自己形式化手法を提案する。これにより、モデルが形式的なステートメントを反復的に生成し、セマンティックな忠実さを評価し、自己修正された特定エラーを発生させることができる。実験の結果、ReFormは最強のベースラインに対して平均22.6ポイントの改善を達成した。
論文参考訳（メタデータ） (2025-10-28T16:22:54Z)
Peering Inside the Black Box: Uncovering LLM Errors in Optimization Modelling through Component-Level Evaluation [0.0]
大規模言語モデル(LLM)のためのコンポーネントレベル評価フレームワークを提案する。 GPT-5、LLaMA 3.1命令、DeepSeek Mathを様々な複雑さの最適化問題で評価する。その結果、GPT-5は他のモデルよりも一貫して優れており、チェーン・オブ・シンク、自己整合性、モジュール性がより効果的であることを証明している。
論文参考訳（メタデータ） (2025-10-19T17:47:59Z)
Optimization Modeling via Semantic Anchored Alignment [30.047608671041104]
SAC-Optは,問題セマンティクスにおいて,解答フィードバックではなく最適化モデルに基づく後方誘導補正フレームワークである。各ステップで、SAC-Optは元のセマンティックアンカーと生成されたコードから再構成されたアンカーを調整し、ミスマッチしたコンポーネントのみを選択的に修正する。 7つの公開データセットに関する実証的な結果は、SAC-Optが平均モデリング精度を7.8%改善し、ComplexLPデータセットで最大21.9%向上したことを示している。
論文参考訳（メタデータ） (2025-09-28T12:25:31Z)
EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming [8.52533297070733]
EVALOOOPは自己整合性の観点から堅牢性を評価するアセスメントフレームワークである。 MBPP Plusベンチマークで96の人気のある大言語モデル(LLM)を評価した。 EVALOOOPは10ループでパス@1の精度を2.65%-47.62%低下させる。
論文参考訳（メタデータ） (2025-05-18T01:02:33Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-03T20:41:38Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。