Fugu-MT 論文翻訳(概要): OptArgus: A Multi-Agent System to Detect Hallucinations in LLM-based Optimization Modeling

論文の概要: OptArgus: A Multi-Agent System to Detect Hallucinations in LLM-based Optimization Modeling

arxiv url: http://arxiv.org/abs/2605.11738v1
Date: Tue, 12 May 2026 08:19:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.701806
Title: OptArgus: A Multi-Agent System to Detect Hallucinations in LLM-based Optimization Modeling
Title（参考訳）: OptArgus: LLM最適化モデルにおける幻覚検出のためのマルチエージェントシステム
Authors: Zhong Li, Zihan Guo, Xiaohan Lu, Juntao Wang, Jie Song, Chao Shen, Jiageng Wu, Mingyang Sun,
Abstract要約: 最適化モデル, 目的, 変数, 制約, 実装障害にまたがる, 最初の微粒化幻覚分類法を開発した。一致した単一エージェントベースラインに対して、OptArgusはクリーンアーティファクトに対する偽のアラームを少なくし、コントロールされた単一エラーケースにおけるより正確なトップランクのローカライゼーションと、自然なモデル出力に対するより強力な検出を実現している。
参考スコア（独自算出の注目度）: 26.959984886152466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly used to translate natural-language optimization problems into mathematical formulations and solver code, but matching the reference objective value is not a reliable test of correctness: an artifact may agree numerically while still changing the underlying optimization semantics. We formulate this issue as \emph{optimization-modeling hallucination detection}, namely structural consistency auditing over the problem description, symbolic model, and solver implementation. We develop, to our knowledge, the first fine-grained hallucination taxonomy specifically for optimization modeling, spanning objective, variable, constraint, and implementation failures. We use this taxonomy to design OptArgus, a multi-agent detector with conductor routing, specialist auditors, and evidence consolidation. To evaluate this setting, we introduce a three-part benchmark suite with $484$ clean artifacts, $1266$ controlled injected artifacts, and $6292$ natural LLM-generated artifacts. Against a matched single-agent baseline, OptArgus produces fewer false alarms on clean artifacts, more accurate top-ranked localization on controlled single-error cases, and stronger detection on natural model outputs. Together, these contributions turn optimization-modeling hallucination detection into a concrete empirical problem and suggest that modular, taxonomy-grounded auditing is a practical route to more reliable optimization modeling.
Abstract（参考訳）: 大規模言語モデル (LLMs) は、自然言語の最適化問題を数学的定式化や解法コードに変換するためにますます使われているが、参照対象値のマッチングは正確性の信頼性テストではない。本稿では,この問題を「emph{optimization-modeling hallucination detection}」として定式化し,問題記述,記号モデル,解法実装に関する構造的整合性監査を行う。我々の知る限りでは、最適化モデリング、目的、変数、制約、実装失敗を対象とする、最初のきめ細かい幻覚分類法を開発しています。この分類法を用いて、導体ルーティング、スペシャリスト監査、エビデンス統合を備えたマルチエージェント検出器であるOpsArgusを設計する。この設定を評価するために、クリーンアーティファクト484ドル、制御されたインジェクト1266ドル、天然LLMアーティファクト6292ドルからなる3部ベンチマークスイートを紹介した。一致した単一エージェントベースラインに対して、OptArgusはクリーンアーティファクトに対する偽のアラームを少なくし、コントロールされた単一エラーケースにおけるより正確なトップランクのローカライゼーションと、自然なモデル出力に対するより強力な検出を実現している。これらの貢献は、最適化モデルによる幻覚検出を具体的な経験的な問題に転換し、モジュラーな分類に基づく監査がより信頼性の高い最適化モデリングへの実践的な経路であることを示唆している。

関連論文リスト

$\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。 $nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文参考訳（メタデータ） (2026-03-05T08:42:54Z)
Constructing Industrial-Scale Optimization Modeling Benchmark [26.61380804019141]
重要なボトルネックは、実際の最適化モデルに根ざした、自然言語仕様と参照定式化/解決コードとを一致させるベンチマークの欠如である。実混合整数線形プログラムから構造を意識した逆構成手法により構築したMIPLIB-NLを提案する。実験の結果,MIPLIB-NLは既存のベンチマークに強く依存するシステムに対して,大幅な性能低下を示した。
論文参考訳（メタデータ） (2026-02-11T02:45:31Z)
MIRROR: A Multi-Agent Framework with Iterative Adaptive Revision and Hierarchical Retrieval for Optimization Modeling in Operations Research [15.28095645151852]
MIRRORは、操作研究のための微調整のないエンドツーエンドのマルチエージェントフレームワークである。自然言語の最適化問題を数学的モデルや解法コードに変換する。実験により、MIRRORは標準的なOperations Researchベンチマークの既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2026-02-03T09:46:56Z)
ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling [18.8099769877788]
ORGEvalは線形および混合整数線形プログラムの定式化における大規模言語モデルの能力を評価するためのグラフ理論評価フレームワークである。 ORGEvalはモデル等価性の検出に成功し、ランダムなパラメータ構成で100%一貫した結果が得られることを示す。この結果から,全てのLLMにおいて最適化モデリングは依然として困難であるが,DeepSeek-V3とClaude-Opus-4は直接的プロンプト下では最高の精度を達成できることがわかった。
論文参考訳（メタデータ） (2025-10-31T16:35:52Z)
Optimization Modeling via Semantic Anchored Alignment [30.047608671041104]
SAC-Optは,問題セマンティクスにおいて,解答フィードバックではなく最適化モデルに基づく後方誘導補正フレームワークである。各ステップで、SAC-Optは元のセマンティックアンカーと生成されたコードから再構成されたアンカーを調整し、ミスマッチしたコンポーネントのみを選択的に修正する。 7つの公開データセットに関する実証的な結果は、SAC-Optが平均モデリング精度を7.8%改善し、ComplexLPデータセットで最大21.9%向上したことを示している。
論文参考訳（メタデータ） (2025-09-28T12:25:31Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-03T20:41:38Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。