Fugu-MT 論文翻訳(概要): An Agent-Based Framework for the Automatic Validation of Mathematical Optimization Models

論文の概要: An Agent-Based Framework for the Automatic Validation of Mathematical Optimization Models

arxiv url: http://arxiv.org/abs/2511.16383v1
Date: Thu, 20 Nov 2025 14:03:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-21 17:08:52.663687
Title: An Agent-Based Framework for the Automatic Validation of Mathematical Optimization Models
Title（参考訳）: 数学的最適化モデルの自動検証のためのエージェントベースフレームワーク
Authors: Alexander Zadorojniy, Segev Wasserkrug, Eitan Farchi,
Abstract要約: 本稿では,最適化モデルの自動検証のためのエージェントベース手法を提案する。実験を通して、このエージェントが提供する検証の質の高さを、突然変異カバレッジと呼ばれるよく知られたソフトウェアテストの指標として示す。
参考スコア（独自算出の注目度）: 46.028340941489006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, using Large Language Models (LLMs) to generate optimization models from natural language descriptions has became increasingly popular. However, a major open question is how to validate that the generated models are correct and satisfy the requirements defined in the natural language description. In this work, we propose a novel agent-based method for automatic validation of optimization models that builds upon and extends methods from software testing to address optimization modeling . This method consists of several agents that initially generate a problem-level testing API, then generate tests utilizing this API, and, lastly, generate mutations specific to the optimization model (a well-known software testing technique assessing the fault detection power of the test suite). In this work, we detail this validation framework and show, through experiments, the high quality of validation provided by this agent ensemble in terms of the well-known software testing measure called mutation coverage.
Abstract（参考訳）: 近年,自然言語記述から最適化モデルを生成するためにLarge Language Models (LLMs) が普及している。しかし、大きな疑問は、生成したモデルが正しいことを検証し、自然言語記述で定義された要件を満たす方法である。本研究では,ソフトウェアテストから最適化モデルへのアプローチを構築・拡張する,最適化モデルの自動検証のためのエージェントベース手法を提案する。このメソッドは、最初は問題レベルのテストAPIを生成し、次にこのAPIを使用してテストを生成し、最後に最適化モデル(テストスイートの障害検出能力を評価するよく知られたソフトウェアテスト技術)に固有の突然変異を生成するいくつかのエージェントから構成される。本研究は,本検証の枠組みを詳述し,実験を通じて,このエージェントが提供する検証の質の高さを,突然変異カバレッジと呼ばれるよく知られたソフトウェアテストの指標として示す。

関連論文リスト

Self-Improving LLM Agents at Test-Time [49.9396634315896]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文参考訳（メタデータ） (2025-10-09T06:37:35Z)
Toward a Trustworthy Optimization Modeling Agent via Verifiable Synthetic Data Generation [11.988926173584154]
本稿では,信頼性の高い大規模言語モデル(LLM)エージェントを合成データ生成パイプラインを介して訓練するためのフレームワークを提案する。 OptiTrustは、自然言語からソルバ対応コードへの多言語翻訳を行うモジュール型LLMエージェントである。我々のエージェントは、標準ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-05T05:54:20Z)
Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T02:32:03Z)
Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing [0.11844977816228043]
契約オートマトン環境(CARE)と呼ばれる分散ランタイムアプリケーションは、有限状態オートマトン方言を用いて指定されたサービスアプリケーションを実現するために導入された。我々はCAREの正式なモデリング、検証、テストについて詳述する。
論文参考訳（メタデータ） (2025-01-22T15:03:25Z)
Towards an Automatic Optimisation Model Generator Assisted with Generative Pre-trained Transformer [0.0]
本稿では,事前学習した生成変換器を用いて最適化モデルを生成するフレームワークを提案する。このフレームワークは、最適化モデルが持つべき機能を定義し、言語モデルを使用してモデルの初期バージョンを生成する。
論文参考訳（メタデータ） (2023-05-09T23:51:14Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
On the Limits of Evaluating Embodied Agent Model Generalization Using Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文参考訳（メタデータ） (2022-05-18T23:52:21Z)
Goal-directed Generation of Discrete Structures with Conditional Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文参考訳（メタデータ） (2020-10-05T20:03:13Z)
Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文参考訳（メタデータ） (2020-06-22T21:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。