論文の概要: NEMO: Execution-Aware Optimization Modeling via Autonomous Coding Agents
- arxiv url: http://arxiv.org/abs/2601.21372v1
- Date: Thu, 29 Jan 2026 07:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.658626
- Title: NEMO: Execution-Aware Optimization Modeling via Autonomous Coding Agents
- Title(参考訳): NEMO:自律型符号化エージェントによる実行対応最適化モデリング
- Authors: Yang Song, Anoushka Vyas, Zirui Wei, Sina Khoshfetrat Pakazad, Henrik Ohlsson, Graham Neubig,
- Abstract要約: 本稿では,決定問題の自然言語記述を形式的に実行可能な数学的最適化実装に変換するシステムNEMOを提案する。
NEMOは、LLMとAPIベースのインタラクションに類似したファーストクラスの抽象化として扱われる、自律型コーディングエージェント(ACAs)とのリモートインタラクションに焦点を当てている。
ACAはサンドボックス環境で実行されるため、NEMOが生成したコードはビルドによって実行可能であり、自動検証と修復が可能である。
- 参考スコア(独自算出の注目度): 41.70615840873279
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present NEMO, a system that translates Natural-language descriptions of decision problems into formal Executable Mathematical Optimization implementations, operating collaboratively with users or autonomously. Existing approaches typically rely on specialized large language models (LLMs) or bespoke, task-specific agents. Such methods are often brittle, complex and frequently generating syntactically invalid or non-executable code. NEMO instead centers on remote interaction with autonomous coding agents (ACAs), treated as a first-class abstraction analogous to API-based interaction with LLMs. This design enables the construction of higher-level systems around ACAs that structure, consolidate, and iteratively refine task specifications. Because ACAs execute within sandboxed environments, code produced by NEMO is executable by construction, allowing automated validation and repair. Building on this, we introduce novel coordination patterns with and across ACAs, including asymmetric validation loops between independently generated optimizer and simulator implementations (serving as a high-level validation mechanism), external memory for experience reuse, and robustness enhancements via minimum Bayes risk (MBR) decoding and self-consistency. We evaluate NEMO on nine established optimization benchmarks. As depicted in Figure 1, it achieves state-of-the-art performance on the majority of tasks, with substantial margins on several datasets, demonstrating the power of execution-aware agentic architectures for automated optimization modeling.
- Abstract(参考訳): 本稿では,決定問題の自然言語による記述を,ユーザと協調的に,あるいは自律的に操作しながら,形式的な実行可能な数学的最適化実装に変換するシステムNEMOを提案する。
既存のアプローチは、通常、特殊な大規模言語モデル(LLM)や、タスク固有のエージェント(bespoke)に依存している。
このようなメソッドは、しばしば脆く、複雑で、構文的に無効または実行不可能なコードを生成する。
NEMOは代わりに、自動コーディングエージェント(ACAs)とのリモートインタラクションに焦点を当てており、LLMとのAPIベースのインタラクションに類似したファーストクラスの抽象化として扱われている。
この設計により、タスク仕様を構造化し、統合し、反復的に洗練するACA周辺の高レベルシステムを構築することができる。
ACAはサンドボックス環境で実行されるため、NEMOが生成したコードはビルドによって実行可能であり、自動検証と修復が可能である。
これには、独立に生成されたオプティマイザとシミュレータ実装間の非対称な検証ループ(ハイレベルなバリデーション機構として機能する)、経験再利用のための外部メモリ、最小ベイズリスク(MBR)デコーディングと自己整合性による堅牢性向上などが含まれる。
NEMOを9つの確立された最適化ベンチマークで評価した。
図1に示すように、タスクの大部分で最先端のパフォーマンスを実現し、いくつかのデータセットでかなりのマージンを獲得し、自動最適化モデリングのための実行対応エージェントアーキテクチャのパワーを実証している。
関連論文リスト
- ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Monadic Context Engineering [59.95390010097654]
本稿では,エージェント設計の正式な基盤を提供するために,モナディックコンテキストエンジニアリング(MCE)を紹介する。
我々は、モナドがロバストなコンポジションをどのように実現し、Applicativesが並列実行に原則化された構造を提供し、また、モナドトランスフォーマーがこれらの機能の体系的なコンポジションをどのように可能にしているかを実証する。
この階層化されたアプローチにより、開発者は、単純で独立した検証可能なコンポーネントから、複雑でレジリエントで効率的なAIエージェントを構築することができる。
論文 参考訳(メタデータ) (2025-12-27T01:52:06Z) - Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing [0.0]
本稿では,複合エージェントAIとマルチエージェントフレームワークを,規範的メンテナンスユースケースに適用する。
提案するフレームワークは、認識層、前処理層、分析層、最適化層からなる階層アーキテクチャを採用している。
特殊エージェントは、スキーマ発見、インテリジェントな特徴分析、モデル選択、規範最適化を自律的に処理する。
最初の概念実証は、2つの工業生産データセットで検証される。
論文 参考訳(メタデータ) (2025-11-23T03:06:23Z) - EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence [17.644658293987955]
身体的AIエージェントは、物理的環境における堅牢な空間認識、効果的なタスク計画、適応実行を行うことができる。
現在の大規模言語モデル (LLMs) とマルチモーダルLLM (MLLMs) の具体化タスクは、重要な制約に悩まされている。
EmbodiedBrain は 7B と 32B のパラメータサイズで利用できる新しい視覚言語基盤モデルである。
論文 参考訳(メタデータ) (2025-10-23T14:05:55Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Blueprint First, Model Second: A Framework for Deterministic LLM Workflow [3.9886771197662925]
我々は、"Blueprint First, Model Second"哲学に基づいた新しいパラダイムであるSource Code Agentフレームワークを紹介します。
私たちのフレームワークは、ワークフローロジックを生成モデルから切り離します。
我々の研究は、厳格な手続き論理に支配されるアプリケーションに自律エージェントを検証し、信頼性の高い配置を可能にする。
論文 参考訳(メタデータ) (2025-08-01T03:10:00Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - BLADE: Benchmark suite for LLM-driven Automated Design and Evolution of iterative optimisation heuristics [2.2485774453793037]
BLADEは、連続的なブラックボックス最適化コンテキストにおいてLLM駆動のAADメソッドをベンチマークするためのフレームワークである。
ベンチマーク問題とインスタンスジェネレータ、特殊化や情報エクスプロイトといった機能重視のテストを目的としたテキスト記述を統合する。
BLADEは、LCM駆動のAADアプローチを体系的に評価する、アウト・オブ・ザ・ボックスのソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-28T18:34:09Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。