論文の概要: CP-Agent: Agentic Constraint Programming
- arxiv url: http://arxiv.org/abs/2508.07468v1
- Date: Sun, 10 Aug 2025 19:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.869587
- Title: CP-Agent: Agentic Constraint Programming
- Title(参考訳): CP-Agent:エージェント制約プログラミング
- Authors: Stefan Szeider,
- Abstract要約: 自然言語問題記述を形式的制約モデルに変換することは、制約プログラミングにおける根本的な課題である。
以前のアプローチでは、所定のモデリングステップで固定され、かなりの数のベンチマーク問題に失敗していた。
固定パイプラインのない純粋なエージェント戦略を用いた新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 23.191983095692223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating natural language problem descriptions into formal constraint models remains a fundamental challenge in constraint programming, requiring deep expertise in both the problem domain and modeling frameworks. Previous approaches to automating this translation have employed fixed workflows with predetermined modeling steps, failing on a significant number of benchmark problems. We present a new approach using a pure agentic strategy without any fixed pipeline. We developed a general-purpose Python coding agent based on the ReAct (Reason and Act) principle, utilizing a persistent IPython kernel for stateful code execution and iterative development. Rather than embedding constraint programming logic into the agent architecture, domain-specific expertise is injected solely through a carefully crafted project prompt. The agent combines this prompt-encoded knowledge with access to file operations and code execution tools, enabling it to test hypotheses, debug failures, and verify solutions dynamically. Implemented in just a few hundred lines of code, this architecture successfully solves all 101 problems of the CP-Bench constraint programming benchmark set. The results suggest that constraint modeling tasks require the combination of general coding tools and domain expertise encoded in prompts, rather than specialized agent architectures or predefined workflows.
- Abstract(参考訳): 自然言語による問題記述を形式的な制約モデルに変換することは、問題領域とモデリングフレームワークの両方で深い専門知識を必要とする、制約プログラミングにおける根本的な課題である。
この翻訳を自動化するための従来のアプローチは、所定のモデリングステップを持つ固定されたワークフローを採用しており、かなりの数のベンチマーク問題で失敗している。
固定パイプラインのない純粋なエージェント戦略を用いた新しいアプローチを提案する。
我々はReAct(Reason and Act)原則に基づく汎用Pythonコーディングエージェントを開発し、永続的なIPythonカーネルをステートフルコード実行と反復開発に利用した。
制約プログラミングロジックをエージェントアーキテクチャに組み込むのではなく、ドメイン固有の専門知識は、慎重に構築されたプロジェクトプロンプトを通じてのみ注入される。
このエージェントは、このプロンプトエンコードされた知識とファイル操作とコード実行ツールへのアクセスを組み合わせることで、仮説のテスト、障害のデバッグ、ソリューションの動的検証を可能にする。
わずか数百行のコードで実装されたこのアーキテクチャは、CP-Bench制約プログラミングベンチマークセットの101問題を全て解決することに成功している。
その結果、制約モデリングタスクは、特殊なエージェントアーキテクチャや事前に定義されたワークフローではなく、一般的なコーディングツールとプロンプトでコード化されたドメインの専門知識の組み合わせを必要とすることが示唆された。
関連論文リスト
- Blueprint First, Model Second: A Framework for Deterministic LLM Workflow [3.9886771197662925]
我々は、"Blueprint First, Model Second"哲学に基づいた新しいパラダイムであるSource Code Agentフレームワークを紹介します。
私たちのフレームワークは、ワークフローロジックを生成モデルから切り離します。
我々の研究は、厳格な手続き論理に支配されるアプリケーションに自律エージェントを検証し、信頼性の高い配置を可能にする。
論文 参考訳(メタデータ) (2025-08-01T03:10:00Z) - AgentMesh: A Cooperative Multi-Agent Generative AI Framework for Software Development Automation [0.0]
ソフトウェア開発タスクの自動化に複数のLCMエージェントを併用したPythonベースのフレームワークを提案する。
AgentMeshでは、Planner、Coder、Debugger、Reviewerといった特殊なエージェントが協力して、ハイレベルな要件を完全に実現されたコードに変換する。
論文 参考訳(メタデータ) (2025-07-26T10:10:02Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents [40.37993572657772]
本稿では,コード修復タスクを自動的に生成するベンチマーク手法であるBreakpointを紹介する。
我々の手法は、最も簡単なタスクの55%から最も難しいタスクの0%まで、最先端のモデルの成功率で任意の難易度にスケール可能であることを実証する。
論文 参考訳(メタデータ) (2025-05-30T19:23:51Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。
GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文 参考訳(メタデータ) (2025-03-13T03:40:50Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - AEGIS: An Agent-based Framework for General Bug Reproduction from Issue Descriptions [10.686849324750556]
gEneral buG reproductIon Scripts 生成フレームワークは AEGIS という名称で、タスクのための最初のエージェントベースのフレームワークである。
AEGISは、Agentlessの相対的な解決率を12.5%向上させることができる。
論文 参考訳(メタデータ) (2024-11-27T03:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。