論文の概要: SPEAR: Code-Augmented Agentic Prompt Optimization
- arxiv url: http://arxiv.org/abs/2605.26275v1
- Date: Mon, 25 May 2026 19:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.370752
- Title: SPEAR: Code-Augmented Agentic Prompt Optimization
- Title(参考訳): SPEAR: コード拡張エージェントプロンプト最適化
- Authors: Mengyin Lu, Cong Feng, Huimin Han, Guangming Lu, Yu Sun, Xiaonan Ding, Shihui Long, Fengyi Li, Tanvi Motwani,
- Abstract要約: SPEAR(SandFrame Prompt Engineer with Active Roll-back)は4つのツールを備えたフリーフォームエージェントである。
Pythonツールは、複雑な判断タスクにおける最大のシングルレバーである。
- 参考スコア(独自算出の注目度): 27.161602978517706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic prompt engineering (APE) rewrites prompts to improve downstream task performance, but existing APE loops treat the optimizer itself as a fixed pipeline. We port the code-as-action paradigm of CodeAct (Wang et al., 2024a) to APE and propose SPEAR (Sandboxed Prompt Engineer with Active Roll-back), a free-form agentic optimizer with four tools -- evaluate, python, set_prompt, finish -- that decides autonomously how and when to use them. The distinctive tool is the Python sandbox: the optimizer writes and executes arbitrary Python on the current evaluation DataFrame, performing structural error analysis (confusion matrices, error clustering, per group metrics) the agent itself authors. Two guardrails turn the long-horizon agent into a monotone-improving optimizer: auto-rollback on metric regression, and an optional guard metric floor. We evaluate on three industrial LLM-as-judge suites (13 judge tasks across recruiter-intake, conversational-memory, and query-refinement systems) plus seven BBH tasks and GSM8K. SPEAR wins every industrial task on the primary metric ($κ$ 0.857 vs 0.359 on tool-selection; F1-macro 0.815 vs 0.763 on filter-relevance; $κ$ 0.254 vs 0.218 on the hardest extraction dimension). On BBH-7 SPEAR averages 0.938 accuracy vs GEPA 0.628 and TextGrad 0.484. Ablations show the Python tool is the largest single lever on complex judge tasks ($Δ\approx +0.79κ$ on the 5-class tool-selection judge, $Δ\approx +0.35κ$ on the hardest extraction dimension when removed); its irreplaceable contribution is class-pair confusion aggregation that a long-context LLM cannot extract reliably from the raw eval DataFrame.
- Abstract(参考訳): 自動プロンプトエンジニアリング(APE)は、ダウンストリームタスクのパフォーマンスを改善するプロンプトを書き換えるが、既存のAPEループはオプティマイザ自体を固定パイプラインとして扱う。
CodeAct(Wang et al , 2024a)のコード・アズ・アクション・パラダイムをAPEに移植し、SPEAR(Sandboxed Prompt Engineer with Active Roll-back)を提案する。
最適化者は現在の評価DataFrame上で任意のPythonを書き、実行し、構造的エラー解析(融合行列、エラークラスタリング、グループ単位のメトリクス)を行う。
2つのガードレールは、ロングホライゾンエージェントをモノトーン改善オプティマイザ、すなわち、メトリック回帰の自動ロールバック、オプションのガードメトリックフロアに変える。
我々は,3つの産業用LCM-as-judgeスイート(リクルータ・インテーク,会話メモリ,クエリ・リファインメント・システム)と7つのBBHタスクとGSM8Kの評価を行った。
SPEARは、一次メートル法上のすべての産業的タスク(ツール選択におけるκ$ 0.857 vs 0.359、フィルタ関連におけるF1-macro 0.815 vs 0.763、最も難しい抽出次元におけるκ$ 0.254 vs 0.218)を勝ち取る。
BBH-7 SPEAR では 0.938 の精度が GEPA 0.628 と TextGrad 0.484 である。
Pythonツールは、複雑な判断タスク(Δ\approx + 0.79κ$ on the 5-class tool-selection judge, $Δ\approx +0.35κ$ on the hardest extract dimension when removed)に対する最大のシングルレバーである。
関連論文リスト
- The 99% Success Paradox: When Near-Perfect Retrieval Equals Random Selection [1.2647816797166167]
本稿では,ビットオーバランサム(BoR)について紹介する。これは,高い成功率がランダムレベルのパフォーマンスを隠蔽することを示す検索選択度尺度である。
予測カバレッジ比$left(fracK cdot barR_qNright)$が3~5を超えると,ベースラインが支配的になり,選択性が低下することを示す。
これらの結果から,BoRは従来の指標とともに報告され,追加検索が無視可能な選択性向上をもたらす場合の深度選択を再考することが示唆された。
論文 参考訳(メタデータ) (2026-05-14T00:19:57Z) - Formalize, Don't Optimize: The Heuristic Trap in LLM-Generated Combinatorial Solvers [52.23061619664667]
大規模言語モデル(LLM)は直接推論によって複雑な問題を解くのに苦慮しているため、近年のニューロシンボリックシステムは、それを実行可能な解法を合成するためにますます利用している。
我々は,100の問題をベンチマークしたCP-SynC-XL(4,577インスタンス)を導入し,ネイティブアルゴリズム検索(Python),PythonソルバAPI(Python + OR-Tools)による制約モデリング,宣言的制約モデリングという3つのコンストラクションパラダイムを評価した。
論文 参考訳(メタデータ) (2026-05-12T17:15:45Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - FGDM: Reasoning Aware Multi-Agentic Framework for Software Bug Detection using Chain of Thought and Tree of Thought Prompting [0.0]
Flow-Graph-Driven Multi-Agent Framework (FGDM)は、シーケンシャルな操作を行う4つのエージェントで構成されている。
フレームワークは、受信したコードをフローグラフに変換し、誤ったセグメントを特定し、さらに修復されたコードを生成する。
論文 参考訳(メタデータ) (2026-04-27T17:22:15Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - Outcome-Aware Tool Selection for Semantic Routers: Latency-Constrained Learning Without LLM Inference [12.135271159221178]
Outcome-Aware Tool Selection (OATS)は、歴史的に成功したクエリのセントロイドへのツール埋め込みを補間する。
MetaTool (199tools, 4,287queries)では、NDCG@5が0.869から0.940に改善されている。
すべてのメソッドは、同じ保持された30%のテストスプリットで評価される。
論文 参考訳(メタデータ) (2026-03-13T02:13:05Z) - PyBADS: Fast and robust black-box optimization in Python [11.4219428942199]
PyBADSは、高速で堅牢なブラックボックス最適化のためのAdaptive Direct Search (BADS)アルゴリズムの実装である。
結果を実行するアルゴリズムを実行するための、使い易いPythonインターフェースとともに提供される。
論文 参考訳(メタデータ) (2023-06-27T15:54:44Z) - PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization [63.55408755562274]
審査用大言語モデル PandaLM は、いくつかの大きな言語モデルが与えられた優れたモデルを区別するために訓練されている。
PandaLMは、相対的簡潔さ、明快さ、指示への固執、包括性、形式性などの重要な主観的要因に対処する。
PandaLMはGPT-3.5の評価能力の93.75%、テストデータセットのF1スコアの88.28%を達成している。
論文 参考訳(メタデータ) (2023-06-08T10:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。