論文の概要: CANTANTE: Optimizing Agentic Systems via Contrastive Credit Attribution
- arxiv url: http://arxiv.org/abs/2605.13295v1
- Date: Wed, 13 May 2026 10:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.972441
- Title: CANTANTE: Optimizing Agentic Systems via Contrastive Credit Attribution
- Title(参考訳): CANTANTE:Contrastive Credit Attributionによるエージェントシステムの最適化
- Authors: Tom Zehle,
- Abstract要約: システムレベルの報酬をエージェントごとの更新信号に分解するフレームワークであるCANTANTEを紹介する。
我々は,GEPA と MIPROv2 に対して,プログラミング,数学的推論,マルチホップ質問応答について評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based multi-agent systems have demonstrated strong performance across complex real-world tasks, such as software engineering, predictive modeling, and retrieval-augmented generation. Yet automating their configuration remains a structural challenge, as scores are available only at the system level, whereas the parameters governing agent behavior are local. We argue that optimizing these systems is fundamentally a credit-assignment problem. We therefore introduce CANTANTE, a framework that decomposes system-level rewards into per-agent update signals by contrasting rollouts of multiple joint configurations on the same query. We instantiate it for prompt optimization, treating agent prompts as learnable system parameters. We evaluate CANTANTE against GEPA and MIPROv2 on programming (MBPP), mathematical reasoning (GSM8K), and multi-hop question answering (HotpotQA). Across these benchmarks, CANTANTE achieves the best average rank among all evaluated optimizers and consistently outperforms unoptimized prompts. It improves over the strongest baseline by +18.9 percentage points on MBPP and +12.5 percentage points on GSM8K, while incurring a lower inference cost. It remains within one standard deviation of the strongest baseline on HotpotQA. Crucially, our credit correlation analysis confirms that the attributer produces meaningful per-agent signals rather than echoing the global system score.
- Abstract(参考訳): LLMベースのマルチエージェントシステムは、ソフトウェア工学、予測モデリング、検索拡張生成など、複雑な現実世界のタスクに対して強力な性能を示してきた。
スコアはシステムレベルでのみ利用可能だが、エージェントの振る舞いを管理するパラメータはローカルである。
これらのシステムを最適化することは、基本的にクレジット割り当ての問題である、と我々は主張する。
そこで,システムレベルの報酬をエージェントごとの更新信号に分解するフレームワークであるCANTANTEを導入する。
エージェントプロンプトを学習可能なシステムパラメータとして扱う。
我々は,プログラミング (MBPP), 数学的推論 (GSM8K), マルチホップ質問応答 (HotpotQA) において, GEPA と MIPROv2 に対する CANTANTE の評価を行った。
これらのベンチマーク全体で、CANTANTEは評価されたすべてのオプティマイザの中で最高の平均ランクを獲得し、最適化されていないプロンプトを一貫して上回っている。
MBPPは+18.9ポイント、GSM8Kは+12.5ポイント、推論コストは低い。
ホットポットQAにおける最強ベースラインの標準偏差の1つに留まっている。
重要な点として、我々の信用相関分析は、属性がグローバルシステムスコアを反映するのではなく、有意義なエージェントごとの信号を生成することを確認している。
関連論文リスト
- Agent-GWO: Collaborative Agents for Dynamic Prompt Optimization in Large Language Models [69.55139736609367]
Agent-GWOは複雑な推論のための動的プロンプト最適化フレームワークである。
本稿では,Agent-GWOが既存のプロンプト最適化手法よりも精度と安定性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2026-04-14T07:35:37Z) - Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning [68.85408801740228]
協調型マルチエージェント強化学習問題としてトポロジ選択を再構成する強化学習フレームワークである textbfAgent Q-Mix を提案する。
提案手法は,Qmix値分解を用いて分散化された通信決定を学習し,各エージェントがラウンドワイド通信グラフを共同生成する一連の通信行動から選択する。
エージェントQ-Mixは,エージェント故障に対して優れたトークン効率とロバスト性を示しながら,既存手法と比較して高い平均精度を達成する。
論文 参考訳(メタデータ) (2026-04-01T00:38:24Z) - Auto-Prompting with Retrieval Guidance for Frame Detection in Logistics [0.0]
プロンプトエンジニアリングは、大規模な言語モデル(LLM)を大規模な微調整を必要とせずに複雑な推論やラベル付けタスクに適応する上で重要な役割を担っている。
本稿では,ロジスティクステキストにおけるフレーム検出のための新しいプロンプト最適化パイプラインを提案し,検索強化生成(RAG),少数ショットプロンプト,チェーン・オブ・シークレット(CoT)推論,自動CoT合成(Auto-CoT)を組み合わせて,タスク固有のプロンプトを生成する。
このフレームワークは実世界のロジスティクステキストアノテーションタスクで評価され、推論精度とラベリング効率が重要となる。
論文 参考訳(メタデータ) (2025-12-22T10:29:51Z) - Stochastic Self-Organization in Multi-Agent Systems [28.70691568233268]
LLM(Large Language Models)に基づくマルチエージェントシステム(MAS)は、単一のLLMの範囲を超えているタスクを解く可能性がある。
通信をオンザフライで適応する応答条件付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T09:08:04Z) - Maestro: Joint Graph & Config Optimization for Reliable AI Agents [53.71882250666667]
Maestro は LLM エージェントのための全体論的に依存しないフレームワークであり、エージェントの品質を最大化するためにグラフや構成を共同で検索する。
IFBenchとHotpotQAのベンチマークでは、MIPROv2、GEPA、GEPA+といった主要なプロンプトを平均12%--4.9%、それぞれ4.86%上回っている。
論文 参考訳(メタデータ) (2025-09-04T20:00:37Z) - Optimizing the Interface Between Knowledge Graphs and LLMs for Complex Reasoning [0.0]
知識グラフを用いた大規模言語モデル(LLM)
Cognaneは、エンドツーエンドのKG構築と検索のためのモジュラーフレームワークである。
チャンキング、グラフ構築、検索、プロンプトに関連するパラメータを最適化する。
論文 参考訳(メタデータ) (2025-05-30T11:27:59Z) - FlowReasoner: Reinforcing Query-Level Meta-Agents [63.602173107171076]
本稿では,クエリレベルのマルチエージェントシステムの設計を自動化するために,FlowReasonerというクエリレベルのメタエージェントを提案する。
私たちの中核的な考え方は、外部の実行フィードバックを通じて推論ベースのメタエージェントをインセンティブ化することです。
論文 参考訳(メタデータ) (2025-04-21T17:35:42Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。