論文の概要: Prompt Optimization via Retrieved Reasoning Assets and Multi-Agent Analysis
- arxiv url: http://arxiv.org/abs/2510.16635v1
- Date: Sat, 18 Oct 2025 20:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.074683
- Title: Prompt Optimization via Retrieved Reasoning Assets and Multi-Agent Analysis
- Title(参考訳): Retrieved Reasoning Assetsによるプロンプト最適化とマルチエージェント解析
- Authors: Wonduk Seo, Juhyeon Lee, Junseo Koh, Hyunjin An, Jian Park, Seunghyun Lee, Haihua Chen, Yi Bu,
- Abstract要約: スコア・アウェア・プロンプト最適化のためのマルチエージェントフレームワークであるMA-SAPOを紹介する。
従来の手法と比較して、MA-SAPOは、体系的な編集を導く構造的推論と評価結果を明示的に結合する。
評価信号を解釈可能な推論連鎖に変換することで、MA-SAPOはより透明で、監査可能で、制御可能な、迅速な改善を生成する。
- 参考スコア(独自算出の注目度): 5.935239028627343
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prompt optimization has emerged as an effective alternative to retraining for improving the performance of Large Language Models (LLMs). However, most existing approaches treat evaluation as a black box, relying solely on numerical scores while offering limited insight into why a prompt succeeds or fails. They also depend heavily on trial-and-error refinements, which are difficult to interpret and control. In this paper, we introduce MA-SAPO, a Multi-Agent framework for Score-Aware Prompt Optimization. Compared to prior methods, MA-SAPO explicitly couples evaluation outcomes with structured reasoning to guide systematic edits. The framework specifically consists of two stages: during the Reasoning Phase, agents collaboratively explain metric scores, diagnose weaknesses, and synthesize targeted refinements that are stored as reusable reasoning assets; during the Test Phase, agents retrieve these assets to analyze optimized prompts and apply only evidence-grounded edits. By turning evaluation signals into interpretable reasoning chains, MA-SAPO produces prompt refinements that are more transparent, auditable, and controllable. Experiments on the HelpSteer1/2 benchmarks demonstrate consistent improvements over single-pass prompting, retrieval-augmented baselines, and prior multi-agent strategies, validating the effectiveness of our approach.
- Abstract(参考訳): プロンプト最適化は、LLM(Large Language Models)の性能向上のためのリトレーニングの効果的な代替手段として登場した。
しかし、既存のほとんどのアプローチはブラックボックスとしての評価を扱い、数値的なスコアのみに頼りながら、なぜプロンプトが成功するか、失敗するかについての限られた洞察を与えている。
それらはまた、解釈と制御が難しい試行錯誤の改良にも大きく依存している。
本稿では,Score-Aware Prompt OptimizationのためのマルチエージェントフレームワークであるMA-SAPOを紹介する。
従来の手法と比較して、MA-SAPOは、体系的な編集を導く構造的推論と評価結果を明示的に結合する。
このフレームワークは特に2つの段階で構成されている: 推論フェーズの間、エージェントはメトリクススコアを共同で説明し、弱点を診断し、再利用可能な推論資産として格納されるターゲットリファインメントを合成する。
評価信号を解釈可能な推論連鎖に変換することで、MA-SAPOはより透明で、監査可能で、制御可能な、迅速な改善を生成する。
HelpSteer1/2ベンチマークの実験では、シングルパスプロンプト、検索拡張ベースライン、および事前マルチエージェント戦略に対する一貫した改善が示され、このアプローチの有効性が検証された。
関連論文リスト
- Beyond the Final Answer: Evaluating the Reasoning Trajectories of Tool-Augmented Agents [22.781523439717223]
エージェントのパフォーマンスを適切に評価するには、最終回答を超え、問題解決の軌跡も評価する必要がある。
ツール拡張LDMエージェント性能の多次元評価のためのフレームワークであるTRACEを紹介する。
TRACEはこれらの複雑な挙動を,スケーラブルで費用対効果の高い方法で正確に評価する。
論文 参考訳(メタデータ) (2025-10-03T09:19:15Z) - Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization [6.3914079241545885]
提案するCRPO(Contrastive Reasoning Prompt Optimization)は,検索強化推論プロセスとして迅速な最適化を定式化する新しいフレームワークである。
提案手法では,HelpSteer2データセットからトップk参照プロンプト-レスポンスペアを検索する。
CRPOは、高品位と低品位を明示的に対比することにより、あるプロンプトが成功する理由を推論し、他のプロンプトが失敗する理由を推測することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T08:45:29Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。