論文の概要: Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants
- arxiv url: http://arxiv.org/abs/2603.03565v1
- Date: Tue, 03 Mar 2026 22:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.111068
- Title: Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants
- Title(参考訳): Build, Judge, Optimize: マルチエージェント消費者アシスタントの継続的改善のための青写真
- Authors: Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu, Zhucheng Zhan, Charles Wright, Marcus Yearwood, Hongtai Wei, Sudeep Das,
- Abstract要約: 対話型ショッピングアシスタントの評価と最適化のための実用的な青写真を提供する。
本稿では,エンド・ツー・エンドのショッピング品質を構造化次元に分解する多面評価ルーリックを提案する。
GEPAと呼ばれるSOTAプロンプト最適化手法を2つの相補的プロンプト最適化戦略として検討した。
- 参考スコア(独自算出の注目度): 32.9249853438345
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conversational shopping assistants (CSAs) represent a compelling application of agentic AI, but moving from prototype to production reveals two underexplored challenges: how to evaluate multi-turn interactions and how to optimize tightly coupled multi-agent systems. Grocery shopping further amplifies these difficulties, as user requests are often underspecified, highly preference-sensitive, and constrained by factors such as budget and inventory. In this paper, we present a practical blueprint for evaluating and optimizing conversational shopping assistants, illustrated through a production-scale AI grocery assistant. We introduce a multi-faceted evaluation rubric that decomposes end-to-end shopping quality into structured dimensions and develop a calibrated LLM-as-judge pipeline aligned with human annotations. Building on this evaluation foundation, we investigate two complementary prompt-optimization strategies based on a SOTA prompt-optimizer called GEPA (Shao et al., 2025): (1) Sub-agent GEPA, which optimizes individual agent nodes against localized rubrics, and (2) MAMuT (Multi-Agent Multi-Turn) GEPA (Herrera et al., 2026), a novel system-level approach that jointly optimizes prompts across agents using multi-turn simulation and trajectory-level scoring. We release rubric templates and evaluation design guidance to support practitioners building production CSAs.
- Abstract(参考訳): 会話型ショッピングアシスタント(CSA)はエージェントAIの魅力的な応用であるが、プロトタイプから本番環境への移行は、マルチターンインタラクションの評価方法と密結合型マルチエージェントシステムの最適化方法という、未調査の2つの課題を明らかにしている。
グローサリーショッピングは、ユーザ要求が不明確で、非常に好意的であり、予算や在庫などの要因によって制約されるため、これらの困難をさらに増幅する。
本稿では,生産規模のAIグロサリーアシスタントを用いて,対話型ショッピングアシスタントの評価と最適化を行う実用的な青写真を提案する。
エンド・ツー・エンドのショッピング品質を構造化次元に分解する多面評価ルーブリックを導入し,人間のアノテーションに合わせた校正LLM-as-judgeパイプラインを開発した。
この評価基盤を構築すべく,(1)局部的なルーリックに対して個々のエージェントノードを最適化するサブエージェントGEPA,(2)MAMuT(Multi-Agent Multi-Turn)GEPA(Herrera et al , 2026)というSOTAプロンプト最適化手法に基づく2つの補完的なプロンプト最適化戦略を考察した。
我々は,生産型CSAを構築する実践者を支援するために,ルーブリックテンプレートと評価設計ガイダンスをリリースする。
関連論文リスト
- How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling [56.45844907505722]
二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
論文 参考訳(メタデータ) (2025-09-07T13:45:09Z) - The Future is Agentic: Definitions, Perspectives, and Open Challenges of Multi-Agent Recommender Systems [8.36558427125949]
大規模言語モデル(LLM)は、計画、記憶、外部ツールの呼び出し、相互運用が可能なエージェントエンティティへと急速に進化している。
本稿では,LLMエージェントがレコメンデーションシステムの設計空間をどう変えるかを検討する。
エージェント的抽象化を推奨対象と統一することにより、次世代のパーソナライズされ、信頼性が高く、コンテキストに富んだレコメンデーションサービスの基礎を成す。
論文 参考訳(メタデータ) (2025-07-02T19:25:44Z) - Optimizing LLM-Based Multi-Agent System with Textual Feedback: A Case Study on Software Development [14.245155142689988]
自然言語フィードバックを利用したロールベースマルチエージェントシステムのグループ最適化に関する実証事例研究を行った。
本稿では,2段階のエージェントプロンプトの最適化パイプラインを提案し,性能の低いエージェントを同定し,特定エージェントのシステムプロンプトを最適化する。
本研究では,多様な評価次元で評価されたソフトウェア開発タスクに対処するロールベースマルチエージェントシステムに対する最適化手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-05-22T00:00:27Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization [30.748085697067154]
ソクラティックガイダンス(MARS)を取り入れたマルチエージェントフレームワークを提案する。
MARSは7つのエージェントから構成され、それぞれ異なる機能を持ち、Plannerを自律的に使用して最適化パスを設計する。
提案手法の有効性を検証するため,様々なデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-21T06:19:55Z) - SiriuS: Self-improving Multi-agent Systems via Bootstrapped Reasoning [21.94477076055433]
大規模言語モデル(LLM)を利用したマルチエージェントAIシステムは、複雑なタスクの解決にますます応用されている。
マルチエージェントシステムのための自己改善型推論駆動最適化フレームワークであるSiriuSを紹介する。
SiriuSは、自己補正と自己再生の強化のために再利用可能なデータを生成しながら、マルチエージェントのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-02-07T09:33:44Z) - Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies [41.21314691388456]
対話やコラボレーションを行う複数のエージェントとして使用される大規模な言語モデルは、複雑なタスクの解決に優れています。
マルチエージェントシステム(MAS)のプロンプトやトポロジーの設計は本質的に複雑である。
複雑なMAS設計空間を効率的に活用するMAS最適化フレームワークであるMulti-Agent System Search (MASS)を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:56:44Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。