論文の概要: SAGE: A Top-Down Bottom-Up Knowledge-Grounded User Simulator for Multi-turn AGent Evaluation
- arxiv url: http://arxiv.org/abs/2510.11997v1
- Date: Mon, 13 Oct 2025 22:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.11195
- Title: SAGE: A Top-Down Bottom-Up Knowledge-Grounded User Simulator for Multi-turn AGent Evaluation
- Title(参考訳): SAGE:マルチターンアジェント評価のためのトップダウンボトムアップ知識収集ユーザシミュレータ
- Authors: Ryan Shea, Yunan Lu, Liang Qiu, Zhou Yu,
- Abstract要約: マルチターンアジェント評価のための新しいユーザシミュレーションフレームワークであるSAGEを提案する。
SAGEには、理想的な顧客プロファイルのようなビジネスロジックに根ざしたトップダウンの知識が組み込まれています。
このアプローチはより現実的で多様なインタラクションを生み出し、最大で33%のエージェントエラーを識別する。
- 参考スコア(独自算出の注目度): 17.11268616243772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating multi-turn interactive agents is challenging due to the need for human assessment. Evaluation with simulated users has been introduced as an alternative, however existing approaches typically model generic users and overlook the domain-specific principles required to capture realistic behavior. We propose SAGE, a novel user Simulation framework for multi-turn AGent Evaluation that integrates knowledge from business contexts. SAGE incorporates top-down knowledge rooted in business logic, such as ideal customer profiles, grounding user behavior in realistic customer personas. We further integrate bottom-up knowledge taken from business agent infrastructure (e.g., product catalogs, FAQs, and knowledge bases), allowing the simulator to generate interactions that reflect users' information needs and expectations in a company's target market. Through empirical evaluation, we find that this approach produces interactions that are more realistic and diverse, while also identifying up to 33% more agent errors, highlighting its effectiveness as an evaluation tool to support bug-finding and iterative agent improvement.
- Abstract(参考訳): ヒューマンアセスメントの必要性から,マルチターン対話エージェントの評価は困難である。
シミュレーションユーザによる評価は代替手段として紹介されているが、既存のアプローチは一般的にジェネリックユーザをモデル化し、現実的な振る舞いを捉えるために必要なドメイン固有の原則を見落としている。
ビジネスコンテキストから知識を統合するマルチターンアジェント評価のための新しいユーザシミュレーションフレームワークであるSAGEを提案する。
SAGEには、理想的な顧客プロファイルのようなビジネスロジックに根ざしたトップダウンの知識が組み込まれており、現実的な顧客ペルソナのユーザ行動の基盤となっている。
さらに、ビジネスエージェントのインフラ(製品カタログ、FAQ、知識ベースなど)から得たボトムアップ知識を統合し、シミュレーターが企業のターゲット市場におけるユーザーの情報ニーズや期待を反映したインタラクションを生成できるようにする。
実験的な評価により,本手法はより現実的で多様なインタラクションを生成すると同時に,最大33%のエージェントエラーを識別し,バグフィリングと反復的エージェント改善をサポートする評価ツールとしての有効性を強調した。
関連論文リスト
- Beyond Static Evaluation: Rethinking the Assessment of Personalized Agent Adaptability in Information Retrieval [12.058221341033835]
適応型パーソナライゼーションにおける評価を再考するための概念レンズを提案する。
このレンズは,(1)時間的に進化する嗜好モデルを用いたペルソナベースユーザシミュレーション,(2)参照インタビューに触発されてコンテキスト内での嗜好を抽出する構造化エリケーションプロトコル,(3)エージェントの行動がセッションやタスク間でどのように改善されるかを測定する適応型評価メカニズムの3つを中心に構成されている。
論文 参考訳(メタデータ) (2025-10-05T00:35:37Z) - RecoWorld: Building Simulated Environments for Agentic Recommender Systems [55.979427290369216]
エージェントレコメンデータシステムに適したシミュレーション環境を構築するための青写真であるRecoWorldを提示する。
ユーザシミュレータは、推奨項目をレビューし、その考え方を更新し、潜在的なユーザ切り離しを感知すると、反射指示を生成する。
エージェント推奨者は、これらのユーザ命令と推論トレースを取り入れ、ダイナミックなフィードバックループを作成することで、そのレコメンデーションに適応する。
論文 参考訳(メタデータ) (2025-09-12T16:44:34Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - Dynamic Evaluation Framework for Personalized and Trustworthy Agents: A Multi-Session Approach to Preference Adaptability [10.443994990138973]
我々は、パーソナライズされた適応的なエージェントを評価するパラダイムシフトについて論じる。
本稿では,ユニークな属性と好みを持つユーザペルソナをモデル化する包括的新しいフレームワークを提案する。
私たちのフレキシブルなフレームワークは、さまざまなエージェントやアプリケーションをサポートし、レコメンデーション戦略の包括的で汎用的な評価を保証するように設計されています。
論文 参考訳(メタデータ) (2025-03-08T22:50:26Z) - A Meta-learning based Stacked Regression Approach for Customer Lifetime
Value Prediction [3.6002910014361857]
顧客ライフタイムバリュー(英:Customer Lifetime Value、CLV)とは、取引/購入の合計金額である。
CLVは、銀行、保険、オンラインエンタテインメント、ゲーム、Eコマースなど、いくつかの異なるビジネスドメインでアプリケーションを見つける。
本稿では,効果的かつ包括的かつシンプルかつ解釈可能なシステムを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:22:02Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Unsatisfied Today, Satisfied Tomorrow: a simulation framework for
performance evaluation of crowdsourcing-based network monitoring [68.8204255655161]
本稿では, 性能の低い細胞の検出品質を評価するための実験フレームワークを提案する。
このフレームワークは、満足度調査のプロセスとユーザの満足度予測の両方をシミュレートする。
シミュレーションフレームワークを用いて、一般的なシナリオにおいて、性能の低いサイト検出の性能を実証的にテストする。
論文 参考訳(メタデータ) (2020-10-30T10:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。