論文の概要: Sell More, Play Less: Benchmarking LLM Realistic Selling Skill
- arxiv url: http://arxiv.org/abs/2604.07054v1
- Date: Wed, 08 Apr 2026 13:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.54416
- Title: Sell More, Play Less: Benchmarking LLM Realistic Selling Skill
- Title(参考訳): LLMのリアルな販売スキルのベンチマーク
- Authors: Xuanbo Su, Wenhao Hu, Le Zhan, Yanqi Yang, Leo Huang,
- Abstract要約: SalesLLMは、金融サービスと消費者製品をカバーする現実的なアプリケーションのベンチマークである。
SalesLLMのスコアは、専門家の人間格付けと強く相関している。
成果指向の販売エージェントの開発と評価のためのスケーラブルなベンチマークとして機能する。
- 参考スコア(独自算出の注目度): 1.1559341355776336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sales dialogues require multi-turn, goal-directed persuasion under asymmetric incentives, which makes them a challenging setting for large language models (LLMs). Yet existing dialogue benchmarks rarely measure deal progression and outcomes. We introduce SalesLLM, a bilingual (ZH/EN) benchmark derived from realistic applications covering Financial Services and Consumer Goods, built from 30,074 scripted configurations and 1,805 curated multi-turn scenarios with controllable difficulty and personas. We propose a fully automatic evaluation pipeline that combines (i) an LLM-based rater for sales-process progress, and (ii) fine-tuned BERT classifiers for end-of-dialogue buying intent. To improve simulation fidelity, we train a user model, CustomerLM, with SFT and DPO on 8,000 crowdworker-involved sales conversations, reducing role inversion from 17.44% (GPT-4o) to 8.8%. SalesLLM scores correlate strongly with expert human ratings (Pearson r=0.98). Experiments across 15 mainstream LLMs reveal substantial variability: top-performance LLMs are competitive with human-level performance while the less capable ones are worse than human. SalesLLM serves as a scalable benchmark for developing and evaluating outcome-oriented sales agents.
- Abstract(参考訳): セールスダイアログは非対称なインセンティブの下で多ターンでゴール指向の説得を必要とするため、大きな言語モデル(LLM)では困難な設定となっている。
しかし、既存の対話ベンチマークは、取引の進行と結果を測定することはめったにない。
筆者らは,30,074のスクリプト構成と1,805のキュレートされたマルチターンシナリオから構築した,金融サービスと消費者商品をカバーする現実的なアプリケーションから派生したバイリンガル(ZH/EN)ベンチマークであるSalesLLMを紹介する。
組み合わせた完全自動評価パイプラインを提案する。
一 販売プロセスの進捗のためのLLMベースのレーダ、及び
(ii)エンド・オブ・ダイアログ購入意図のための細調整BERT分類器。
シミュレーション忠実度を向上させるため,SFTとDPOによるユーザモデルであるCustomerLMを,8000人のクラウドワーカーが関与する営業会話でトレーニングし,役割のインバージョンを17.44%(GPT-4o)から8.8%に短縮した。
セールスLLMスコアは、専門家の人間格付けと強く相関している(Pearson r=0.98)。
トップパフォーマンスのLSMは人間レベルのパフォーマンスと競合するが、能力の低いLSMは人間よりも悪い。
SalesLLMは、成果指向のセールスエージェントの開発と評価のためのスケーラブルなベンチマークとして機能する。
関連論文リスト
- ShopSimulator: Evaluating and Exploring RL-Driven LLM Agent for Shopping Assistants [30.950450014358722]
大規模かつ挑戦的な中国のショッピング環境であるShopSimulatorを紹介した。
様々なシナリオにまたがってLCMを評価し、最高の性能のモデルでさえ40%未満の完全成功率を達成することを発見した。
さらなる訓練は、これらの弱点を克服するための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2026-01-26T07:24:28Z) - CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions [85.88573535033406]
CRMArena-Proは、多種多様なプロフェッショナル環境でのLLMエージェントの総合的で現実的な評価のための新しいベンチマークである。
多様なペルソナと堅牢な機密性意識評価によって導かれるマルチターンインタラクションが組み込まれている。
実験によると、主要なLLMエージェントはCRMArena-Proで58%のシングルターン成功しか達成せず、パフォーマンスはマルチターン設定で約35%に大幅に低下している。
論文 参考訳(メタデータ) (2025-05-24T21:33:22Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Measuring Bargaining Abilities of LLMs: A Benchmark and A Buyer-Enhancement Method [17.388837360641276]
本稿では,Bargainingタスクを非対称な不完全情報ゲームとして記述する。
これにより、Bargainタスクにおけるエージェントのパフォーマンスを定量的に評価することができます。
本稿では,OG-Narratorと呼ばれる新手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:36:58Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。