論文の概要: Evaluating Multi-Turn Bargain Skills in LLM-Based Seller Agent
- arxiv url: http://arxiv.org/abs/2509.06341v1
- Date: Mon, 08 Sep 2025 05:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.981425
- Title: Evaluating Multi-Turn Bargain Skills in LLM-Based Seller Agent
- Title(参考訳): LLM型販売機におけるマルチターンバーゲン技術の評価
- Authors: Issue Yishu Wang, Kakam Chong, Xiaofeng Wang, Xu Yan, DeXin Kong, Chen Ju, Ming Chen, Shuai Xiao, Shuguang Han, jufeng chen,
- Abstract要約: 本稿では,eコマース対話における販売業者の交渉能力を評価するためのマルチターン評価フレームワークを提案する。
コントリビューションは,(1)622のカテゴリ,9,892の製品,3,014のタスクにまたがる大規模なeコマースバーゲティングベンチマーク,(2)アノテートされた購入者意図を持つマインド理論に基づくターンレベルの評価フレームワーク,(3)大量の対話データから信頼性の高い意図を抽出する自動パイプラインである。
- 参考スコア(独自算出の注目度): 20.0134260493017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In online second-hand marketplaces, multi-turn bargaining is a crucial part of seller-buyer interactions. Large Language Models (LLMs) can act as seller agents, negotiating with buyers on behalf of sellers under given business constraints. A critical ability for such agents is to track and accurately interpret cumulative buyer intents across long negotiations, which directly impacts bargaining effectiveness. We introduce a multi-turn evaluation framework for measuring the bargaining ability of seller agents in e-commerce dialogues. The framework tests whether an agent can extract and track buyer intents. Our contributions are: (1) a large-scale e-commerce bargaining benchmark spanning 622 categories, 9,892 products, and 3,014 tasks; (2) a turn-level evaluation framework grounded in Theory of Mind (ToM) with annotated buyer intents, moving beyond outcome-only metrics; and (3) an automated pipeline that extracts reliable intent from massive dialogue data.
- Abstract(参考訳): オンライン中古市場では、マルチターン取引は売り手と買い手の相互作用にとって重要な部分だ。
大規模言語モデル(LLM)は売り手エージェントとして機能し、与えられたビジネス制約の下で売り手に代わって買い手と交渉する。
このようなエージェントにとって重要な能力は、長期交渉を通じて累積購入者の意図を追跡し、正確に解釈することであり、これは交渉効果に直接影響を及ぼす。
本稿では,eコマース対話における販売業者の交渉能力を評価するためのマルチターン評価フレームワークを提案する。
フレームワークは、エージェントが購入者の意図を抽出し追跡できるかどうかをテストする。
コントリビューションは,(1)622のカテゴリ,9,892の製品,3,014のタスクにまたがる大規模eコマースバーゲティングベンチマーク,(2)アノテートされた買い手意図をベースとしたターンレベルの評価フレームワーク,(3)大量の対話データから信頼性の高い意図を抽出する自動パイプラインである。
関連論文リスト
- FishBargain: An LLM-Empowered Bargaining Agent for Online Fleamarket Platform Sellers [26.343587134457415]
そこで本研究では,オンラインフリーマーケットプラットフォーム販売者を対象に,LLMを利用したバーゲンエージェントを提案している。
FishBargainは、チャットコンテキストと製品情報を理解し、敵対的行為を考慮に入れたアクションと言語スキルを選択し、発話を生成する。
定性的かつ定量的な実験は、FishBargainが売り手がより多くの取引を行うのに効果的に役立つことを実証している。
論文 参考訳(メタデータ) (2025-01-22T06:12:25Z) - Measuring Bargaining Abilities of LLMs: A Benchmark and A Buyer-Enhancement Method [17.388837360641276]
本稿では,Bargainingタスクを非対称な不完全情報ゲームとして記述する。
これにより、Bargainタスクにおけるエージェントのパフォーマンスを定量的に評価することができます。
本稿では,OG-Narratorと呼ばれる新手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:36:58Z) - Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues [47.977032883078664]
我々は,ビジネス交渉における対話者を支援する大規模言語モデル(LLM)に基づく支援エージェントを開発する。
第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換える仲介役として機能する。
3つの異なる交渉トピックにわたる交渉において,その効果を示すための実証的証拠を豊富に提供する。
論文 参考訳(メタデータ) (2024-01-29T09:07:40Z) - Salespeople vs SalesBot: Exploring the Role of Educational Value in
Conversational Recommender Systems [78.84530426424838]
既存の会話レコメンデータシステムは、ユーザのバックグラウンド知識の欠如をよく見落とし、好みの収集にのみ焦点をあてる。
このようなシステムのシミュレーションと評価を容易にするフレームワークであるSalesOpsを紹介する。
私たちは、フレームワークの両側をシミュレートできるLLMベースのエージェントであるSalesBotとShopperBotを構築しています。
論文 参考訳(メタデータ) (2023-10-26T19:44:06Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Improving Language Model Negotiation with Self-Play and In-Context
Learning from AI Feedback [97.54519989641388]
交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。
私たちが考慮している言語モデルのサブセットだけが、AIフィードバックから自己プレイし、取引価格を改善することができます。
論文 参考訳(メタデータ) (2023-05-17T11:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。