論文の概要: PrefBench: Evaluating Zero-Shot LLM Agents in Hidden-Preference Personalized Pricing Negotiations
- arxiv url: http://arxiv.org/abs/2605.22855v1
- Date: Tue, 19 May 2026 04:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:19.997593
- Title: PrefBench: Evaluating Zero-Shot LLM Agents in Hidden-Preference Personalized Pricing Negotiations
- Title(参考訳): PrefBench:Hidden-Preference Personalized Pricing NegotiationsにおけるゼロショットLDMエージェントの評価
- Authors: Yingjie Lei,
- Abstract要約: PrefBenchは、暗黙の推論パーソナライズされた価格交渉のためのシミュレータベースのベンチマークである。
提案するPrefBenchは,隠れた買い手選好下での価格-エージェント行動を評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 0.18275108630751835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized pricing negotiations are a challenging testbed for LLM agents because successful interaction does not guarantee profitable decision making. A seller may produce valid actions and close many deals while still pricing poorly when buyer willingness to pay and bargaining traits remain hidden. This paper presents PrefBench, a simulator-based benchmark for hidden-preference personalized pricing negotiations. Each episode pairs a simulated buyer with a fixed vehicle-customization bundle; the seller observes public persona descriptors, bundle information, and negotiation history, while latent buyer variables govern valuation, patience, counter-offer behavior, and walkaway decisions. PrefBench evaluates this setting through an LLM-facing state-summary protocol that constrains agents to return strict JSON actions under a fixed hidden-information boundary. We evaluate zero-shot LLM sellers against heuristic references over 7,500 episodes. The tested LLMs follow the protocol reliably and achieve deal rates above 0.99, but their seller-profit outcomes remain weak: the best LLM average profit is only slightly above the random baseline and far below a simple concession heuristic under the same episode stream. These results show that structured action compliance and agreement-seeking behavior can coexist with weak profit-sensitive bargaining. PrefBench provides a controlled benchmark for evaluating pricing-agent behavior under hidden buyer preferences.
- Abstract(参考訳): パーソナライズされた価格交渉は、LLMエージェントにとって困難なテストベッドである。
売り手は、有効な行動を生み出し、多くの取引をクローズするが、買い手が支払いや取引の禁止を隠したままにした場合、価格が下がらない。
本稿では,隠れ参照型パーソナライズされた価格交渉のためのシミュレータベースのベンチマークであるPrefBenchを提案する。
売り手は公開人格記述、バンドル情報、交渉履歴を観察し、潜伏した買い手変数は評価、忍耐、反オフダー動作、ウォーカウェイ決定を管理する。
PrefBench氏は、固定された隠された情報境界の下で、エージェントが厳格なJSONアクションを返すことを制約するLLM対応のステートサマリプロトコルを通じて、この設定を評価している。
7500回以上のヒューリスティック参照に対してゼロショットLLMセラーを評価した。
試験されたLLMはプロトコルを確実に追従し、0.99以上の取引率を達成するが、販売者の利益は依然として弱く、最高のLLM平均利益はランダムベースラインよりわずかに高く、同じエピソードストリームの下で単純な譲歩ヒューリスティックよりはるかに低い。
これらの結果から, 構造的行動コンプライアンスと合意探索行動は, 弱利益感性交渉と共存する可能性が示唆された。
PrefBenchは、隠れた購入者の好みの下で価格-エージェントの振る舞いを評価するための制御されたベンチマークを提供する。
関連論文リスト
- TERMS-Bench: Diagnosing LLM Negotiation Agents Beyond Deal Rate [34.67393151003599]
交渉はエージェント言語モデルのための標準的なテストベッドである。
数学やコードとは異なり、本質的な検証がない。
本稿では,環境自体を検証対象とするベイズゲームフレームワークであるTerms-Benchを紹介する。
論文 参考訳(メタデータ) (2026-05-13T06:22:50Z) - Predicting Decisions of AI Agents from Limited Interaction through Text-Tabular Modeling [20.47884338846419]
AIエージェントは、未知のエージェントと自然言語で交渉し、トランザクションします。
このような相互作用では、相手のLSM、プロンプト、制御ロジック、ルールベースのフォールバックが隠される。
エージェントがいくつかのインタラクションから、不慣れな相手の次の決定を予測できるかどうかを問う。
論文 参考訳(メタデータ) (2026-05-12T17:09:32Z) - Can LLM Agents Simulate Multi-Turn Human Behavior? Evidence from Real Online Customer Behavior Data [46.65903742010956]
本研究では,人間の行動を正確にシミュレートする,最先端のLDMの能力の大規模定量的評価を行った。
230,965件のユーザアクションを含む31,865件のオンラインショッピングセッションから得られた実世界データを用いて,プロンプトベースのLCMが人間の行動生成においてわずか11.86%の精度で達成できることを明らかにする。
また, 実クリックスルーデータに対して, モデルの性能を大幅に向上させる手法として, 実クリックスルーデータに対する微調整 LLM の戦略を提示する。
論文 参考訳(メタデータ) (2025-03-26T17:33:27Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究は,プライバシ保証付きアクティベーションを編集するPSA(Private Steering for LLM Alignment)アルゴリズムを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Measuring Bargaining Abilities of LLMs: A Benchmark and A Buyer-Enhancement Method [17.388837360641276]
本稿では,Bargainingタスクを非対称な不完全情報ゲームとして記述する。
これにより、Bargainタスクにおけるエージェントのパフォーマンスを定量的に評価することができます。
本稿では,OG-Narratorと呼ばれる新手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:36:58Z) - How Well Can LLMs Negotiate? NegotiationArena Platform and Analysis [50.15061156253347]
人間は自動車の価格から共通の資源の共有方法まで、あらゆることを交渉する。
大規模言語モデル(LLM)を人間の代理エージェントとして使うことへの関心が急速に高まっているため、そのようなLLMエージェントも交渉できる必要がある。
我々は,LLMエージェントの交渉能力を評価し,検証するためのフレキシブルなフレームワークであるNegotiationArenaを開発した。
論文 参考訳(メタデータ) (2024-02-08T17:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。