論文の概要: ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders
- arxiv url: http://arxiv.org/abs/2602.16938v1
- Date: Wed, 18 Feb 2026 23:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.505754
- Title: ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders
- Title(参考訳): ConvApparel:会話レコメンデーションにおけるユーザシミュレータのためのベンチマークデータセットと検証フレームワーク
- Authors: Ofer Meshi, Krisztian Balog, Sally Goldman, Avi Caciularu, Guy Tennenholtz, Jihwan Jeong, Amir Globerson, Craig Boutilier,
- Abstract要約: このギャップに対処するために設計された、人間とAIの会話の新しいデータセットであるConvApparelを紹介します。
そのユニークなデュアルエージェントデータ収集プロトコル -- "よい" と "悪い" のレコメンデータを使用する -- は、偽物検証を可能にする。
本稿では,統計的アライメント,人間的類似度スコア,および対実的検証を組み合わせた総合的検証フレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.83868690303791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The promise of LLM-based user simulators to improve conversational AI is hindered by a critical "realism gap," leading to systems that are optimized for simulated interactions, but may fail to perform well in the real world. We introduce ConvApparel, a new dataset of human-AI conversations designed to address this gap. Its unique dual-agent data collection protocol -- using both "good" and "bad" recommenders -- enables counterfactual validation by capturing a wide spectrum of user experiences, enriched with first-person annotations of user satisfaction. We propose a comprehensive validation framework that combines statistical alignment, a human-likeness score, and counterfactual validation to test for generalization. Our experiments reveal a significant realism gap across all simulators. However, the framework also shows that data-driven simulators outperform a prompted baseline, particularly in counterfactual validation where they adapt more realistically to unseen behaviors, suggesting they embody more robust, if imperfect, user models.
- Abstract(参考訳): LLMベースのユーザシミュレーターが会話AIを改善するという約束は、重要な「リアリズムギャップ」によって妨げられ、シミュレートされたインタラクションに最適化されるが、現実世界ではうまく機能しない可能性がある。
このギャップに対処するために設計された、人間とAIの会話の新しいデータセットであるConvApparelを紹介します。
そのユニークなデュアルエージェントデータ収集プロトコル -- "よい" と "悪い" のレコメンデータの両方を使って -- は、ユーザ満足度のファーストパーソンアノテーションに富んだ幅広いユーザエクスペリエンスをキャプチャすることで、偽物検証を可能にする。
本稿では,統計的アライメント,人間的類似度スコア,および一般化のための実証のための対実的検証を組み合わせた総合的検証フレームワークを提案する。
実験の結果,すべてのシミュレータにおいて大きなリアリズムギャップが明らかとなった。
しかし、このフレームワークはまた、データ駆動シミュレータが引き起こされたベースライン、特に非現実的な振る舞いにより現実的に適応する反ファクト的検証において、より堅牢で不完全なユーザモデルを具現化することを示す。
関連論文リスト
- Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:37:30Z) - Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。
USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-26T09:26:54Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。