論文の概要: Failure Prediction in Conversational Recommendation Systems
- arxiv url: http://arxiv.org/abs/2507.17976v1
- Date: Wed, 23 Jul 2025 22:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.645093
- Title: Failure Prediction in Conversational Recommendation Systems
- Title(参考訳): 会話レコメンデーションシステムにおける故障予測
- Authors: Maria Vlachou,
- Abstract要約: Conversational Image Recommendationタスクでは、ユーザは推奨イメージアイテムに対して自然言語フィードバックを提供することができ、次のターンで推奨が改善される。
本稿では,会話性能予測の課題について紹介する。
マルチターンセマンティック情報を用いて会話障害を検出する会話性能予測器を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a Conversational Image Recommendation task, users can provide natural language feedback on a recommended image item, which leads to an improved recommendation in the next turn. While typical instantiations of this task assume that the user's target item will (eventually) be returned, this might often not be true, for example, the item the user seeks is not within the item catalogue. Failing to return a user's desired item can lead to user frustration, as the user needs to interact with the system for an increased number of turns. To mitigate this issue, in this paper, we introduce the task of Supervised Conversational Performance Prediction, inspired by Query Performance Prediction (QPP) for predicting effectiveness in response to a search engine query. In this regard, we propose predictors for conversational performance that detect conversation failures using multi-turn semantic information contained in the embedded representations of retrieved image items. Specifically, our AutoEncoder-based predictor learns a compressed representation of top-retrieved items of the train turns and uses the classification labels to predict the evaluation turn. Our evaluation scenario addressed two recommendation scenarios, by differentiating between system failure, where the system is unable to find the target, and catalogue failure, where the target does not exist in the item catalogue. In our experiments using the Shoes and FashionIQ Dresses datasets, we measure the accuracy of predictors for both system and catalogue failures. Our results demonstrate the promise of our proposed predictors for predicting system failures (existing evaluation scenario), while we detect a considerable decrease in predictive performance in the case of catalogue failure prediction (when inducing a missing item scenario) compared to system failures.
- Abstract(参考訳): Conversational Image Recommendationタスクでは、ユーザは推奨イメージアイテムに対して自然言語フィードバックを提供することができ、次のターンで推奨が改善される。
このタスクの典型的なインスタンス化は、ユーザのターゲットアイテムが(偶発的に)返されると仮定するが、例えば、ユーザが求めるアイテムはアイテムカタログに含まれない。
ユーザの希望するアイテムを返さないと、ユーザがターン数の増加のためにシステムと対話する必要があるため、ユーザのフラストレーションにつながる可能性がある。
本稿では,クエリ性能予測(QPP)にインスパイアされた,検索エンジンクエリに対する応答効率の予測タスクを紹介する。
本稿では,検索した画像項目の埋め込み表現に含まれるマルチターン意味情報を用いて,会話障害を検出する対話性能予測器を提案する。
具体的には、オートエンコーダをベースとした予測器は、列車旋回の最上位項目の圧縮表現を学習し、その分類ラベルを用いて評価ターンを予測する。
評価シナリオは, 対象物を見つけることができないシステム障害と, 項目カタログに対象物が存在しないカタログ故障とを区別することで, 2つの推奨シナリオに対処した。
Shoes and FashionIQ Dressesデータセットを用いた実験では,システム故障とカタログ故障の予測器の精度を測定した。
本研究は,システム故障の予測手法として提案した予測器(既存評価シナリオ)の可能性を実証すると共に,システム故障の予測手法であるカタログ故障の予測における予測性能の大幅な低下を検知する。
関連論文リスト
- Disentangling Likes and Dislikes in Personalized Generative Explainable Recommendation [26.214148426964794]
ユーザの感情に焦点をあてた新しいデータセットと評価手法を導入する。
購入後のレビューから,ユーザの肯定的,否定的な意見を明示的に抽出し,データセットを構築する。
生成した説明文がユーザの感情に合致するかどうかに基づいてシステムを評価することを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:15:00Z) - Dot Product is All You Need: Bridging the Gap Between Item Recommendation and Link Prediction [18.153652861826917]
本稿では,項目推薦問題をリンク予測問題の事例とみなすことができることを示す。
これらの予測精度は,10種類の最先端レコメンデーションモデルと競合することを示す。
論文 参考訳(メタデータ) (2024-09-11T17:27:04Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation [17.41434948048325]
我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。
我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。
我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
論文 参考訳(メタデータ) (2023-05-23T09:24:53Z) - A Transformer-Based User Satisfaction Prediction for Proactive
Interaction Mechanism in DuerOS [12.060990859604681]
そこで本研究では,ユーザに対して提示する前に,ユーザの満足度とユーザの反応を予測できる能動的インタラクション機構を提案する。
ユーザが予測に応じて満足できない場合、システムはユーザの本当の意図を決定するのに適した質問をユーザに尋ねる。
当社のモデルをDuerOS上に展開・評価し,ユーザ満足度予測の精度に対する19%の相対的改善と,ユーザエクスペリエンスに対する2.3%の相対的改善を観察した。
論文 参考訳(メタデータ) (2022-12-05T09:17:49Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Set2setRank: Collaborative Set to Set Ranking for Implicit Feedback
based Recommendation [59.183016033308014]
本稿では,暗黙的フィードバックの特徴を探究し,推奨するSet2setRankフレームワークを提案する。
提案するフレームワークはモデルに依存しず,ほとんどの推奨手法に容易に適用できる。
論文 参考訳(メタデータ) (2021-05-16T08:06:22Z) - Novel Techniques to Assess Predictive Systems and Reduce Their Alarm
Burden [0.0]
そこで本研究では,実用関数を用いた性能評価手法(「u-metrics」)を導入し,各予測値を評価する。
従来のパフォーマンス指標と比較して、u-metricsはワークフローコンテキストで動作する予測器の現実の利点とコストをより正確に反映する。
また,予測を一定期間抑制し,一般に予測性能を向上する手法である「スヌーズ」の使用についても述べる。
論文 参考訳(メタデータ) (2021-02-10T19:05:06Z) - Regret in Online Recommendation Systems [73.58127515175127]
本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。
各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。
推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
論文 参考訳(メタデータ) (2020-10-23T12:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。