論文の概要: Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs
- arxiv url: http://arxiv.org/abs/2404.12994v1
- Date: Fri, 19 Apr 2024 16:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:26:33.368137
- Title: Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs
- Title(参考訳): 対話システムの評価を再考する: ユーザフィードバックがクラウドワーカーとLLMに与える影響
- Authors: Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke,
- Abstract要約: アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
- 参考スコア(独自算出の注目度): 57.16442740983528
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In ad-hoc retrieval, evaluation relies heavily on user actions, including implicit feedback. In a conversational setting such signals are usually unavailable due to the nature of the interactions, and, instead, the evaluation often relies on crowdsourced evaluation labels. The role of user feedback in annotators' assessment of turns in a conversational perception has been little studied. We focus on how the evaluation of task-oriented dialogue systems (TDSs), is affected by considering user feedback, explicit or implicit, as provided through the follow-up utterance of a turn being evaluated. We explore and compare two methodologies for assessing TDSs: one includes the user's follow-up utterance and one without. We use both crowdworkers and large language models (LLMs) as annotators to assess system responses across four aspects: relevance, usefulness, interestingness, and explanation quality. Our findings indicate that there is a distinct difference in ratings assigned by both annotator groups in the two setups, indicating user feedback does influence system evaluation. Workers are more susceptible to user feedback on usefulness and interestingness compared to LLMs on interestingness and relevance. User feedback leads to a more personalized assessment of usefulness by workers, aligning closely with the user's explicit feedback. Additionally, in cases of ambiguous or complex user requests, user feedback improves agreement among crowdworkers. These findings emphasize the significance of user feedback in refining system evaluations and suggest the potential for automated feedback integration in future research. We publicly release the annotated data to foster research in this area.
- Abstract(参考訳): アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
対話的な環境では、このような信号は通常、相互作用の性質のため利用できなくなり、代わりに、評価はクラウドソースによる評価ラベルに依存することが多い。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザのフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
TDSを評価するための2つの手法を探索し、比較する: 1つはユーザのフォローアップ発話を含み、もう1つは無関係である。
クラウドワーカーと大規模言語モデル(LLM)の両方をアノテータとして使用し、関連性、有用性、面白さ、説明品質の4つの側面にわたるシステム応答を評価する。
以上の結果から,アノテータ群とアノテータ群がアノテータ群にアノテータを割り当てた場合,ユーザのフィードバックがシステム評価に影響を与えることが示唆された。
労働者は、ユーザからのフィードバックによる有用性や面白さに対する感受性が、興味深いことや関連性に関するLLMよりも高い。
ユーザからのフィードバックは、作業者による有用性のよりパーソナライズされた評価をもたらし、ユーザの明示的なフィードバックと密接に一致します。
さらに、曖昧なユーザリクエストや複雑なユーザリクエストの場合、ユーザフィードバックは、クラウドワーカー間の合意を改善します。
これらの知見は,システム評価におけるユーザフィードバックの重要性を強調し,今後の研究における自動フィードバック統合の可能性を提案する。
この分野での研究を促進するために、アノテーション付きデータを公開しています。
関連論文リスト
- CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Rethinking Response Evaluation from Interlocutor's Eye for Open-Domain
Dialogue Systems [14.98159964397052]
我々は,自動応答評価器に必要とされる機能について,対話者の視点から分析・検討した。
Hazumiデータセットの最初の実験では、自動応答評価をインターロケータの判断と相関させる上で、インターロケータ認識が重要な役割を担っていることが明らかとなった。
X(元Twitter)での大規模な会話を用いた2回目の実験では、対話継続性予測が人間からのフィードバックなしにインターロケータ対応評価器を訓練できることが確認された。
論文 参考訳(メタデータ) (2024-01-04T13:15:41Z) - Exploring the Impact of Human Evaluator Group on Chat-Oriented Dialogue
Evaluation [13.651502777079237]
本稿では、4つの異なる評価器群を用いた4つの最先端対話システムをテストすることによって、評価器群が対話システム評価に与える影響を解析する。
分析の結果,Pairwiseでは見られなかったLikert評価群に対する評価群に対するロバスト性が明らかとなった。
論文 参考訳(メタデータ) (2023-09-14T19:19:50Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Understanding How People Rate Their Conversations [73.17730062864314]
我々は、人々が会話エージェントとのインタラクションをどのように評価するかをよりよく理解するために研究を行う。
我々は、評価の変動を説明する変数として、同意性と外向性に焦点を当てる。
論文 参考訳(メタデータ) (2022-06-01T00:45:32Z) - SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item
Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。
まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。
そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文 参考訳(メタデータ) (2021-08-18T08:04:38Z) - User and Item-aware Estimation of Review Helpfulness [4.640835690336653]
有用性決定因子としてのレビューの性質における逸脱の役割について検討する。
本稿では,従来のものを拡張した新しい有用性推定モデルを提案する。
そこで本モデルは,意思決定におけるユーザフィードバックの選択に有効なツールである。
論文 参考訳(メタデータ) (2020-11-20T15:35:56Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - Soliciting Human-in-the-Loop User Feedback for Interactive Machine
Learning Reduces User Trust and Impressions of Model Accuracy [8.11839312231511]
混合開始システムにより、ユーザは対話的にフィードバックを提供し、システムパフォーマンスを向上させることができる。
本研究は,フィードバックの提供行為が知的システムのユーザ理解とその正確性に与える影響について検討する。
論文 参考訳(メタデータ) (2020-08-28T16:46:41Z) - Enabling the Analysis of Personality Aspects in Recommender Systems [0.0]
既存のレコメンデーションシステムは、ユーザーからのフィードバック、例えば評価、類似したユーザーを検出するための一般的な項目に対するレビューの活用に重点を置いている。
我々はこの問題を,共通項目に対するフィードバックのないデータスパシティ (DSW-n-FCI) と呼んでいる。
ユーザの個性タイプを,ユーザの負担なく暗黙的に識別し,ユーザの個人的関心や知識レベルとともに取り入れる。
論文 参考訳(メタデータ) (2020-01-07T23:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。