論文の概要: Self-Improving Customer Review Response Generation Based on LLMs
- arxiv url: http://arxiv.org/abs/2405.03845v1
- Date: Mon, 6 May 2024 20:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 16:07:44.158672
- Title: Self-Improving Customer Review Response Generation Based on LLMs
- Title(参考訳): LLMに基づく自己改善型顧客レビュー応答生成
- Authors: Guy Azov, Tatiana Pelc, Adi Fledel Alon, Gila Kamhi,
- Abstract要約: SCRABLEは、自己最適化プロンプトによって自己向上する、適応的な顧客レビュー応答自動化である。
顧客レビュー領域で発生する応答の質を評価するために,人間評価者の役割を模倣する自動スコアリング機構を導入する。
- 参考スコア(独自算出の注目度): 1.9274286238176854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous studies have demonstrated that proactive interaction with user reviews has a positive impact on the perception of app users and encourages them to submit revised ratings. Nevertheless, developers encounter challenges in managing a high volume of reviews, particularly in the case of popular apps with a substantial influx of daily reviews. Consequently, there is a demand for automated solutions aimed at streamlining the process of responding to user reviews. To address this, we have developed a new system for generating automatic responses by leveraging user-contributed documents with the help of retrieval-augmented generation (RAG) and advanced Large Language Models (LLMs). Our solution, named SCRABLE, represents an adaptive customer review response automation that enhances itself with self-optimizing prompts and a judging mechanism based on LLMs. Additionally, we introduce an automatic scoring mechanism that mimics the role of a human evaluator to assess the quality of responses generated in customer review domains. Extensive experiments and analyses conducted on real-world datasets reveal that our method is effective in producing high-quality responses, yielding improvement of more than 8.5% compared to the baseline. Further validation through manual examination of the generated responses underscores the efficacy our proposed system.
- Abstract(参考訳): これまでの研究では、ユーザレビューとの積極的なインタラクションがアプリのユーザの認識に肯定的な影響を与え、改訂された評価の提出を促すことが示されている。
それにもかかわらず、開発者は大量のレビューを管理することの難しさに直面する。
その結果,ユーザレビューへの回答プロセスの合理化を目的とした自動化ソリューションの需要が高まっている。
そこで我々は,検索強化世代 (RAG) と高度大言語モデル (LLMs) の助けを借りて,ユーザ貢献型文書を活用した自動応答生成システムを開発した。
我々のソリューションであるSCRABLEは、自己最適化プロンプトとLCMに基づく判断機構によって自己向上する適応的な顧客レビュー応答自動化である。
また、顧客レビュー領域で発生する応答の質を評価するために、人間評価者の役割を模倣する自動スコアリング機構を導入する。
実世界のデータセットを用いた大規模な実験と分析により,本手法は高品質な応答生成に有効であり,ベースラインと比較して8.5%以上の改善が得られた。
生成した応答を手動で検証することで,提案システムの有効性を実証する。
関連論文リスト
- Using Generative AI and Multi-Agents to Provide Automatic Feedback [4.883570605293337]
本研究では、生成型AIとマルチエージェントシステムを用いて、教育的文脈における自動フィードバックを提供する。
この研究は、AutoFeedbackと呼ばれるマルチエージェントシステムが、GenAI生成したフィードバックの品質をどのように改善するかを探求することによって、この分野における重要なギャップに対処する。
論文 参考訳(メタデータ) (2024-11-11T22:27:36Z) - MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment [12.970776782360366]
AERA Chatは、学生の回答の視覚的に説明された評価を提供するインタラクティブなプラットフォームである。
ユーザーは質問や学生の回答を入力して、大規模言語モデルから自動で説明可能な評価結果を得ることができる。
論文 参考訳(メタデータ) (2024-10-12T11:57:53Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。
58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-10T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。