Fugu-MT 論文翻訳(概要): Automating App Review Response Generation

論文の概要: Automating App Review Response Generation

arxiv url: http://arxiv.org/abs/2002.03552v1
Date: Mon, 10 Feb 2020 05:23:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-02 09:19:21.790570
Title: Automating App Review Response Generation
Title（参考訳）: アプリレビュー応答生成の自動化
Authors: Cuiyun Gao, Jichuan Zeng, Xin Xia, David Lo, Michael R. Lyu, Irwin King
Abstract要約: 本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。 58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
参考スコア（独自算出の注目度）: 67.58267006314415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Previous studies showed that replying to a user review usually has a positive effect on the rating that is given by the user to the app. For example, Hassan et al. found that responding to a review increases the chances of a user updating their given rating by up to six times compared to not responding. To alleviate the labor burden in replying to the bulk of user reviews, developers usually adopt a template-based strategy where the templates can express appreciation for using the app or mention the company email address for users to follow up. However, reading a large number of user reviews every day is not an easy task for developers. Thus, there is a need for more automation to help developers respond to user reviews. Addressing the aforementioned need, in this work we propose a novel approach RRGen that automatically generates review responses by learning knowledge relations between reviews and their responses. RRGen explicitly incorporates review attributes, such as user rating and review length, and learns the relations between reviews and corresponding responses in a supervised way from the available training data. Experiments on 58 apps and 309,246 review-response pairs highlight that RRGen outperforms the baselines by at least 67.4% in terms of BLEU-4 (an accuracy measure that is widely used to evaluate dialogue response generation systems). Qualitative analysis also confirms the effectiveness of RRGen in generating relevant and accurate responses.
Abstract（参考訳）: 以前の研究では、ユーザーレビューに対する回答は、通常、ユーザーがアプリに与える評価に肯定的な影響を及ぼすことが示された。例えば、Hassanらによると、レビューに対する反応は、ユーザーが回答しないよりも、評価を更新する確率を最大6倍に向上させる。ユーザーレビューの大部分に対する回答の手間を軽減するために、開発者は通常テンプレートベースの戦略を採用し、テンプレートはアプリの使用に対する評価を表現したり、ユーザがフォローする会社のメールアドレスに言及したりする。しかし、毎日大量のユーザレビューを読むことは、開発者にとって簡単な作業ではない。したがって、開発者がユーザレビューに反応するのを助けるために、さらなる自動化が必要である。本研究は、上記のニーズに対処し、レビューと回答の間の知識関係を学習することでレビュー応答を自動的に生成する新しいアプローチRRGenを提案する。 RRGenは、ユーザ評価やレビューの長さなどのレビュー属性を明示的に取り入れ、利用可能なトレーニングデータから、レビューと対応するレスポンスの関係を教師付き方法で学習する。 58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4(対話応答生成システムの評価に広く使用される精度測定)で少なくとも67.4%のベースラインを上回っている。定性的分析は、RRGenが関連性および正確な応答を生成する効果も確認する。

関連論文リスト

LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。命令ベースのデータセットの微調整により、パフォーマンスが10～20ポイント向上する。
論文参考訳（メタデータ） (2025-04-15T10:07:33Z)
Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 [115.86204862475864]
Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。 ICLR 2025で大規模なランダム化制御研究として実装された。フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
論文参考訳（メタデータ） (2025-04-13T22:01:25Z)
Prioritizing App Reviews for Developer Responses on Google Play [1.5771347525430772]
2013年以降、Google Playは開発者がユーザーレビューに応答できるようにしてきた。 13%から18%の開発者がこのプラクティスに従事しています。応答優先度に基づいてレビューを優先順位付けする手法を提案する。
論文参考訳（メタデータ） (2025-02-03T16:56:08Z)
Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文参考訳（メタデータ） (2024-11-11T18:58:38Z)
Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文参考訳（メタデータ） (2024-05-27T16:49:29Z)
Self-Improving Customer Review Response Generation Based on LLMs [1.9274286238176854]
SCRABLEは、自己最適化プロンプトによって自己向上する、適応的な顧客レビュー応答自動化である。顧客レビュー領域で発生する応答の質を評価するために,人間評価者の役割を模倣する自動スコアリング機構を導入する。
論文参考訳（メタデータ） (2024-05-06T20:50:17Z)
Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文参考訳（メタデータ） (2024-04-19T16:45:50Z)
RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models [17.782410287625645]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文参考訳（メタデータ） (2024-02-21T01:39:56Z)
Proactive Prioritization of App Issues via Contrastive Learning [2.6763498831034043]
本稿では,アプリの問題を積極的に優先順位付けする新しいフレームワークPPriorを提案する。 PPriorはトレーニング済みのT5モデルを採用し、3段階で動作する。フェーズ1は、事前訓練されたT5モデルを、セルフ教師された方法でユーザレビューデータに適用する。第2フェーズでは、コントラストトレーニングを活用して、ユーザレビューの汎用的かつタスクに依存しない表現を学習する。
論文参考訳（メタデータ） (2023-03-12T06:23:10Z)
Meaningful Answer Generation of E-Commerce Question-Answering [77.89755281215079]
eコマースポータルでは、製品関連の質問に対する回答を生成することが重要な課題となっている。本稿では,MPAG(Meaningful Product Answer Generator)と呼ばれる新しい生成ニューラルモデルを提案する。 MPAGは、製品レビュー、製品属性、プロトタイプの回答を考慮に入れて、安全な回答問題を緩和します。
論文参考訳（メタデータ） (2020-11-14T14:05:30Z)
E-commerce Query-based Generation based on User Review [1.484852576248587]
本稿では,従来のユーザによるレビューに基づいて,ユーザの質問に対する回答を生成するための新しいセク2seqベースのテキスト生成モデルを提案する。ユーザの質問や感情の極性が与えられた場合,関心事の側面を抽出し,過去のユーザレビューを要約した回答を生成する。
論文参考訳（メタデータ） (2020-11-11T04:58:31Z)
App-Aware Response Synthesis for User Reviews [7.466973484411213]
AAR Synthはアプリケーション対応の応答合成システムである。アプリ説明から最も関連性の高いアプリレビューと、最も関連性の高いスニペットを検索する。融合機械学習モデルは、セq2seqモデルと機械読解モデルを統合する。
論文参考訳（メタデータ） (2020-07-31T01:28:02Z)
Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。本稿では,自動評価モデルCMADEを提案する。実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文参考訳（メタデータ） (2020-05-21T15:14:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。