Fugu-MT 論文翻訳(概要): Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models

論文の概要: Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models

arxiv url: http://arxiv.org/abs/2403.12388v2
Date: Sun, 9 Jun 2024 00:58:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 00:43:59.840151
Title: Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた会話システムの解釈可能なユーザ満足度推定
Authors: Ying-Chun Lin, Jennifer Neville, Jack W. Stokes, Longqi Yang, Tara Safavi, Mengting Wan, Scott Counts, Siddharth Suri, Reid Andersen, Xiaofeng Xu, Deepak Gupta, Sujay Kumar Jauhar, Xia Song, Georg Buscher, Saurabh Tiwary, Brent Hecht, Jaime Teevan,
Abstract要約: 既成のMLモデルやテキスト埋め込みに基づくアプローチは、一般化可能なパターンの抽出に不足している。 LLMは、埋め込み型アプローチよりも、自然言語の発話から、ユーザの満足度を解釈可能なシグナルを抽出できることを示す。
参考スコア（独自算出の注目度）: 35.95405294377247
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Accurate and interpretable user satisfaction estimation (USE) is critical for understanding, evaluating, and continuously improving conversational systems. Users express their satisfaction or dissatisfaction with diverse conversational patterns in both general-purpose (ChatGPT and Bing Copilot) and task-oriented (customer service chatbot) conversational systems. Existing approaches based on featurized ML models or text embeddings fall short in extracting generalizable patterns and are hard to interpret. In this work, we show that LLMs can extract interpretable signals of user satisfaction from their natural language utterances more effectively than embedding-based approaches. Moreover, an LLM can be tailored for USE via an iterative prompting framework using supervision from labeled examples. The resulting method, Supervised Prompting for User satisfaction Rubrics (SPUR), not only has higher accuracy but is more interpretable as it scores user satisfaction via learned rubrics with a detailed breakdown.
Abstract（参考訳）: 正確なユーザ満足度推定(USE)は、会話システムを理解し、評価し、継続的に改善するために重要である。ユーザは、汎用(ChatGPTとBing Copilot)とタスク指向(顧客サービスチャットボット)の会話システムの両方において、多様な会話パターンに対する満足感や不満を表明する。既存のMLモデルやテキスト埋め込みに基づくアプローチは、一般化可能なパターンの抽出に不足しており、解釈が難しい。本研究では,LLMが自然言語音声からユーザ満足度の解釈可能な信号を抽出できることを,埋め込み型アプローチよりも効果的に示す。さらに、ラベル付き例の監視を使用して反復的なプロンプトフレームワークを通じて、LLMをUSE用に調整することもできる。その結果,ユーザ満足度向上のためのSupervised Prompting for User satisfaction Rubrics (SPUR) が得られた。

関連論文リスト

Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework [9.162876771766513]
本稿では,言語構造とユーザ人口統計に基づく,制御された現実的なプロンプトフレーズを生成するフレームワークであるAUGMENTを紹介する。 AUGMENTは、セマンティック、スタイリスティック、命令追従の基準を組み合わせることで、パラフレーズの品質を保証する。この結果から,大規模言語モデルにおいて,より代表的で構造化されたアプローチの必要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-06T14:17:30Z)
CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-13T17:34:35Z)
LLM-Augmented Graph Neural Recommenders: Integrating User Reviews [2.087411180679868]
本稿では,グラフニューラルネットワーク(GNN)ベースのモデルと大規模言語モデル(LLM)を用いて,レビューアウェアな表現を生成するフレームワークを提案する。提案手法は,ユーザの行動信号と言語信号の両方が効果的に捕捉されるように,テキストから得られる特徴に対するユーザとテムの相互作用のバランスをとる。
論文参考訳（メタデータ） (2025-04-03T00:40:09Z)
LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue [5.070104802923903]
PRAISEは効果的なユーザ満足度予測のための解釈可能なフレームワークである。 3つのモジュールを通して動作する。ユーザ満足度推定タスクの3つのベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-06T18:12:33Z)
UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文参考訳（メタデータ） (2025-02-26T14:34:00Z)
Unveiling User Preferences: A Knowledge Graph and LLM-Driven Approach for Conversational Recommendation [55.5687800992432]
本稿では,Large Language Models (LLMs) とKGs (KGs) を相乗化するプラグイン・アンド・プレイフレームワークを提案する。これにより、LLMはKGエンティティを簡潔な自然言語記述に変換することができ、ドメイン固有の知識を理解できるようになる。
論文参考訳（メタデータ） (2024-11-16T11:47:21Z)
Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。 BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文参考訳（メタデータ） (2024-08-17T16:01:45Z)
Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。 LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文参考訳（メタデータ） (2024-06-25T02:18:15Z)
Interactive Analysis of LLMs using Meaningful Counterfactuals [22.755345889167934]
カウンターファクト例は、機械学習モデルの意思決定境界を探索するのに有用である。 LLMの分析・説明に反事実的手法をどう適用すればいいのか? 本稿では,完全かつ意味のあるテキストの反事実のバッチを生成するための新しいアルゴリズムを提案する。我々の実験では、カウンターファクトの97.2%が文法的に正しい。
論文参考訳（メタデータ） (2024-04-23T19:57:03Z)
CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文参考訳（メタデータ） (2024-03-27T23:45:31Z)
RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文参考訳（メタデータ） (2023-11-18T03:05:43Z)
Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文参考訳（メタデータ） (2023-06-16T13:04:56Z)
Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。 LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文参考訳（メタデータ） (2023-05-22T15:12:43Z)
Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。 GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。 Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文参考訳（メタデータ） (2023-04-11T14:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。