論文の概要: Using LLMs to Establish Implicit User Sentiment of Software Desirability
- arxiv url: http://arxiv.org/abs/2408.01527v2
- Date: Sun, 8 Sep 2024 19:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:25:35.325067
- Title: Using LLMs to Establish Implicit User Sentiment of Software Desirability
- Title(参考訳): LLMを使ってソフトウェアの望ましくないユーザ感を確立する
- Authors: Sherri Weitl-Harms, John D. Hastings, Jonah Lum,
- Abstract要約: 本研究は、暗黙のソフトウェア望ましさを定量的にゼロショット感情分析するためのLLMの使用について検討する。
データはMicrosoft Product Desirability Toolkit (PDT)を使って収集される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores the use of LLMs for providing quantitative zero-shot sentiment analysis of implicit software desirability, addressing a critical challenge in product evaluation where traditional review scores, though convenient, fail to capture the richness of qualitative user feedback. Innovations include establishing a method that 1) works with qualitative user experience data without the need for explicit review scores, 2) focuses on implicit user satisfaction, and 3) provides scaled numerical sentiment analysis, offering a more nuanced understanding of user sentiment, instead of simply classifying sentiment as positive, neutral, or negative. Data is collected using the Microsoft Product Desirability Toolkit (PDT), a well-known qualitative user experience analysis tool. For initial exploration, the PDT metric was given to users of two software systems. PDT data was fed through several LLMs (Claude Sonnet 3 and 3.5, GPT4, and GPT4o) and through a leading transfer learning technique, Twitter-Roberta-Base-Sentiment, and Vader, a leading sentiment analysis tool. Each system was asked to evaluate the data in two ways, by looking at the sentiment expressed in the PDT word/explanation pairs; and by looking at the sentiment expressed by the users in their grouped selection of five words and explanations, as a whole. Each LLM provided a sentiment score, its confidence (low, medium, high) in the score, and an explanation of the score. All LLMs tested were able to statistically detect user sentiment from the users' grouped data, whereas TRBS and Vader were not. The confidence and explanation of confidence provided by the LLMs assisted in understanding user sentiment. This study adds deeper understanding of evaluating user experiences, toward the goal of creating a universal tool that quantifies implicit sentiment.
- Abstract(参考訳): 本研究は,従来のレビュースコアが便利ではあるが,質的なユーザフィードバックの豊かさを捉えることができない製品評価において重要な課題に対処するため,暗黙のソフトウェア望ましさを定量的にゼロショット感情分析にLLMを使うことを検討する。
イノベーションには、方法を確立することが含まれる
1)明示的なレビュースコアを必要とせずに質的なユーザエクスペリエンスデータを扱う。
2)暗黙のユーザ満足度に焦点が当てられ、
3) スケールした数値的な感情分析を提供し、単に感情を肯定的、中立的、否定的なものに分類するのではなく、ユーザーの感情をより微妙に理解する。
データはMicrosoft Product Desirability Toolkit (PDT)を使って収集される。
最初の調査では、2つのソフトウェアシステムのユーザに対してPDTメトリクスが与えられた。
PDTデータは、いくつかのLCM(Claude Sonnet 3, 3.5, GPT4, GPT4o)と、主要なトランスファー学習技術であるTwitter-Roberta-Base-Sentimentと、主要な感情分析ツールであるVaderを通じて供給された。
各システムには, PDTワード/説明ペアで表される感情と, ユーザによる5つの単語と説明の集団選択で表される感情の2つの方法による評価が求められた。
各LSMは、感情スコア、スコアの信頼度(低、中、高)、スコアの説明を提供する。
テストされたすべてのLSMは、ユーザのグループ化されたデータから統計的にユーザ感情を検出できたが、TRBSとVaderはそうではなかった。
LLMが提供した信頼感と説明は、ユーザの感情を理解するのに役立った。
本研究は、暗黙の感情を定量化する普遍的なツールを開発することを目的として、ユーザエクスペリエンスを評価することの理解を深める。
関連論文リスト
- CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:23:23Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Interactive Analysis of LLMs using Meaningful Counterfactuals [22.755345889167934]
カウンターファクト例は、機械学習モデルの意思決定境界を探索するのに有用である。
LLMの分析・説明に反事実的手法をどう適用すればいいのか?
本稿では,完全かつ意味のあるテキストの反事実のバッチを生成するための新しいアルゴリズムを提案する。
我々の実験では、カウンターファクトの97.2%が文法的に正しい。
論文 参考訳(メタデータ) (2024-04-23T19:57:03Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models [35.95405294377247]
既成のMLモデルやテキスト埋め込みに基づくアプローチは、一般化可能なパターンの抽出に不足している。
LLMは、埋め込み型アプローチよりも、自然言語の発話から、ユーザの満足度を解釈可能なシグナルを抽出できることを示す。
論文 参考訳(メタデータ) (2024-03-19T02:57:07Z) - Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis [51.04181562775778]
本稿では,ロボットエージェントの「ウェイフィンディング指示」を自動的に合成する手法を提案する。
提案アルゴリズムは,LLMの条件付けにコンテキスト内学習を用い,わずかな参照を用いて命令を生成する。
我々は,Matterport3D,AI Habitat,ThreeDWorldなど,複数のシミュレーションプラットフォームにアプローチを実装した。
論文 参考訳(メタデータ) (2024-03-18T05:38:07Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item
Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。
まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。
そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文 参考訳(メタデータ) (2021-08-18T08:04:38Z) - SentiLSTM: A Deep Learning Approach for Sentiment Analysis of Restaurant
Reviews [13.018530502810128]
本稿では,レストランのクライアントが提供したレビューを肯定的,否定的な極性に分類する深層学習技術(BiLSTM)を提案する。
テストデータセットの評価の結果、BiLSTM技術は91.35%の精度で生成された。
論文 参考訳(メタデータ) (2020-11-19T06:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。