論文の概要: Analyzing LLMs' Capabilities to Establish Implicit User Sentiment of Software Desirability
- arxiv url: http://arxiv.org/abs/2408.01527v1
- Date: Fri, 2 Aug 2024 18:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:49:47.519432
- Title: Analyzing LLMs' Capabilities to Establish Implicit User Sentiment of Software Desirability
- Title(参考訳): LLMのソフトウェア不適格ユーザ感の確立能力の分析
- Authors: Sherri Weitl-Harms, John D. Hastings, Jonah Lum,
- Abstract要約: この研究は、感情を肯定的、中立的、否定的なものに分類する他の方法とは異なり、スケールされた数値的な感情分析を提供する。
データはMicrosoft Product Desirability Toolkit (PDT)を使って収集される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores the use of several LLMs for providing quantitative zero-shot sentiment analysis of implicit software desirability expressed by users. The study provides scaled numerical sentiment analysis unlike other methods that simply classify sentiment as positive, neutral, or negative. Numerical analysis provides deeper insights into the magnitude of sentiment, to drive better decisions regarding product desirability. Data is collected through the use of the Microsoft Product Desirability Toolkit (PDT), a well-known qualitative user experience analysis tool. For initial exploration, the PDT metric was given to users of ZORQ, a gamification system used in undergraduate computer science education. The PDT data collected was fed through several LLMs (Claude Sonnet 3 and 3.5, GPT4, and GPT4o) and through a leading transfer learning technique, Twitter-Roberta-Base-Sentiment (TRBS), and through Vader, a leading sentiment analysis tool, for quantitative sentiment analysis. Each system was asked to evaluate the data in two ways, first by looking at the sentiment expressed in the PDT word/explanation pairs; and by looking at the sentiment expressed by the users in their grouped selection of five words and explanations, as a whole. Each LLM was also asked to provide its confidence (low, medium, high) in its sentiment score, along with an explanation of why it selected the sentiment value. All LLMs tested were able to statistically detect user sentiment from the users' grouped data, whereas TRBS and Vader were not. The confidence and explanation of confidence provided by the LLMs assisted in understanding the user sentiment. This study adds to a deeper understanding of evaluating user experiences, toward the goal of creating a universal tool that quantifies implicit sentiment expressed.
- Abstract(参考訳): 本研究では,ユーザによって表現される暗黙のソフトウェア望ましさを定量的にゼロショット感情分析するために,複数のLCMを用いて検討する。
この研究は、感情を肯定的、中立的、否定的なものに分類する他の方法とは異なり、スケールされた数値的な感情分析を提供する。
数値分析は感情の大きさについて深い洞察を与え、製品の望ましさに関するより良い意思決定を促す。
データはMicrosoft Product Desirability Toolkit (PDT)を使って収集される。
最初の探索のために、PDTメトリックは、学部のコンピュータサイエンス教育で使用されるゲーミフィケーションシステムであるZORQのユーザに与えられた。
収集したPDTデータは,複数のLDM(Claude Sonnet 3,3.5,GPT4,GPT4o)と,主要な伝達学習技術であるTwitter-Roberta-Base-Sentiment(TRBS)と,主要な感情分析ツールであるVaderを通じて,定量的感情分析を行った。
各システムは、まず、PDTワード/説明ペアで表現された感情と、ユーザがグループで表現した5つの単語と説明の感情を総合的に見ることによって、データを2つの方法で評価するよう求められた。
各LSMは、感情スコアの信頼度(低、中、高)と、なぜ感情値を選んだのかの説明も求められた。
テストされたすべてのLSMは、ユーザのグループ化されたデータから統計的にユーザ感情を検出できたが、TRBSとVaderはそうではなかった。
LLMが提供した信頼感と説明は、ユーザの感情を理解するのに役立った。
本研究は、暗黙の感情を定量化する普遍的なツールを開発することを目的として、ユーザエクスペリエンスを評価することの理解を深める。
関連論文リスト
- CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:23:23Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Interactive Analysis of LLMs using Meaningful Counterfactuals [22.755345889167934]
カウンターファクト例は、機械学習モデルの意思決定境界を探索するのに有用である。
LLMの分析・説明に反事実的手法をどう適用すればいいのか?
本稿では,完全かつ意味のあるテキストの反事実のバッチを生成するための新しいアルゴリズムを提案する。
我々の実験では、カウンターファクトの97.2%が文法的に正しい。
論文 参考訳(メタデータ) (2024-04-23T19:57:03Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models [35.95405294377247]
既成のMLモデルやテキスト埋め込みに基づくアプローチは、一般化可能なパターンの抽出に不足している。
LLMは、埋め込み型アプローチよりも、自然言語の発話から、ユーザの満足度を解釈可能なシグナルを抽出できることを示す。
論文 参考訳(メタデータ) (2024-03-19T02:57:07Z) - Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis [51.04181562775778]
本稿では,ロボットエージェントの「ウェイフィンディング指示」を自動的に合成する手法を提案する。
提案アルゴリズムは,LLMの条件付けにコンテキスト内学習を用い,わずかな参照を用いて命令を生成する。
我々は,Matterport3D,AI Habitat,ThreeDWorldなど,複数のシミュレーションプラットフォームにアプローチを実装した。
論文 参考訳(メタデータ) (2024-03-18T05:38:07Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item
Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。
まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。
そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文 参考訳(メタデータ) (2021-08-18T08:04:38Z) - SentiLSTM: A Deep Learning Approach for Sentiment Analysis of Restaurant
Reviews [13.018530502810128]
本稿では,レストランのクライアントが提供したレビューを肯定的,否定的な極性に分類する深層学習技術(BiLSTM)を提案する。
テストデータセットの評価の結果、BiLSTM技術は91.35%の精度で生成された。
論文 参考訳(メタデータ) (2020-11-19T06:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。