Fugu-MT 論文翻訳(概要): Using LLMs to Establish Implicit User Sentiment of Software Desirability

論文の概要: Using LLMs to Establish Implicit User Sentiment of Software Desirability

arxiv url: http://arxiv.org/abs/2408.01527v2
Date: Sun, 8 Sep 2024 19:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 01:25:35.325067
Title: Using LLMs to Establish Implicit User Sentiment of Software Desirability
Title（参考訳）: LLMを使ってソフトウェアの望ましくないユーザ感を確立する
Authors: Sherri Weitl-Harms, John D. Hastings, Jonah Lum,
Abstract要約: 本研究は、暗黙のソフトウェア望ましさを定量的にゼロショット感情分析するためのLLMの使用について検討する。データはMicrosoft Product Desirability Toolkit (PDT)を使って収集される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study explores the use of LLMs for providing quantitative zero-shot sentiment analysis of implicit software desirability, addressing a critical challenge in product evaluation where traditional review scores, though convenient, fail to capture the richness of qualitative user feedback. Innovations include establishing a method that 1) works with qualitative user experience data without the need for explicit review scores, 2) focuses on implicit user satisfaction, and 3) provides scaled numerical sentiment analysis, offering a more nuanced understanding of user sentiment, instead of simply classifying sentiment as positive, neutral, or negative. Data is collected using the Microsoft Product Desirability Toolkit (PDT), a well-known qualitative user experience analysis tool. For initial exploration, the PDT metric was given to users of two software systems. PDT data was fed through several LLMs (Claude Sonnet 3 and 3.5, GPT4, and GPT4o) and through a leading transfer learning technique, Twitter-Roberta-Base-Sentiment, and Vader, a leading sentiment analysis tool. Each system was asked to evaluate the data in two ways, by looking at the sentiment expressed in the PDT word/explanation pairs; and by looking at the sentiment expressed by the users in their grouped selection of five words and explanations, as a whole. Each LLM provided a sentiment score, its confidence (low, medium, high) in the score, and an explanation of the score. All LLMs tested were able to statistically detect user sentiment from the users' grouped data, whereas TRBS and Vader were not. The confidence and explanation of confidence provided by the LLMs assisted in understanding user sentiment. This study adds deeper understanding of evaluating user experiences, toward the goal of creating a universal tool that quantifies implicit sentiment.
Abstract（参考訳）: 本研究は,従来のレビュースコアが便利ではあるが,質的なユーザフィードバックの豊かさを捉えることができない製品評価において重要な課題に対処するため,暗黙のソフトウェア望ましさを定量的にゼロショット感情分析にLLMを使うことを検討する。イノベーションには、方法を確立することが含まれる 1)明示的なレビュースコアを必要とせずに質的なユーザエクスペリエンスデータを扱う。 2)暗黙のユーザ満足度に焦点が当てられ、 3) スケールした数値的な感情分析を提供し、単に感情を肯定的、中立的、否定的なものに分類するのではなく、ユーザーの感情をより微妙に理解する。データはMicrosoft Product Desirability Toolkit (PDT)を使って収集される。最初の調査では、2つのソフトウェアシステムのユーザに対してPDTメトリクスが与えられた。 PDTデータは、いくつかのLCM(Claude Sonnet 3, 3.5, GPT4, GPT4o)と、主要なトランスファー学習技術であるTwitter-Roberta-Base-Sentimentと、主要な感情分析ツールであるVaderを通じて供給された。各システムには, PDTワード/説明ペアで表される感情と, ユーザによる5つの単語と説明の集団選択で表される感情の2つの方法による評価が求められた。各LSMは、感情スコア、スコアの信頼度(低、中、高)、スコアの説明を提供する。テストされたすべてのLSMは、ユーザのグループ化されたデータから統計的にユーザ感情を検出できたが、TRBSとVaderはそうではなかった。 LLMが提供した信頼感と説明は、ユーザの感情を理解するのに役立った。本研究は、暗黙の感情を定量化する普遍的なツールを開発することを目的として、ユーザエクスペリエンスを評価することの理解を深める。

関連論文リスト

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文参考訳（メタデータ） (2026-03-04T15:42:43Z)
Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
論文参考訳（メタデータ） (2025-09-02T14:21:59Z)
User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal [58.43749783815486]
本研究では,2つのユーザ-LMインタラクションデータセットにおける暗黙のユーザフィードバックについて検討する。ユーザフィードバックの内容は、人間設計の短い質問において、モデル性能を向上させることができる。また、ユーザフィードバックの有用性は、ユーザの最初のプロンプトの品質に大きく関係していることもわかりました。
論文参考訳（メタデータ） (2025-07-30T23:33:29Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。 SCANには4つの重要なコンポーネントが含まれている。 TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。 RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。 PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。 PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。 LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文参考訳（メタデータ） (2025-04-19T08:16:10Z)
UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文参考訳（メタデータ） (2025-02-26T14:34:00Z)
ACEBench: Who Wins the Match Point in Tool Usage? [68.54159348899891]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。データを評価方法論に基づく3つの主要なタイプに分類する。これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文参考訳（メタデータ） (2025-01-22T12:59:08Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文参考訳（メタデータ） (2024-06-05T13:23:23Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
Interactive Analysis of LLMs using Meaningful Counterfactuals [22.755345889167934]
カウンターファクト例は、機械学習モデルの意思決定境界を探索するのに有用である。 LLMの分析・説明に反事実的手法をどう適用すればいいのか? 本稿では,完全かつ意味のあるテキストの反事実のバッチを生成するための新しいアルゴリズムを提案する。我々の実験では、カウンターファクトの97.2%が文法的に正しい。
論文参考訳（メタデータ） (2024-04-23T19:57:03Z)
Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文参考訳（メタデータ） (2024-04-19T16:45:50Z)
Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models [35.95405294377247]
既成のMLモデルやテキスト埋め込みに基づくアプローチは、一般化可能なパターンの抽出に不足している。 LLMは、埋め込み型アプローチよりも、自然言語の発話から、ユーザの満足度を解釈可能なシグナルを抽出できることを示す。
論文参考訳（メタデータ） (2024-03-19T02:57:07Z)
Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis [51.04181562775778]
本稿では,ロボットエージェントの「ウェイフィンディング指示」を自動的に合成する手法を提案する。提案アルゴリズムは,LLMの条件付けにコンテキスト内学習を用い,わずかな参照を用いて命令を生成する。我々は,Matterport3D,AI Habitat,ThreeDWorldなど,複数のシミュレーションプラットフォームにアプローチを実装した。
論文参考訳（メタデータ） (2024-03-18T05:38:07Z)
MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。 LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。 LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文参考訳（メタデータ） (2023-09-19T15:25:42Z)
SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文参考訳（メタデータ） (2021-08-18T08:04:38Z)
SentiLSTM: A Deep Learning Approach for Sentiment Analysis of Restaurant Reviews [13.018530502810128]
本稿では,レストランのクライアントが提供したレビューを肯定的,否定的な極性に分類する深層学習技術(BiLSTM)を提案する。テストデータセットの評価の結果、BiLSTM技術は91.35%の精度で生成された。
論文参考訳（メタデータ） (2020-11-19T06:24:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。