論文の概要: Large Language Models' Accuracy in Emulating Human Experts' Evaluation of Public Sentiments about Heated Tobacco Products on Social Media
- arxiv url: http://arxiv.org/abs/2502.01658v1
- Date: Fri, 31 Jan 2025 20:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:53.915303
- Title: Large Language Models' Accuracy in Emulating Human Experts' Evaluation of Public Sentiments about Heated Tobacco Products on Social Media
- Title(参考訳): ソーシャルメディア上での加熱タバコ製品に対する人的専門家の公共感性評価における大規模言語モデルの有効性
- Authors: Kwanho Kim, Soojong Kim,
- Abstract要約: 大規模言語モデル(LLM)は、労働集約的な人間の感情分析プロセスの合理化に役立つ。
本研究では,加熱タバコ製品(HTP)に関するソーシャルメディアメッセージの人間感情評価の再現におけるLCMの精度について検討した。
LLMはHTP関連ソーシャルメディアメッセージの感情分析に使用することができ、GPT-4 Turboは人間の専門家と比較して約80%の精度である。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License:
- Abstract: Sentiment analysis of alternative tobacco products on social media is important for tobacco control research. Large Language Models (LLMs) can help streamline the labor-intensive human sentiment analysis process. This study examined the accuracy of LLMs in replicating human sentiment evaluation of social media messages about heated tobacco products (HTPs). The research used GPT-3.5 and GPT-4 Turbo to classify 500 Facebook and 500 Twitter messages, including anti-HTPs, pro-HTPs, and neutral messages. The models evaluated each message up to 20 times, and their majority label was compared to human evaluators. Results showed that GPT-3.5 accurately replicated human sentiment 61.2% of the time for Facebook messages and 57.0% for Twitter messages. GPT-4 Turbo performed better, with 81.7% accuracy for Facebook and 77.0% for Twitter. Using three response instances, GPT-4 Turbo achieved 99% of the accuracy of twenty instances. GPT-4 Turbo also had higher accuracy for anti- and pro-HTPs messages compared to neutral ones. Misclassifications by GPT-3.5 often involved anti- or pro-HTPs messages being labeled as neutral or irrelevant, while GPT-4 Turbo showed improvements across all categories. In conclusion, LLMs can be used for sentiment analysis of HTP-related social media messages, with GPT-4 Turbo reaching around 80% accuracy compared to human experts. However, there's a risk of misrepresenting overall sentiment due to differences in accuracy across sentiment categories.
- Abstract(参考訳): ソーシャルメディア上での代替たばこ製品の感性分析はタバコ防除研究にとって重要である。
大規模言語モデル(LLM)は、労働集約的な人間の感情分析プロセスの合理化に役立つ。
本研究では,加熱タバコ製品(HTP)に関するソーシャルメディアメッセージの人間感情評価の再現におけるLLMの精度について検討した。
この研究は、GPT-3.5とGPT-4 Turboを使って、アンチHTP、プロHTP、中立メッセージを含む500のFacebookと500のTwitterメッセージを分類した。
それぞれのメッセージは最大20回評価され、その大多数のラベルは人間の評価値と比較された。
その結果、GPT-3.5はFacebookメッセージの61.2%、Twitterメッセージの57.0%を正確に再現した。
GPT-4 Turboは、Facebookでは81.7%、Twitterでは77.0%の精度でパフォーマンスが向上した。
GPT-4 Turboは3つのレスポンスインスタンスを使用して、20インスタンスの精度の99%を達成した。
GPT-4 Turboは、中性メッセージと比較してアンチ・プロHTPメッセージの精度も高かった。
GPT-3.5による誤分類には、中性または無関係とラベル付けされたアンチHTPやプロHTPのメッセージが含まれ、GPT-4 Turboはすべてのカテゴリで改善が見られた。
結論として、LPMはHTP関連ソーシャルメディアメッセージの感情分析に利用でき、GPT-4 Turboは人間の専門家と比較して約80%の精度である。
しかし、感情カテゴリーごとに精度が異なるため、全体的な感情を誤表現するリスクがある。
関連論文リスト
- Classification performance and reproducibility of GPT-4 omni for information extraction from veterinary electronic health records [0.0]
本研究は, GPT-4 omni (GPT-4o) と GPT-3.5 Turbo の異なる条件下での性能を比較した。
GPT-4o を用いて獣医学的 EHR からの情報抽出を自動化することは手作業による抽出の代替となる。
論文 参考訳(メタデータ) (2024-09-09T21:55:15Z) - If in a Crowdsourced Data Annotation Pipeline, a GPT-4 [12.898580978312848]
本稿では,GPT-4と倫理的かつ優れたMTurkパイプラインを比較した。
ベストプラクティスにもかかわらず、MTurkパイプラインの最高精度は81.5%であり、GPT-4は83.6%に達した。
論文 参考訳(メタデータ) (2024-02-26T18:08:52Z) - Behind the Screen: Investigating ChatGPT's Dark Personality Traits and
Conspiracy Beliefs [0.0]
本稿では, GPT-3.5 と GPT-4 の暗黒性格特性と陰謀信念を分析した。
ダークパーソナリティの特徴と陰謀の信念はどちらのモデルでも特に強調されなかった。
論文 参考訳(メタデータ) (2024-02-06T16:03:57Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Evaluation of GPT and BERT-based models on identifying protein-protein
interactions in biomedical text [1.3923237289777164]
生成事前学習型変換器(GPT)や変換器(BERT)からの双方向エンコーダ表現などの事前学習型言語モデルは、自然言語処理(NLP)タスクにおいて有望な結果を示している。
複数GPTモデルとBERTモデルのPPI識別性能を、3つの手作業による金標準コーパスを用いて評価した。
論文 参考訳(メタデータ) (2023-03-30T22:06:10Z) - Humans in Humans Out: On GPT Converging Toward Common Sense in both
Success and Failure [0.0]
GPT-3, GPT-3.5, GPT-4は多量の人為的テキストで訓練された。
これらの例の59%に対して, GPT-3 は ETR 予測出力の証拠を示した。
GPT-3では18%, GPT-3.5では33%, GPT-4では34%であった。
論文 参考訳(メタデータ) (2023-03-30T10:32:18Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。