論文の概要: Evaluating Large Language Models Against Human Annotators in Latent Content Analysis: Sentiment, Political Leaning, Emotional Intensity, and Sarcasm
- arxiv url: http://arxiv.org/abs/2501.02532v1
- Date: Sun, 05 Jan 2025 13:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:10:11.709788
- Title: Evaluating Large Language Models Against Human Annotators in Latent Content Analysis: Sentiment, Political Leaning, Emotional Intensity, and Sarcasm
- Title(参考訳): 潜在コンテンツ分析における人間アノテーションに対する大規模言語モデルの評価:感性、政治的学習、感情的インテンシティ、サルカズム
- Authors: Ljubisa Bojic, Olga Zagovora, Asta Zelenkauskaite, Vuk Vukovic, Milan Cabarkapa, Selma Veseljević Jerkovic, Ana Jovančevic,
- Abstract要約: 本研究では,7つの最先端大規模言語モデル(LLM)の信頼性,一貫性,品質を評価する。
合計33人のアノテータと8つのLDM変種が100のキュレートされたテキストアイテムを評価した。
その結果、人間とLLMは、感情分析と政治的傾倒評価において高い信頼性を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.3141085922386211
- License:
- Abstract: In the era of rapid digital communication, vast amounts of textual data are generated daily, demanding efficient methods for latent content analysis to extract meaningful insights. Large Language Models (LLMs) offer potential for automating this process, yet comprehensive assessments comparing their performance to human annotators across multiple dimensions are lacking. This study evaluates the reliability, consistency, and quality of seven state-of-the-art LLMs, including variants of OpenAI's GPT-4, Gemini, Llama, and Mixtral, relative to human annotators in analyzing sentiment, political leaning, emotional intensity, and sarcasm detection. A total of 33 human annotators and eight LLM variants assessed 100 curated textual items, generating 3,300 human and 19,200 LLM annotations, with LLMs evaluated across three time points to examine temporal consistency. Inter-rater reliability was measured using Krippendorff's alpha, and intra-class correlation coefficients assessed consistency over time. The results reveal that both humans and LLMs exhibit high reliability in sentiment analysis and political leaning assessments, with LLMs demonstrating higher internal consistency than humans. In emotional intensity, LLMs displayed higher agreement compared to humans, though humans rated emotional intensity significantly higher. Both groups struggled with sarcasm detection, evidenced by low agreement. LLMs showed excellent temporal consistency across all dimensions, indicating stable performance over time. This research concludes that LLMs, especially GPT-4, can effectively replicate human analysis in sentiment and political leaning, although human expertise remains essential for emotional intensity interpretation. The findings demonstrate the potential of LLMs for consistent and high-quality performance in certain areas of latent content analysis.
- Abstract(参考訳): 高速デジタル通信の時代には、大量のテキストデータが毎日生成され、有意義な洞察を抽出するために、潜在コンテンツ分析の効率的な方法が求められている。
大規模言語モデル(LLM)は、このプロセスを自動化する可能性を提供するが、その性能と複数の次元にわたる人間のアノテータを比較した包括的な評価は欠如している。
本研究は,OpenAIのGPT-4,Gemini,Llama,Mixtralの7種類のLLMの信頼性,一貫性,品質を評価する。
総計33のアノテータと8のLLM変異体は、100のキュレートされたテキスト項目を評価し、3300の人間と19,200のLLMアノテーションを生成し、3つのタイムポイントでLCMを評価し、時間的整合性を検討した。
フラッター間信頼性はクリッペンドルフのαを用いて測定し、クラス内相関係数は時間とともに一貫性を評価した。
その結果、人間とLLMは感情分析と政治的傾倒評価において高い信頼性を示し、LLMは人間よりも高い内部整合性を示すことが明らかとなった。
感情強度では、LLMは人間よりも高い一致を示したが、人間は感情強度を有意に高く評価した。
どちらの集団も、低い合意によって証明された皮肉な発見に苦しんだ。
LLMは全次元にわたって優れた時間的一貫性を示し、時間とともに安定した性能を示した。
この研究は、LLM、特にGPT-4は感情と政治的傾きの人間の分析を効果的に再現できるが、人間の専門知識は感情の強さの解釈に不可欠である、と結論付けている。
その結果,潜在コンテンツ分析の特定の領域において,LCMsが一貫した,高品質な性能を実現する可能性が示された。
関連論文リスト
- The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Framework-Based Qualitative Analysis of Free Responses of Large Language
Models: Algorithmic Fidelity [1.7947441434255664]
大規模生成言語モデル(LLM)は、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する自由応答をシミュレートすることができる。
本稿では, LLMが生成する人工シリコン参加者について, 定性的手法を用いて生産的に研究できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-09-06T15:00:44Z) - Personality testing of Large Language Models: Limited temporal stability, but highlighted prosociality [0.0]
大きな言語モデル(LLM)は、人間のような特徴と、ユーザに提供する親密さによって人気を博している。
本研究は,人格楽器に対する時間的安定度と時間的合意度を2点に評価することを目的とした。
短時間でLSMs反応において, レーザー間一致のレベルが異なることが判明した。
論文 参考訳(メタデータ) (2023-06-07T10:14:17Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。