論文の概要: Towards New Benchmark for AI Alignment & Sentiment Analysis in Socially Important Issues: A Comparative Study of Human and LLMs in the Context of AGI
- arxiv url: http://arxiv.org/abs/2501.02531v1
- Date: Sun, 05 Jan 2025 13:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:55.669977
- Title: Towards New Benchmark for AI Alignment & Sentiment Analysis in Socially Important Issues: A Comparative Study of Human and LLMs in the Context of AGI
- Title(参考訳): 社会問題におけるAIアライメント・センチメント分析の新しいベンチマークに向けて:AGIの文脈における人間とLLMの比較研究
- Authors: Ljubisa Bojic, Dylan Seychell, Milan Cabarkapa,
- Abstract要約: 本研究は、社会的輸入問題における様々な大規模言語モデルの感情評価のためのベンチマークの確立に寄与することを目的としている。
GPT-4とBardを含む7つのLDMを解析し、3つの独立したヒトサンプル集団の感情データと比較した。
GPT-4はAGIに対して最も肯定的な感情スコアを記録したが、Bardは中立的な感情に傾いていた。
- 参考スコア(独自算出の注目度): 0.08192907805418582
- License:
- Abstract: With the expansion of neural networks, such as large language models, humanity is exponentially heading towards superintelligence. As various AI systems are increasingly integrated into the fabric of societies-through recommending values, devising creative solutions, and making decisions-it becomes critical to assess how these AI systems impact humans in the long run. This research aims to contribute towards establishing a benchmark for evaluating the sentiment of various Large Language Models in socially importan issues. The methodology adopted was a Likert scale survey. Seven LLMs, including GPT-4 and Bard, were analyzed and compared against sentiment data from three independent human sample populations. Temporal variations in sentiment were also evaluated over three consecutive days. The results highlighted a diversity in sentiment scores among LLMs, ranging from 3.32 to 4.12 out of 5. GPT-4 recorded the most positive sentiment score towards AGI, whereas Bard was leaning towards the neutral sentiment. The human samples, contrastingly, showed a lower average sentiment of 2.97. The temporal comparison revealed differences in sentiment evolution between LLMs in three days, ranging from 1.03% to 8.21%. The study's analysis outlines the prospect of potential conflicts of interest and bias possibilities in LLMs' sentiment formation. Results indicate that LLMs, akin to human cognitive processes, could potentially develop unique sentiments and subtly influence societies' perceptions towards various opinions formed within the LLMs.
- Abstract(参考訳): 大規模言語モデルのようなニューラルネットワークの拡大により、人類は指数関数的に超知能に向かっている。
さまざまなAIシステムが、価値を推奨し、創造的なソリューションを考案し、意思決定を通じて、社会のファブリックに統合されるようになるにつれて、これらのAIシステムが長期的に人間に与える影響を評価することが重要になる。
本研究は、社会的輸入問題における様々な大規模言語モデルの感情評価のためのベンチマークの確立に寄与することを目的としている。
採用された手法は、Likertスケールのサーベイである。
GPT-4とBardを含む7つのLDMを解析し、3つの独立したヒトサンプル集団の感情データと比較した。
感情の時間的変動も3日間にわたって評価された。
その結果、LLMの感情スコアは5.5%中3.32から4.12まで様々であった。
GPT-4はAGIに対して最も肯定的な感情スコアを記録したが、Bardは中立的な感情に傾いていた。
対照的に、ヒトのサンプルの平均感情は2.97。
時間的比較では、LLM間の3日間の感情進化の差異が1.03%から8.21%まで明らかにされた。
この研究の分析は、LLMの感情形成における利害対立の可能性とバイアスの可能性について概説している。
以上の結果から, LLMは人間の認知過程に類似し, 独特な感情を発達させ, LLM内の様々な意見に対する社会の認識に微妙に影響を及ぼす可能性が示唆された。
関連論文リスト
- Evaluating Large Language Models Against Human Annotators in Latent Content Analysis: Sentiment, Political Leaning, Emotional Intensity, and Sarcasm [0.3141085922386211]
本研究では,7つの最先端大規模言語モデル(LLM)の信頼性,一貫性,品質を評価する。
合計33人のアノテータと8つのLDM変種が100のキュレートされたテキストアイテムを評価した。
その結果、人間とLLMは、感情分析と政治的傾倒評価において高い信頼性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-01-05T13:28:15Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。
本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文 参考訳(メタデータ) (2024-09-04T01:40:20Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - GPT-4 Surpassing Human Performance in Linguistic Pragmatics [0.0]
本研究では,Large Language Models (LLMs) の言語プラグマティクスの理解と解釈能力について検討した。
Grice のコミュニケーション原理を用いて,LLM とヒトの被験者を対話型タスクに対する応答に基づいて評価した。
以上の結果より, LLM, 特にGPT4は, 実用的解釈において, 人体よりも優れていた。
論文 参考訳(メタデータ) (2023-12-15T05:40:15Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Exploring Qualitative Research Using LLMs [8.545798128849091]
この研究は、人間とAIが駆動する大規模言語モデルの理解能力を比較し、比較することを目的としている。
私たちはAlexaアプリのレビューの小さなサンプルを使って実験を行い、最初は人間のアナリストによって分類された。
LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
論文 参考訳(メタデータ) (2023-06-23T05:21:36Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。