Fugu-MT 論文翻訳(概要): Towards New Benchmark for AI Alignment & Sentiment Analysis in Socially Important Issues: A Comparative Study of Human and LLMs in the Context of AGI

論文の概要: Towards New Benchmark for AI Alignment & Sentiment Analysis in Socially Important Issues: A Comparative Study of Human and LLMs in the Context of AGI

arxiv url: http://arxiv.org/abs/2501.02531v1
Date: Sun, 05 Jan 2025 13:18:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:51.474058
Title: Towards New Benchmark for AI Alignment & Sentiment Analysis in Socially Important Issues: A Comparative Study of Human and LLMs in the Context of AGI
Title（参考訳）: 社会問題におけるAIアライメント・センチメント分析の新しいベンチマークに向けて:AGIの文脈における人間とLLMの比較研究
Authors: Ljubisa Bojic, Dylan Seychell, Milan Cabarkapa,
Abstract要約: 本研究は、社会的輸入問題における様々な大規模言語モデルの感情評価のためのベンチマークの確立に寄与することを目的としている。 GPT-4とBardを含む7つのLDMを解析し、3つの独立したヒトサンプル集団の感情データと比較した。 GPT-4はAGIに対して最も肯定的な感情スコアを記録したが、Bardは中立的な感情に傾いていた。
参考スコア（独自算出の注目度）: 0.08192907805418582
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the expansion of neural networks, such as large language models, humanity is exponentially heading towards superintelligence. As various AI systems are increasingly integrated into the fabric of societies-through recommending values, devising creative solutions, and making decisions-it becomes critical to assess how these AI systems impact humans in the long run. This research aims to contribute towards establishing a benchmark for evaluating the sentiment of various Large Language Models in socially importan issues. The methodology adopted was a Likert scale survey. Seven LLMs, including GPT-4 and Bard, were analyzed and compared against sentiment data from three independent human sample populations. Temporal variations in sentiment were also evaluated over three consecutive days. The results highlighted a diversity in sentiment scores among LLMs, ranging from 3.32 to 4.12 out of 5. GPT-4 recorded the most positive sentiment score towards AGI, whereas Bard was leaning towards the neutral sentiment. The human samples, contrastingly, showed a lower average sentiment of 2.97. The temporal comparison revealed differences in sentiment evolution between LLMs in three days, ranging from 1.03% to 8.21%. The study's analysis outlines the prospect of potential conflicts of interest and bias possibilities in LLMs' sentiment formation. Results indicate that LLMs, akin to human cognitive processes, could potentially develop unique sentiments and subtly influence societies' perceptions towards various opinions formed within the LLMs.
Abstract（参考訳）: 大規模言語モデルのようなニューラルネットワークの拡大により、人類は指数関数的に超知能に向かっている。さまざまなAIシステムが、価値を推奨し、創造的なソリューションを考案し、意思決定を通じて、社会のファブリックに統合されるようになるにつれて、これらのAIシステムが長期的に人間に与える影響を評価することが重要になる。本研究は、社会的輸入問題における様々な大規模言語モデルの感情評価のためのベンチマークの確立に寄与することを目的としている。採用された手法は、Likertスケールのサーベイである。 GPT-4とBardを含む7つのLDMを解析し、3つの独立したヒトサンプル集団の感情データと比較した。感情の時間的変動も3日間にわたって評価された。その結果、LLMの感情スコアは5.5%中3.32から4.12まで様々であった。 GPT-4はAGIに対して最も肯定的な感情スコアを記録したが、Bardは中立的な感情に傾いていた。対照的に、ヒトのサンプルの平均感情は2.97。時間的比較では、LLM間の3日間の感情進化の差異が1.03%から8.21%まで明らかにされた。この研究の分析は、LLMの感情形成における利害対立の可能性とバイアスの可能性について概説している。以上の結果から, LLMは人間の認知過程に類似し, 独特な感情を発達させ, LLM内の様々な意見に対する社会の認識に微妙に影響を及ぼす可能性が示唆された。

関連論文リスト

MMAFFBen: A Multilingual and Multimodal Affective Analysis Benchmark for Evaluating LLMs and VLMs [33.73249122449025]
MMAFFBenは多言語マルチモーダル感情分析のためのオープンソースのベンチマークである。 MMAFFBenは、感情極性、感情強度、感情分類、感情強度の4つの主要な感情分析タスクをカバーしている。 MMAFFLM-3b と MMAFFLM-7b は,感情分析タスクを微調整するための MMAFFIn データセットの構築と,それに基づく MMAFFLM-3b と MMAFFLM-7b の開発を行う。
論文参考訳（メタデータ） (2025-05-30T10:02:15Z)
From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [52.32745233116143]
人間は知識をセマンティック圧縮によってコンパクトなカテゴリに分類する。大規模言語モデル(LLM)は、顕著な言語能力を示す。しかし、その内部表現が、圧縮と意味的忠実性の間の人間のようなトレードオフにぶつかるかどうかは不明だ。
論文参考訳（メタデータ） (2025-05-21T16:29:00Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Prompt Sentiment: The Catalyst for LLM Change [0.29998889086656577]
本研究では,感情変化が大規模言語モデル(LLM)に与える影響を系統的に検討する。私たちの分析は、コンテンツ生成、会話型AI、法的および財務分析、ヘルスケアAI、クリエイティブライティング、および技術ドキュメントを含む、AI駆動の6つのアプリケーションにまたがる。以上の結果から,肯定的な感情はモデル反応に大きく影響し,否定的な感情は事実の精度を低下させ,バイアスを増幅する一方,肯定的な感情は冗長性や感情の伝播を増大させる傾向が示唆された。
論文参考訳（メタデータ） (2025-03-14T06:25:21Z)
Evaluating Large Language Models Against Human Annotators in Latent Content Analysis: Sentiment, Political Leaning, Emotional Intensity, and Sarcasm [0.3141085922386211]
本研究では,7つの最先端大規模言語モデル(LLM)の信頼性,一貫性,品質を評価する。合計33人のアノテータと8つのLDM変種が100のキュレートされたテキストアイテムを評価した。その結果、人間とLLMは、感情分析と政治的傾倒評価において高い信頼性を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-01-05T13:28:15Z)
Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文参考訳（メタデータ） (2024-10-24T04:02:30Z)
Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文参考訳（メタデータ） (2024-10-03T16:43:17Z)
Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文参考訳（メタデータ） (2024-09-04T01:40:20Z)
Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文参考訳（メタデータ） (2024-07-02T14:02:53Z)
Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T09:44:51Z)
GPT-4 Surpassing Human Performance in Linguistic Pragmatics [0.0]
本研究では,Large Language Models (LLMs) の言語プラグマティクスの理解と解釈能力について検討した。 Grice のコミュニケーション原理を用いて,LLM とヒトの被験者を対話型タスクに対する応答に基づいて評価した。以上の結果より, LLM, 特にGPT4は, 実用的解釈において, 人体よりも優れていた。
論文参考訳（メタデータ） (2023-12-15T05:40:15Z)
Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文参考訳（メタデータ） (2023-08-07T15:18:30Z)
Exploring Qualitative Research Using LLMs [8.545798128849091]
この研究は、人間とAIが駆動する大規模言語モデルの理解能力を比較し、比較することを目的としている。私たちはAlexaアプリのレビューの小さなサンプルを使って実験を行い、最初は人間のアナリストによって分類された。 LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
論文参考訳（メタデータ） (2023-06-23T05:21:36Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。