論文の概要: ChatGPT vs Gemini vs LLaMA on Multilingual Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2402.01715v1
- Date: Thu, 25 Jan 2024 23:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:27:53.403656
- Title: ChatGPT vs Gemini vs LLaMA on Multilingual Sentiment Analysis
- Title(参考訳): 多言語感性分析におけるChatGPT vs Gemini vs LLaMA
- Authors: Alessio Buscemi and Daniele Proverbio
- Abstract要約: 我々は、曖昧で曖昧なシナリオを構築し、それらを10の言語で翻訳し、人気のあるLLMを用いてそれらの感情を予測した。
結果はポストホックヒトの反応に対して検証される。
この研究は、感情分析の自動評価のための標準化された方法論を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated sentiment analysis using Large Language Model (LLM)-based models
like ChatGPT, Gemini or LLaMA2 is becoming widespread, both in academic
research and in industrial applications. However, assessment and validation of
their performance in case of ambiguous or ironic text is still poor. In this
study, we constructed nuanced and ambiguous scenarios, we translated them in 10
languages, and we predicted their associated sentiment using popular LLMs. The
results are validated against post-hoc human responses. Ambiguous scenarios are
often well-coped by ChatGPT and Gemini, but we recognise significant biases and
inconsistent performance across models and evaluated human languages. This work
provides a standardised methodology for automated sentiment analysis evaluation
and makes a call for action to further improve the algorithms and their
underlying data, to improve their performance, interpretability and
applicability.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのモデルであるChatGPT、Gemini、LLaMA2を用いた感情分析の自動化は、学術研究と産業応用の両方において広く普及している。
しかし、曖昧または皮肉な文章の場合、その性能の評価と検証は依然として貧弱である。
本研究では,曖昧で曖昧なシナリオを構築し,それらを10言語で翻訳し,それらの感情をLLMを用いて予測した。
結果はポストホックヒトの反応に対して検証される。
あいまいなシナリオは、しばしばchatgptとgeminiによってうまく処理されますが、モデル間の大きなバイアスと一貫性のないパフォーマンスを認識し、人間言語を評価します。
この研究は、感情分析の自動評価のための標準化された方法論を提供し、アルゴリズムとその基礎となるデータをさらに改善し、そのパフォーマンス、解釈可能性、適用性を改善するためのアクションを呼び出す。
関連論文リスト
- Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness [30.632260870411177]
大規模言語モデル(LLM)は、過去数年間、人々の仕事や日常生活に急速に浸透してきた。
この論文は、ソフトウェアテストと自然言語処理の両方の観点から、LSMの正当性、非毒性、公平性に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-31T22:21:04Z) - How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。
量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文 参考訳(メタデータ) (2024-07-03T15:39:40Z) - Advancing Annotation of Stance in Social Media Posts: A Comparative Analysis of Large Language Models and Crowd Sourcing [2.936331223824117]
ソーシャルメディア投稿における自動テキストアノテーションのための大規模言語モデル(LLM)は、大きな関心を集めている。
ソーシャルメディア投稿において,8つのオープンソースおよびプロプライエタリなLCMの性能分析を行った。
「我々の研究の顕著な発見は、姿勢を表わす文章の明快さが、LLMの姿勢判断が人間とどのように一致しているかにおいて重要な役割を担っていることである。」
論文 参考訳(メタデータ) (2024-06-11T17:26:07Z) - Can Large Language Models Automatically Score Proficiency of Written Essays? [3.993602109661159]
大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。
我々は,LLMの強力な言語知識を活かして,エッセイを分析し,効果的に評価する能力をテストする。
論文 参考訳(メタデータ) (2024-03-10T09:39:00Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。