論文の概要: ChatGPT vs Gemini vs LLaMA on Multilingual Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2402.01715v1
- Date: Thu, 25 Jan 2024 23:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:27:53.403656
- Title: ChatGPT vs Gemini vs LLaMA on Multilingual Sentiment Analysis
- Title(参考訳): 多言語感性分析におけるChatGPT vs Gemini vs LLaMA
- Authors: Alessio Buscemi and Daniele Proverbio
- Abstract要約: 我々は、曖昧で曖昧なシナリオを構築し、それらを10の言語で翻訳し、人気のあるLLMを用いてそれらの感情を予測した。
結果はポストホックヒトの反応に対して検証される。
この研究は、感情分析の自動評価のための標準化された方法論を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated sentiment analysis using Large Language Model (LLM)-based models
like ChatGPT, Gemini or LLaMA2 is becoming widespread, both in academic
research and in industrial applications. However, assessment and validation of
their performance in case of ambiguous or ironic text is still poor. In this
study, we constructed nuanced and ambiguous scenarios, we translated them in 10
languages, and we predicted their associated sentiment using popular LLMs. The
results are validated against post-hoc human responses. Ambiguous scenarios are
often well-coped by ChatGPT and Gemini, but we recognise significant biases and
inconsistent performance across models and evaluated human languages. This work
provides a standardised methodology for automated sentiment analysis evaluation
and makes a call for action to further improve the algorithms and their
underlying data, to improve their performance, interpretability and
applicability.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのモデルであるChatGPT、Gemini、LLaMA2を用いた感情分析の自動化は、学術研究と産業応用の両方において広く普及している。
しかし、曖昧または皮肉な文章の場合、その性能の評価と検証は依然として貧弱である。
本研究では,曖昧で曖昧なシナリオを構築し,それらを10言語で翻訳し,それらの感情をLLMを用いて予測した。
結果はポストホックヒトの反応に対して検証される。
あいまいなシナリオは、しばしばchatgptとgeminiによってうまく処理されますが、モデル間の大きなバイアスと一貫性のないパフォーマンスを認識し、人間言語を評価します。
この研究は、感情分析の自動評価のための標準化された方法論を提供し、アルゴリズムとその基礎となるデータをさらに改善し、そのパフォーマンス、解釈可能性、適用性を改善するためのアクションを呼び出す。
関連論文リスト
- Can Large Language Models Automatically Score Proficiency of Written Essays? [3.993602109661159]
大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。
我々は,LLMの強力な言語知識を活かして,エッセイを分析し,効果的に評価する能力をテストする。
論文 参考訳(メタデータ) (2024-03-10T09:39:00Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Supervised Learning and Large Language Model Benchmarks on Mental Health
Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media [24.130206803192635]
中国のソーシャルメディアから新たに2つの注釈付きデータセットを導入し,認知的歪みと自殺リスク分類に着目した。
大きな言語モデルの能力を評価するために、ゼロショット、少数ショット、微調整という3つの戦略を採用しました。
GPT-4は一貫して強い結果を示したが, GPT-3.5は微調整後, 自殺リスク分類が著しく改善した。
論文 参考訳(メタデータ) (2023-09-07T08:50:46Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。