Fugu-MT 論文翻訳(概要): ChatGPT vs Gemini vs LLaMA on Multilingual Sentiment Analysis

論文の概要: ChatGPT vs Gemini vs LLaMA on Multilingual Sentiment Analysis

arxiv url: http://arxiv.org/abs/2402.01715v1
Date: Thu, 25 Jan 2024 23:15:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-11 16:27:53.403656
Title: ChatGPT vs Gemini vs LLaMA on Multilingual Sentiment Analysis
Title（参考訳）: 多言語感性分析におけるChatGPT vs Gemini vs LLaMA
Authors: Alessio Buscemi and Daniele Proverbio
Abstract要約: 我々は、曖昧で曖昧なシナリオを構築し、それらを10の言語で翻訳し、人気のあるLLMを用いてそれらの感情を予測した。結果はポストホックヒトの反応に対して検証される。この研究は、感情分析の自動評価のための標準化された方法論を提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated sentiment analysis using Large Language Model (LLM)-based models like ChatGPT, Gemini or LLaMA2 is becoming widespread, both in academic research and in industrial applications. However, assessment and validation of their performance in case of ambiguous or ironic text is still poor. In this study, we constructed nuanced and ambiguous scenarios, we translated them in 10 languages, and we predicted their associated sentiment using popular LLMs. The results are validated against post-hoc human responses. Ambiguous scenarios are often well-coped by ChatGPT and Gemini, but we recognise significant biases and inconsistent performance across models and evaluated human languages. This work provides a standardised methodology for automated sentiment analysis evaluation and makes a call for action to further improve the algorithms and their underlying data, to improve their performance, interpretability and applicability.
Abstract（参考訳）: 大規模言語モデル(LLM)ベースのモデルであるChatGPT、Gemini、LLaMA2を用いた感情分析の自動化は、学術研究と産業応用の両方において広く普及している。しかし、曖昧または皮肉な文章の場合、その性能の評価と検証は依然として貧弱である。本研究では,曖昧で曖昧なシナリオを構築し,それらを10言語で翻訳し,それらの感情をLLMを用いて予測した。結果はポストホックヒトの反応に対して検証される。あいまいなシナリオは、しばしばchatgptとgeminiによってうまく処理されますが、モデル間の大きなバイアスと一貫性のないパフォーマンスを認識し、人間言語を評価します。この研究は、感情分析の自動評価のための標準化された方法論を提供し、アルゴリズムとその基礎となるデータをさらに改善し、そのパフォーマンス、解釈可能性、適用性を改善するためのアクションを呼び出す。

関連論文リスト

Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness [30.632260870411177]
大規模言語モデル(LLM)は、過去数年間、人々の仕事や日常生活に急速に浸透してきた。この論文は、ソフトウェアテストと自然言語処理の両方の観点から、LSMの正当性、非毒性、公平性に焦点を当てている。
論文参考訳（メタデータ） (2024-08-31T22:21:04Z)
How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文参考訳（メタデータ） (2024-07-03T15:39:40Z)
Advancing Annotation of Stance in Social Media Posts: A Comparative Analysis of Large Language Models and Crowd Sourcing [2.936331223824117]
ソーシャルメディア投稿における自動テキストアノテーションのための大規模言語モデル(LLM)は、大きな関心を集めている。ソーシャルメディア投稿において,8つのオープンソースおよびプロプライエタリなLCMの性能分析を行った。「我々の研究の顕著な発見は、姿勢を表わす文章の明快さが、LLMの姿勢判断が人間とどのように一致しているかにおいて重要な役割を担っていることである。」
論文参考訳（メタデータ） (2024-06-11T17:26:07Z)
Can Large Language Models Automatically Score Proficiency of Written Essays? [3.993602109661159]
大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。我々は,LLMの強力な言語知識を活かして,エッセイを分析し,効果的に評価する能力をテストする。
論文参考訳（メタデータ） (2024-03-10T09:39:00Z)
SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文参考訳（メタデータ） (2023-10-27T06:48:48Z)
Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文参考訳（メタデータ） (2023-06-02T17:12:25Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文参考訳（メタデータ） (2023-03-11T01:19:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。