論文の概要: A Wide Evaluation of ChatGPT on Affective Computing Tasks
- arxiv url: http://arxiv.org/abs/2308.13911v1
- Date: Sat, 26 Aug 2023 16:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:04:46.416179
- Title: A Wide Evaluation of ChatGPT on Affective Computing Tasks
- Title(参考訳): 影響計算課題におけるChatGPTの広範な評価
- Authors: Mostafa M. Amin, Rui Mao, Erik Cambria, Bj\"orn W. Schuller
- Abstract要約: GPT-4 と GPT-3.5 という ChatGPT モデルの13 個の感情計算問題に対する性能について検討した。
我々はChatGPTを、エンドツーエンドのリカレントニューラルネットワークやトランスフォーマーといった従来のNLP手法と比較する。
この結果は、ChatGPTモデルが幅広い感情的コンピューティング問題において創発的能力を示すものである。
- 参考スコア(独自算出の注目度): 32.557383931586266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of foundation models, a new artificial intelligence paradigm
has emerged, by simply using general purpose foundation models with prompting
to solve problems instead of training a separate machine learning model for
each problem. Such models have been shown to have emergent properties of
solving problems that they were not initially trained on. The studies for the
effectiveness of such models are still quite limited. In this work, we widely
study the capabilities of the ChatGPT models, namely GPT-4 and GPT-3.5, on 13
affective computing problems, namely aspect extraction, aspect polarity
classification, opinion extraction, sentiment analysis, sentiment intensity
ranking, emotions intensity ranking, suicide tendency detection, toxicity
detection, well-being assessment, engagement measurement, personality
assessment, sarcasm detection, and subjectivity detection. We introduce a
framework to evaluate the ChatGPT models on regression-based problems, such as
intensity ranking problems, by modelling them as pairwise ranking
classification. We compare ChatGPT against more traditional NLP methods, such
as end-to-end recurrent neural networks and transformers. The results
demonstrate the emergent abilities of the ChatGPT models on a wide range of
affective computing problems, where GPT-3.5 and especially GPT-4 have shown
strong performance on many problems, particularly the ones related to
sentiment, emotions, or toxicity. The ChatGPT models fell short for problems
with implicit signals, such as engagement measurement and subjectivity
detection.
- Abstract(参考訳): ファンデーションモデルの台頭とともに、汎用的なファンデーションモデルを使い、各問題に対して別の機械学習モデルをトレーニングするのではなく、問題解決を促すことによって、新たな人工知能パラダイムが出現した。
このようなモデルは、当初訓練されなかった問題の解法に創発的な性質があることが示されている。
このようなモデルの有効性に関する研究はまだかなり限られている。
本研究は, アスペクト抽出, アスペクト極性分類, 意見抽出, 感情分析, 感情強度ランキング, 感情強度ランキング, 自殺傾向検出, 毒性検出, 幸福度評価, エンゲージメント測定, 性格評価, サーカズム検出, 主観性検出など13の感情的コンピュータ問題に対して, chatgptモデルの能力, gpt-4 と gpt-3.5 を広く検討した。
本稿では,重み付け問題などの回帰に基づく問題に対するchatgptモデルをペアワイズランキング分類としてモデル化し,評価する枠組みを提案する。
我々はChatGPTを、エンドツーエンドのリカレントニューラルネットワークやトランスフォーマーといった従来のNLP手法と比較する。
その結果、gpt-3.5、特にgpt-4は、多くの問題、特に感情、感情、毒性に関連する問題において強いパフォーマンスを示した。
ChatGPTモデルは、エンゲージメント測定や主観的検出といった暗黙的な信号の問題で不足していた。
関連論文リスト
- On Prompt Sensitivity of ChatGPT in Affective Computing [46.93320580613236]
本稿では,異なるプロンプトや生成パラメータに基づいて基礎モデルの性能評価と評価を行う手法を提案する。
感情分析, 毒性検出, 皮肉検出の3つの主要な問題に対して, 感情計算の範囲内でChatGPTの評価を行った。
論文 参考訳(メタデータ) (2024-03-20T22:11:01Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Can ChatGPT's Responses Boost Traditional Natural Language Processing? [12.456183060562317]
ChatGPTは、問題解決のために特に訓練されることなく、新しい能力の可能性を示してきた。
以前の研究は、感情的なコンピューティングタスクでこれらの出現する能力を実証した。
私たちは、ChatGPTが既存の特殊化モデルを融合させる新しい知識を持っているかどうかを調べてこれを拡張します。
論文 参考訳(メタデータ) (2023-07-06T15:42:05Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - ChatGPT-Crawler: Find out if ChatGPT really knows what it's talking
about [15.19126287569545]
本研究では,異なる対話型QAコーパスからChatGPTが生成する応答について検討する。
この研究はBERT類似度スコアを用いて、これらの回答を正しい回答と比較し、自然言語推論(NLI)ラベルを得る。
調査では、ChatGPTが質問に対する誤った回答を提供し、モデルがエラーを起こしやすい領域について洞察を与えている事例を特定した。
論文 参考訳(メタデータ) (2023-04-06T18:42:47Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Will Affective Computing Emerge from Foundation Models and General AI? A
First Evaluation on ChatGPT [12.456183060562317]
ChatGPTは多くの自然言語処理タスクに対して有能な性能を示している。
本稿では,3つの感情計算問題に対して,テキスト分類を行うChatGPTの能力を評価する。
論文 参考訳(メタデータ) (2023-03-03T16:11:37Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。