論文の概要: Towards Evaluating Large Language Models on Sarcasm Understanding
- arxiv url: http://arxiv.org/abs/2408.11319v1
- Date: Wed, 21 Aug 2024 03:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:28:56.254545
- Title: Towards Evaluating Large Language Models on Sarcasm Understanding
- Title(参考訳): サルカズム理解における大規模言語モデルの評価に向けて
- Authors: Yazhou Zhang, Chunwang Zou, Zheng Lian, Prayag Tiwari, Jing Qin,
- Abstract要約: 異なるプロンプト手法を用いて,広く使用されている6つのベンチマークデータセットの評価を行った。
GPT-4 は様々なプロンプト法で他の LLM よりも一貫して著しく優れている。
ゼロショットIOプロンプト法は、ゼロショットIOと少数ショットCoTという2つの方法より優れている。
- 参考スコア(独自算出の注目度): 19.412462224847086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of large language models (LLMs), the task of ``System I''~-~the fast, unconscious, and intuitive tasks, e.g., sentiment analysis, text classification, etc., have been argued to be successfully solved. However, sarcasm, as a subtle linguistic phenomenon, often employs rhetorical devices like hyperbole and figuration to convey true sentiments and intentions, involving a higher level of abstraction than sentiment analysis. There is growing concern that the argument about LLMs' success may not be fully tenable when considering sarcasm understanding. To address this question, we select eleven SOTA LLMs and eight SOTA pre-trained language models (PLMs) and present comprehensive evaluations on six widely used benchmark datasets through different prompting approaches, i.e., zero-shot input/output (IO) prompting, few-shot IO prompting, chain of thought (CoT) prompting. Our results highlight three key findings: (1) current LLMs underperform supervised PLMs based sarcasm detection baselines across six sarcasm benchmarks. This suggests that significant efforts are still required to improve LLMs' understanding of human sarcasm. (2) GPT-4 consistently and significantly outperforms other LLMs across various prompting methods, with an average improvement of 14.0\%$\uparrow$. Claude 3 and ChatGPT demonstrate the next best performance after GPT-4. (3) Few-shot IO prompting method outperforms the other two methods: zero-shot IO and few-shot CoT. The reason is that sarcasm detection, being a holistic, intuitive, and non-rational cognitive process, is argued not to adhere to step-by-step logical reasoning, making CoT less effective in understanding sarcasm compared to its effectiveness in mathematical reasoning tasks.
- Abstract(参考訳): 大規模言語モデル (LLMs) の時代には,「システムI''~〜〜〜高速,無意識,直感的なタスク,例えば感情分析,テキスト分類など」という課題が解決されたと主張されている。
しかし、サルカズムは微妙な言語現象として、しばしば感情分析よりも高いレベルの抽象性を含む真の感情と意図を伝えるために、ハイパーボールやフィギュレーションのような修辞的な装置を用いる。
LLMの成功に関する議論が、皮肉な理解を考えると、完全には持続できないのではないかという懸念が高まっている。
この問題に対処するために、我々は11のSOTA LLMと8のSOTA事前訓練言語モデル(PLM)を選択し、異なるプロンプトアプローチ、すなわちゼロショットインプット/アウトプット(IO)プロンプト、少数ショットIOプロンプト、思考連鎖(CoT)プロンプトを通じて6つの広く使用されているベンチマークデータセットに対して包括的な評価を行う。
1)現在のLSMは6つのサルカサムベンチマークにおいて、教師付きPLMに基づくサルカズム検出ベースラインを過小評価している。
このことは、LLMのヒトの肉腫に対する理解を改善するために依然として重要な努力が必要であることを示唆している。
2) GPT-4 は様々なプロンプト法で他の LLM を一貫して大幅に上回り、平均 14.0\%$\uparrow$ である。
クロード3とChatGPTはGPT-4に続く次の最高の性能を示した。
(3)0ショット IO と few-shot CoT の 2 つの方法より優れている。
その理由は、全体論的、直感的で非合理的な認知過程であるサルカズムの検出が、段階的に論理的推論に固執しないことを主張しており、CoTは数学的推論タスクにおけるその有効性に比べて、サルカズムを理解するのに効果が低いからである。
関連論文リスト
- Is Sarcasm Detection A Step-by-Step Reasoning Process in Large Language Models? [13.222198659253056]
4つのサブメソッドを含む新しいプロンプトフレームワーク(SarcasmCue)を導入する。
シーケンシャルおよび非シーケンシャルなプロンプト法を考慮し、人間の皮肉を検出するために、大きな言語モデル(LLM)を用いる。
我々のフレームワークは、4つのデータセットでF1スコアの4.2%、2.0%、29.7%、58.2%を継続的に最先端(ToT)にプッシュします。
論文 参考訳(メタデータ) (2024-07-17T16:42:03Z) - RVISA: Reasoning and Verification for Implicit Sentiment Analysis [18.836998294161834]
暗黙の感情分析(ISA)は、表現に有能なキュー語が欠如していることで大きな課題となる。
本研究では,DO LLMの生成能力とED LLMの推論能力を利用した2段階推論フレームワークであるRVISAを提案する。
論文 参考訳(メタデータ) (2024-07-02T15:07:54Z) - CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models [14.453131020178564]
本稿では,大きめのパラダイムを持つ多目的MSTIフレームワークを提案する。
マルチモーダル推論におけるLMM(Large Multimodal Models)の強力な能力に着想を得て、まずLMMに取り組み、マルチモーダルサルカズム検出における小言語モデルの粗粒化事前学習のための競合する有理性を生成する。
そこで本稿では,LMM に内在する潜在的なノイズによる負の影響を緩和し,より微細な目標同定モデルを提案する。
論文 参考訳(メタデータ) (2024-05-01T08:44:44Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。