論文の概要: SOUL: Towards Sentiment and Opinion Understanding of Language
- arxiv url: http://arxiv.org/abs/2310.17924v1
- Date: Fri, 27 Oct 2023 06:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:48:14.820268
- Title: SOUL: Towards Sentiment and Opinion Understanding of Language
- Title(参考訳): SOUL: 言語に対する感性と意見の理解に向けて
- Authors: Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing
- Abstract要約: 我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
- 参考スコア(独自算出の注目度): 96.74878032417054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is a well-established natural language processing task,
with sentiment polarity classification being one of its most popular and
representative tasks. However, despite the success of pre-trained language
models in this area, they often fall short of capturing the broader
complexities of sentiment analysis. To address this issue, we propose a new
task called Sentiment and Opinion Understanding of Language (SOUL). SOUL aims
to evaluate sentiment understanding through two subtasks: Review Comprehension
(RC) and Justification Generation (JG). RC seeks to validate statements that
focus on subjective information based on a review text, while JG requires
models to provide explanations for their sentiment predictions. To enable
comprehensive evaluation, we annotate a new dataset comprising 15,028
statements from 3,638 reviews. Experimental results indicate that SOUL is a
challenging task for both small and large language models, with a performance
gap of up to 27% when compared to human performance. Furthermore, evaluations
conducted with both human experts and GPT-4 highlight the limitations of the
small language model in generating reasoning-based justifications. These
findings underscore the challenging nature of the SOUL task for existing
models, emphasizing the need for further advancements in sentiment analysis to
address its complexities. The new dataset and code are available at
https://github.com/DAMO-NLP-SG/SOUL.
- Abstract(参考訳): 感情分析は確立された自然言語処理タスクであり、感情極性分類は最も一般的かつ代表的なタスクの1つである。
しかしながら、この分野で事前学習された言語モデルの成功にもかかわらず、感情分析のより広い複雑さを捉えられないことが多い。
この問題に対処するため,我々はSOUL(Sentiment and Opinion Understanding of Language)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスク、Review Comprehension (RC) と Justification Generation (JG) を通じて感情理解を評価することを目的としている。
RCは、レビューテキストに基づく主観的な情報に焦点を当てたステートメントの検証を試みる一方、JGは感情予測に説明を与えるモデルを必要とする。
包括的評価を可能にするために,3,638レビューから15,028文からなる新しいデータセットをアノテートする。
実験結果から,SOULは中小言語モデルと大規模言語モデルの両方にとって難しい課題であり,人的性能と比較して最大27%の性能差があることがわかった。
さらに、人間の専門家とGPT-4による評価は、推論に基づく正当化を生成する際の小言語モデルの限界を強調している。
これらの結果は、既存のモデルにおけるSOULタスクの難易度を強調し、その複雑さに対応するための感情分析のさらなる進歩の必要性を強調している。
新しいデータセットとコードはhttps://github.com/DAMO-NLP-SG/SOULで公開されている。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation [41.66053021998106]
アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。
このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。
我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-13T11:48:09Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - TAPE: Assessing Few-shot Russian Language Understanding [1.9859374437454114]
TAPE(Text Attack and Perturbation Evaluation)は、ロシアの6つのより複雑なNLUタスクを含む新しいベンチマークである。
自己回帰ベースラインテストの詳細な解析は、単純な綴りに基づく摂動が最もパフォーマンスに影響することを示している。
我々はTAPEを公開して、監督がほとんど、あるいは全くできない場合に、新しいタスクに一般化できる堅牢なLMの研究を促進する。
論文 参考訳(メタデータ) (2022-10-23T18:28:25Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。