論文の概要: SOUL: Towards Sentiment and Opinion Understanding of Language
- arxiv url: http://arxiv.org/abs/2310.17924v1
- Date: Fri, 27 Oct 2023 06:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:48:14.820268
- Title: SOUL: Towards Sentiment and Opinion Understanding of Language
- Title(参考訳): SOUL: 言語に対する感性と意見の理解に向けて
- Authors: Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing
- Abstract要約: 我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
- 参考スコア(独自算出の注目度): 96.74878032417054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is a well-established natural language processing task,
with sentiment polarity classification being one of its most popular and
representative tasks. However, despite the success of pre-trained language
models in this area, they often fall short of capturing the broader
complexities of sentiment analysis. To address this issue, we propose a new
task called Sentiment and Opinion Understanding of Language (SOUL). SOUL aims
to evaluate sentiment understanding through two subtasks: Review Comprehension
(RC) and Justification Generation (JG). RC seeks to validate statements that
focus on subjective information based on a review text, while JG requires
models to provide explanations for their sentiment predictions. To enable
comprehensive evaluation, we annotate a new dataset comprising 15,028
statements from 3,638 reviews. Experimental results indicate that SOUL is a
challenging task for both small and large language models, with a performance
gap of up to 27% when compared to human performance. Furthermore, evaluations
conducted with both human experts and GPT-4 highlight the limitations of the
small language model in generating reasoning-based justifications. These
findings underscore the challenging nature of the SOUL task for existing
models, emphasizing the need for further advancements in sentiment analysis to
address its complexities. The new dataset and code are available at
https://github.com/DAMO-NLP-SG/SOUL.
- Abstract(参考訳): 感情分析は確立された自然言語処理タスクであり、感情極性分類は最も一般的かつ代表的なタスクの1つである。
しかしながら、この分野で事前学習された言語モデルの成功にもかかわらず、感情分析のより広い複雑さを捉えられないことが多い。
この問題に対処するため,我々はSOUL(Sentiment and Opinion Understanding of Language)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスク、Review Comprehension (RC) と Justification Generation (JG) を通じて感情理解を評価することを目的としている。
RCは、レビューテキストに基づく主観的な情報に焦点を当てたステートメントの検証を試みる一方、JGは感情予測に説明を与えるモデルを必要とする。
包括的評価を可能にするために,3,638レビューから15,028文からなる新しいデータセットをアノテートする。
実験結果から,SOULは中小言語モデルと大規模言語モデルの両方にとって難しい課題であり,人的性能と比較して最大27%の性能差があることがわかった。
さらに、人間の専門家とGPT-4による評価は、推論に基づく正当化を生成する際の小言語モデルの限界を強調している。
これらの結果は、既存のモデルにおけるSOULタスクの難易度を強調し、その複雑さに対応するための感情分析のさらなる進歩の必要性を強調している。
新しいデータセットとコードはhttps://github.com/DAMO-NLP-SG/SOULで公開されている。
関連論文リスト
- Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Split and Rephrase with Large Language Models [2.7309692684728617]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - TAPE: Assessing Few-shot Russian Language Understanding [1.9859374437454114]
TAPE(Text Attack and Perturbation Evaluation)は、ロシアの6つのより複雑なNLUタスクを含む新しいベンチマークである。
自己回帰ベースラインテストの詳細な解析は、単純な綴りに基づく摂動が最もパフォーマンスに影響することを示している。
我々はTAPEを公開して、監督がほとんど、あるいは全くできない場合に、新しいタスクに一般化できる堅牢なLMの研究を促進する。
論文 参考訳(メタデータ) (2022-10-23T18:28:25Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。