Fugu-MT 論文翻訳(概要): SOUL: Towards Sentiment and Opinion Understanding of Language

論文の概要: SOUL: Towards Sentiment and Opinion Understanding of Language

arxiv url: http://arxiv.org/abs/2310.17924v1
Date: Fri, 27 Oct 2023 06:48:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 14:48:14.820268
Title: SOUL: Towards Sentiment and Opinion Understanding of Language
Title（参考訳）: SOUL: 言語に対する感性と意見の理解に向けて
Authors: Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing
Abstract要約: 我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
参考スコア（独自算出の注目度）: 96.74878032417054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sentiment analysis is a well-established natural language processing task, with sentiment polarity classification being one of its most popular and representative tasks. However, despite the success of pre-trained language models in this area, they often fall short of capturing the broader complexities of sentiment analysis. To address this issue, we propose a new task called Sentiment and Opinion Understanding of Language (SOUL). SOUL aims to evaluate sentiment understanding through two subtasks: Review Comprehension (RC) and Justification Generation (JG). RC seeks to validate statements that focus on subjective information based on a review text, while JG requires models to provide explanations for their sentiment predictions. To enable comprehensive evaluation, we annotate a new dataset comprising 15,028 statements from 3,638 reviews. Experimental results indicate that SOUL is a challenging task for both small and large language models, with a performance gap of up to 27% when compared to human performance. Furthermore, evaluations conducted with both human experts and GPT-4 highlight the limitations of the small language model in generating reasoning-based justifications. These findings underscore the challenging nature of the SOUL task for existing models, emphasizing the need for further advancements in sentiment analysis to address its complexities. The new dataset and code are available at https://github.com/DAMO-NLP-SG/SOUL.
Abstract（参考訳）: 感情分析は確立された自然言語処理タスクであり、感情極性分類は最も一般的かつ代表的なタスクの1つである。しかしながら、この分野で事前学習された言語モデルの成功にもかかわらず、感情分析のより広い複雑さを捉えられないことが多い。この問題に対処するため,我々はSOUL(Sentiment and Opinion Understanding of Language)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスク、Review Comprehension (RC) と Justification Generation (JG) を通じて感情理解を評価することを目的としている。 RCは、レビューテキストに基づく主観的な情報に焦点を当てたステートメントの検証を試みる一方、JGは感情予測に説明を与えるモデルを必要とする。包括的評価を可能にするために,3,638レビューから15,028文からなる新しいデータセットをアノテートする。実験結果から,SOULは中小言語モデルと大規模言語モデルの両方にとって難しい課題であり,人的性能と比較して最大27%の性能差があることがわかった。さらに、人間の専門家とGPT-4による評価は、推論に基づく正当化を生成する際の小言語モデルの限界を強調している。これらの結果は、既存のモデルにおけるSOULタスクの難易度を強調し、その複雑さに対応するための感情分析のさらなる進歩の必要性を強調している。新しいデータセットとコードはhttps://github.com/DAMO-NLP-SG/SOULで公開されている。

関連論文リスト

Comparative Evaluation of ChatGPT and DeepSeek Across Key NLP Tasks: Strengths, Weaknesses, and Domain-Specific Performance [0.0]
本研究の目的は,5つの主要なNLPタスクにおけるChatGPTとDeepSeekを評価することである。これらのタスクには、感情分析、トピック分類、テキスト要約、機械翻訳、テキスト翻訳が含まれる。その結果、DeepSeekは分類安定性と論理的推論に優れており、ChatGPTは微妙な理解と柔軟性を必要とするタスクにおいてより優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2025-06-23T10:52:54Z)
A linguistically-motivated evaluation methodology for unraveling model's abilities in reading comprehension tasks [10.181408678232055]
モデルのサイズやアーキテクチャに関わらず,特定の例が常に低いスコアを得られるという直感に基づいて,理解タスクを読むための評価手法を提案する。この複雑さを特徴付けるためのセマンティックフレームアノテーションを活用し、モデルの難易度を考慮に入れうる7つの複雑さ要因について検討する。
論文参考訳（メタデータ） (2025-01-29T11:05:20Z)
Assessing Language Comprehension in Large Language Models Using Construction Grammar [3.0906699069248806]
構築文法(CxG)は、構築(Cxns)として知られる言語要素によって捉えられる意味に関する洞察を提供する。これらのデータセットは、事前学習データには現れないような例を含むように慎重に構築されているが、人間が理解するのは直感的で容易である。我々の実験は、LLMが8つのユニークなCxnsを通して伝達する意味についての理解を人間と対比することで、下流の自然言語推論と推論タスクに焦点を当てた。
論文参考訳（メタデータ） (2025-01-08T18:15:10Z)
The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1～5%程度であることが示唆された。理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文参考訳（メタデータ） (2024-11-08T21:22:37Z)
Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation [41.66053021998106]
アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
論文参考訳（メタデータ） (2024-10-13T11:48:09Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。 LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文参考訳（メタデータ） (2024-02-01T18:55:29Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
TAPE: Assessing Few-shot Russian Language Understanding [1.9859374437454114]
TAPE(Text Attack and Perturbation Evaluation)は、ロシアの6つのより複雑なNLUタスクを含む新しいベンチマークである。自己回帰ベースラインテストの詳細な解析は、単純な綴りに基づく摂動が最もパフォーマンスに影響することを示している。我々はTAPEを公開して、監督がほとんど、あるいは全くできない場合に、新しいタスクに一般化できる堅牢なLMの研究を促進する。
論文参考訳（メタデータ） (2022-10-23T18:28:25Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。