Fugu-MT 論文翻訳(概要): Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation

論文の概要: Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation

arxiv url: http://arxiv.org/abs/2410.09807v1
Date: Sun, 13 Oct 2024 11:48:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 04:42:49.087046
Title: Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation
Title（参考訳）: 単一地盤の真理は十分ではない:アスペクトベースの感性分析評価に言語学的変数を加える
Authors: Soyoung Yang, Hojun Cho, Jiyoung Lee, Sohee Yoon, Edward Choi, Jaegul Choo, Won Ik Cho,
Abstract要約: アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
参考スコア（独自算出の注目度）: 41.66053021998106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aspect-based sentiment analysis (ABSA) is the challenging task of extracting sentiment along with its corresponding aspects and opinions from human language. Due to the inherent variability of natural language, aspect and opinion terms can be expressed in various surface forms, making their accurate identification complex. Current evaluation methods for this task often restrict answers to a single ground truth, penalizing semantically equivalent predictions that differ in surface form. To address this limitation, we propose a novel, fully automated pipeline that augments existing test sets with alternative valid responses for aspect and opinion terms. This approach enables a fairer assessment of language models by accommodating linguistic diversity, resulting in higher human agreement than single-answer test sets (up to 10%p improvement in Kendall's Tau score). Our experimental results demonstrate that Large Language Models (LLMs) show substantial performance improvements over T5 models when evaluated using our augmented test set, suggesting that LLMs' capabilities in ABSA tasks may have been underestimated. This work contributes to a more comprehensive evaluation framework for ABSA, potentially leading to more accurate assessments of model performance in information extraction tasks, particularly those involving span extraction.
Abstract（参考訳）: アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。自然言語の固有の可変性のため、アスペクト項と意見項は様々な曲面形式で表され、正確な識別が複雑になる。このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。この制限に対処するために、アスペクトと意見の用語に対する代替の有効な応答で既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。このアプローチは、言語多様性を調節することで言語モデルの公平な評価を可能にし、結果として、シングル・アンサー・テストセットよりも高い人間との合意をもたらす(KendallのTauスコアは最大10%改善されている)。実験の結果,大規模言語モデル(LLM)は拡張テストセットを用いて評価した場合,T5モデルよりも大幅に性能が向上し,ABSAタスクにおけるLLMの能力が過小評価された可能性が示唆された。この研究はABSAのより包括的な評価フレームワークに寄与し、情報抽出タスク、特にスパン抽出に関わるタスクにおけるモデル性能のより正確な評価につながる可能性がある。

関連論文リスト

NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。 WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文参考訳（メタデータ） (2024-11-02T15:22:26Z)
ROAST: Review-level Opinion Aspect Sentiment Target Joint Detection for ABSA [50.90538760832107]
本研究は新たな課題であるROAST(Review-Level Opinion Aspect Sentiment Target)を提示する。 ROASTは、文章レベルのABSAとテキストレベルのABSAのギャップを埋めようとしている。利用可能なデータセットを拡張してROASTを有効にし、以前の研究で指摘された欠点に対処します。
論文参考訳（メタデータ） (2024-05-30T17:29:15Z)
Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation [12.921225188504643]
本稿では,ペア応答の品質に対するロバストな不確実性推定を導入した不確実性認識リワードモデル(URM)を提案する。実験結果から,提案したプロキシを言語モデルトレーニングに組み込むことによる大きなメリットが示された。
論文参考訳（メタデータ） (2024-05-10T12:14:11Z)
A Hybrid Approach To Aspect Based Sentiment Analysis Using Transfer Learning [3.30307212568497]
本稿では,移動学習を用いたアスペクトベース感性分析のためのハイブリッド手法を提案する。このアプローチは、大きな言語モデル(LLM)と従来の構文的依存関係の両方の長所を利用して、弱い教師付きアノテーションを生成することに焦点を当てている。
論文参考訳（メタデータ） (2024-03-25T23:02:33Z)
Exploiting Adaptive Contextual Masking for Aspect-Based Sentiment Analysis [0.6827423171182154]
アスペクトベース知覚分析(Aspect-Based Sentiment Analysis、ABSA)は、与えられたテキストから多面的側面、意見、感情を抽出する問題である。本稿では,ABSAのアスペクト・ターム抽出・アスペクト・センティメント・サブタスクを支援するために,コンテキストに基づく無関係なトークンを除去する適応マスキング手法を提案する。
論文参考訳（メタデータ） (2024-02-21T11:33:09Z)
SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文参考訳（メタデータ） (2023-10-27T06:48:48Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
MultiPA: A Multi-task Speech Pronunciation Assessment Model for Open Response Scenarios [26.852744399985475]
発音アセスメントモデルにより、ユーザーは実生活のコミュニケーションと同様の方法で言語スキルを実践することができる。オープン応答に対する文レベルの精度, 流布度, 韻律, 単語レベルの精度評価を提供するマルチタスク発音評価モデルであるMultiPAを提案する。
論文参考訳（メタデータ） (2023-08-24T01:24:09Z)
Incorporating Dynamic Semantics into Pre-Trained Language Model for Aspect-based Sentiment Analysis [67.41078214475341]
ABSAの動的アスペクト指向セマンティクスを学ぶために,DR-BERT(Dynamic Re-weighting BERT)を提案する。具体的には、まずStack-BERT層を主エンコーダとして、文の全体的な意味を理解する。次に、軽量な動的再重み付けアダプタ(DRA)を導入して微調整する。
論文参考訳（メタデータ） (2022-03-30T14:48:46Z)
BERT-ASC: Auxiliary-Sentence Construction for Implicit Aspect Learning in Sentiment Analysis [4.522719296659495]
本稿ではアスペクト分類とアスペクトベース感情サブタスクに対処する統合フレームワークを提案する。コーパスのセマンティック情報を用いて暗黙的側面のための補助文を構築する機構を導入する。次に、BERTはアスペクト自体ではなく、この補助文に応答してアスペクト固有の表現を学ぶことを推奨する。
論文参考訳（メタデータ） (2022-03-22T13:12:27Z)
SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文参考訳（メタデータ） (2021-08-18T08:04:38Z)
TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。 TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文参考訳（メタデータ） (2021-03-21T17:20:38Z)
Improving BERT Performance for Aspect-Based Sentiment Analysis [3.5493798890908104]
Aspect-Based Sentiment Analysis (ABSA)は、市場製品に関する消費者の意見を調査する。製品レビューで表現された感情のタイプだけでなく、感情のタイプも調査する。本稿では,提案モデルを適用することで,BERTモデルのさらなるトレーニングの必要性がなくなることを示す。
論文参考訳（メタデータ） (2020-10-22T13:52:18Z)
A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。 DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文参考訳（メタデータ） (2020-04-20T13:26:45Z)
A Dependency Syntactic Knowledge Augmented Interactive Architecture for End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。 3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2020-04-04T14:59:32Z)
Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction [63.70885228396077]
資源豊富なレビュー評価分類データセットから低リソースタスクTOWEへ意見知識を伝達する新しいモデルを提案する。我々のモデルは、他の最先端手法よりも優れた性能を達成し、意見の知識を伝達することなく、ベースモデルを大幅に上回る。
論文参考訳（メタデータ） (2020-01-07T11:50:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。