論文の概要、ライセンス

# (参考訳) 微妙な感情アノテーションを最大限に活用すること。 [全文訳有]

If you've got it, flaunt it: Making the most of fine-grained sentiment annotations ( http://arxiv.org/abs/2102.00299v1 )

ライセンス: CC BY 4.0
Jeremy Barnes, Lilja {\O}vrelid, Erik Velldal(参考訳) きめ細かい感情分析は感情保持者、目標、極性表現を抽出し、それらの関係を解決しようとするが、アノテーションの難しさによって進歩は妨げられている。 一方, 対象感情分析は, 対象感情の抽出と極性分類に焦点をあてたより狭い作業であり, 本論文では, ホルダーと表現情報を組み込むことで, 対象感情の抽出と分類を改善し, 8つの英語データセットの実験を行うかを検討する。 我々は,目標と極性ラベルの同時予測により対象抽出が向上し,入力テキストに金の表現を付加することで対象の極性分類が向上することが結論付けられた。 これは、きめ細かい感情データセットに式をアノテートすることの重要性を強調している。 同時に, 極性表現予測のための現在のモデルの性能は低く, 実際の情報化のメリットを損なうことを示した。

Fine-grained sentiment analysis attempts to extract sentiment holders, targets and polar expressions and resolve the relationship between them, but progress has been hampered by the difficulty of annotation. Targeted sentiment analysis, on the other hand, is a more narrow task, focusing on extracting sentiment targets and classifying their polarity.In this paper, we explore whether incorporating holder and expression information can improve target extraction and classification and perform experiments on eight English datasets. We conclude that jointly predicting target and polarity BIO labels improves target extraction, and that augmenting the input text with gold expressions generally improves targeted polarity classification. This highlights the potential importance of annotating expressions for fine-grained sentiment datasets. At the same time, our results show that performance of current models for predicting polar expressions is poor, hampering the benefit of this information in practice.
公開日: Sat, 30 Jan 2021 19:47:58 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Making the most of fine-grained sentiment annotations きめ細かい感情のアノテーションを最大限に活用する 0.52
If you’ve got it, flaunt it: もしあなたがそれを持っているなら、それを誇張する。 0.44
Jeremy Barnes, Lilja Øvrelid, and Erik Velldal jeremy barnes, lilja øvrelid, erik velldal 0.55
University of Oslo {jeremycb,liljao,erik ve}@ifi.uio.no オスロ大学 jeremycb,liljao,erik ve}@ifi.uio.no 0.69
Department of Informatics 1 2 0 2 情報学科 1 2 0 2 0.74
n a J 0 3 ] L C . n a J 0 3 ] L C。 0.81
s c [ 1 v 9 9 2 0 0 sc [ 1 v 9 9 2 0 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract Fine-grained sentiment analysis attempts to extract sentiment holders, targets and polar expressions and resolve the relationship between them, but progress has been hampered by the difficulty of annotation. 概要 きめ細かい感情分析は感情保持者、目標、極性表現を抽出し、それらの関係を解決しようとするが、アノテーションの難しさによって進歩は妨げられている。 0.52
Targeted sentiment analysis, on the other hand, is a more narrow task, focusing on extracting sentiment targets and classifying their polarity. 一方、ターゲット感情分析は、感情のターゲットを抽出し、極性を分類することに焦点を当て、より狭いタスクである。 0.69
In this paper, we explore whether incorporating holder and expression information can improve target extraction and classification and perform experiments on eight English datasets. 本稿では,ホールダーと表現情報を組み込むことで,対象抽出と分類を改善し,8つの英語データセットの実験を行うことができるかどうかを検討する。
訳抜け防止モード: この論文では ホルダと表現情報を組み込むことで、ターゲット抽出と分類を改善し、8つの英語データセットで実験を行うことができる。
0.75
We conclude that jointly predicting target and polarity BIO labels improves target extraction, and that augmenting the input text with gold expressions generally improves targeted polarity classification. 我々は,目標と極性ラベルの同時予測により対象抽出が向上し,入力テキストに金の表現を付加することで対象の極性分類が向上することが結論付けられた。 0.60
This highlights the potential importance of annotating expressions for fine-grained sentiment datasets. これは、きめ細かい感情データセットに式をアノテートすることの重要性を強調している。 0.47
At the same time, our results show that performance of current models for predicting polar expressions is poor, hampering the benefit of this information in practice. 同時に, 極性表現予測のための現在のモデルの性能は低く, 実際の情報化のメリットを損なうことを示した。 0.64
Introduction 1 Sentiment analysis comes in many flavors, arguably the most complete of which is what is often called fine-grained sentiment analysis (Wiebe et al., 2005; Liu, 2015). はじめに 1 感性分析には多くのフレーバーがあり、最も完成度が高いのは、しばしばきめ細かい感情分析と呼ばれるもの(Wiebe et al., 2005; Liu, 2015)である。 0.69
This approach models the sentiment task as minimally extracting all opinion holders, targets, and expressions in a text and resolving the relationships between them. このアプローチは、感情タスクをテキスト中のすべての意見ホルダ、ターゲット、表現を最小に抽出し、それらの関係を解決するためにモデル化する。 0.57
This complex task is further complicated by interactions between these elements, strong domain effects, and the subjective nature of sentiment. この複雑なタスクは、これらの要素間の相互作用、強いドメイン効果、感情の主観的な性質によってさらに複雑になる。 0.69
Take the annotated sentence in Figure 1 as an example. 図1の注釈付き文を例に挙げる。 0.68
Knowing that the target “UMUC” is modified by the expression “5 stars” and not “don’t believe” is important to correctly classifying the polarity. 目的の”UMUC”が“5つ星”で修正され、“信じない”という表現は、極性を正しく分類する上で重要である。 0.77
Additionally, the fact that this is a belief held by “some others” また、これが「他の者」の信仰であるという事実 0.75
as apposed to the author of the sentence can help us determine the overall polarity expressed in the sentence. 文の著者が提案したように 文で表される全体極性を決定するのに役立ちます 0.59
Compared to document- or sentence-level sentiment analysis, where distant labelling schemes can be used to obtain annotated data, fine-grained annotation of sentiment does not occur naturally, which means that current machine learning models are often hampered by the small size of datasets. 注釈付きデータを取得するために遠くのラベル付けスキームが使用できる文書または文レベルの感情分析と比較して、感情の細かい粒度のアノテーションは自然に発生せず、現在の機械学習モデルはデータセットの小さなサイズによって妨げられることが多い。 0.72
Furthermore, fine-grained annotation is demanding, leads to relatively small datasets, and has low inter-annotator agreement (Wiebe et al., 2005; Wang et al., 2017). さらに、粒度の細かいアノテーションが要求され、比較的小さなデータセットをもたらし、アノテーション間の合意が低い(Wiebe et al., 2005; Wang et al., 2017)。 0.72
This begs the question: is it worth it to annotate full fine-grained sentiment? 完全な微粒な感情をアノテートする価値があるだろうか? 0.47
Targeted sentiment (Mitchell et al., 2013; Zhang et al., 2015) is a reduction of the fine-grained sentiment task which concentrates on extracting sentiment targets and classifying their polarity, effectively ignoring sentiment holders and expressions. target sentiment (mitchell et al., 2013; zhang et al., 2015) は、感情目標の抽出と極性分類に集中し、感情保持者と表情を効果的に無視する、きめ細かい感情タスクの削減である。 0.74
The benefit of this setup is that it is faster to annotate and simpler to model. このセットアップの利点は、アノテーションが速く、モデル化が簡単であることです。 0.71
But would targeted sentiment models benefit from knowing the sentiment holders and expressions? しかし、ターゲットの感情モデルは、感情の保持者や表現を知ることの恩恵を受けるだろうか? 0.52
In this work, we attempt to determine whether holder and expression information is useful for extracting and then classifying sentiment targets. 本研究では,感情目標の抽出と分類にホルダ情報と表現情報が有用かどうかを判定する。 0.67
Specifically, we ask the following research questions: 具体的には、以下の研究質問を行います。 0.66
RQ1: Given the time and difficulty required to annotate opinion holders, expressions, and polarity, is this information useful to extract sentiment targets? RQ1: 意見保持者、表現者、極性を注釈づけするために必要な時間と困難さを考えると、この情報は感情的目標を抽出するのに有用か? 0.62
(a) Does augmenting the input text with holders and expressions improve target extraction? (a) 入力テキストをホルダーと式で拡張し、ターゲット抽出を改善するか? 0.76
(b) Do target extraction models benefit from (b) 対象抽出モデルのメリットは? 0.63
predicting holders and expressions? ホルダーと表現の予測? 0.69
英語(論文から抽出)日本語訳スコア
holder target ホルダー ターゲット 0.70
target Have seen ターゲット 有 見た 0.62
some others giving UMUC 他にも 与える UMUC 0.70
{ 5 stars } stars (複数形 stars) 0.41
- { don’t believe } - { don't believe } 0.84
them. Figure 1: An opinion annotation from the Darmstadt Review Corpus. 彼らだ 図1:Darmstadt Review Corpusからの意見注釈。 0.69
(c) Do target extraction models benefit from predicting the polarity of targets and/or expressions? c) 対象抽出モデルは,対象と表現の極性の予測に有用か? 0.71
RQ2: Can holder and expression information improve polarity classification on extracted targets? RQ2:保持者と表現情報は抽出対象の極性分類を改善することができるか? 0.66
(a) Does augmenting the input text with holders and expressions improve polarity classification? (a)入力テキストをホルダーで拡張し、表現が極性分類を改善するか? 0.80
(b) Do potential benefits of augmenting the input depend on how we model the target, i.e., using the [CLS] embeddings, mean pooling the target embeddings, etc. (b) 入力を増強する潜在的なメリットは、ターゲットのモデル化方法、すなわち[CLS]埋め込みの使用、ターゲットの埋め込みをプールすることなどに依存します。 0.74
? (c) Can sentiment lexicons provide enough information on expressions to give improvements? ? (c)感情レキシコンは、改善をもたらすのに十分な表現情報を提供できるか? 0.78
We conduct a series of experiments on eight English sentiment datasets (three with full finegrained sentiment and five targeted) with state-ofthe-art models based on fine-tuned BERT models. 微調整BERTモデルに基づく最先端のモデルを用いて、8つの英語の感情データセット(3つのきめ細かい感情と5つのターゲット)に関する一連の実験を行います。 0.61
We show that (1) it is possible to improve target extraction by also trying to predict the polarity, and that (2) classification models benefit from having access to information about sentiment expressions. 本研究では,(1)極性予測による目標抽出の改善が可能であること,(2)感情表現情報へのアクセスによる分類モデルの有用性を示す。 0.71
We also (3) release the code1 to reproduce the experiments, as well as the scripts to download, preprocess, and collect the datasets into a compatible JSON format, with the hope that this allows future research on the same data. また、3つの実験を再現するためのコード1と、データセットのダウンロード、前処理、および収集のためのスクリプトを互換性のあるJSONフォーマットにリリースし、将来の同じデータの研究を可能にすることを期待しています。 0.79
2 Related work Fine-grained approaches to sentiment analysis attempt to discover opinions from text, where each opinion is a tuple of (opinion holder, opinion target, opinion expression, polarity, intensity). 2関連作業 感情分析へのきめ細かいアプローチは、各意見が(意見保持者、意見目標、意見表現、極性、強さ)タプルであるテキストから意見を見つけようとするものである。
訳抜け防止モード: 2 関連作業ファインメント-感情分析へのきめ細かいアプローチ : テキストから意見を見つけようとする試み それぞれの意見が(意見保有者、意見目標)の綱領である場合 opinion expression , polarity , intensity )
0.85
Annotation of datasets for this granularity requires creating in-depth annotation guidelines, training この粒度のデータセットのアノテーションには、詳細なアノテーションガイドラインの作成とトレーニングが必要です。 0.52
1https://github.com/ ltgoslo/ 1https://github.com/ ltgoslo/ 0.39
finegrained_modellin g finegrained_modellin g 0.59
annotators, and generally leads to lower interannotator scores than other sentiment tasks, e.g., document- or sentence-level classification, as deciding on the spans for multiple elements and their relationships is undeniably harder than choosing a single label for a full text. アノテータは、文書や文レベルの分類のような他の感情タスクよりも、複数の要素とそれらの関係のスパンを決定することは、完全なテキストに対して単一のラベルを選択することよりも、否定できないほど難しい。 0.64
Targeted sentiment, on the other hand, generally concentrates only on target extraction and polarity classification. 一方、ターゲット感情は、一般的にターゲット抽出と極性分類のみに集中します。 0.68
This has the benefit of allowing non-experts and crowdsourcing to perform annotation, making it easier to collect larger datasets for machine learning. これにより、非専門家やクラウドソーシングによるアノテーションの実行が可能になり、機械学習のためのより大きなデータセットの収集が容易になる。 0.60
This simplified annotation can be crowd-sourced, leading to larger datasets for machine learning. この簡略化アノテーションは、機械学習のためのより大きなデータセットにつながる、クラウドソース化することができる。 0.52
2.1 Datasets The Multi-purpose Question Answering dataset (MPQA) (Wiebe et al., 2005) is the first dataset that annotated opinion holders, targets, expressions and their relationships. 2.1 Datasets 多目的質問回答データセット (MPQA) (Wiebe et al., 2005) は、意見保持者、ターゲット、表現、およびそれらの関係をアノテートした最初のデータセットである。 0.73
The news wire data leads to complex opinions and a generally difficult task for sentiment models. ニュースワイヤーのデータは複雑な意見をもたらし、感情モデルにとって一般的に難しい課題となる。 0.67
Normally, the full opinion extraction task is modelled as extraction of the individual elements (holders, targets, and expressions) and the subsequent resolution of the relationship between them. 通常、完全な意見抽出タスクは、個々の要素(所有者、ターゲット、および表現)の抽出とそれらの間の関係のその後の解決としてモデル化されます。 0.62
The Darmstadt Review Corpora (Toprak et al., 2010) contain annotated opinions for consumer reviews of universities and services. Darmstadt Review Corpora (Toprak et al., 2010)には、大学やサービスの消費者レビューのための注釈付き意見が含まれています。 0.68
The authors annotate holders, targets, expressions, polarity, modifiers, and intensity. 著者はホルダー、ターゲット、表現、極性、修飾子、強度を注釈します。 0.59
They achieve between 0.5 and 0.8 agreement using the agr method (Wiebe et al., 2005), with higher disagreement on what they call “polar targets” – targets that have a polarity but no annotated sentiment expression – holders, and expressions. 彼らは agr 法 (Wiebe et al., 2005) を用いて 0.5 から 0.8 の合意を達成し、極性を持つが注釈付き感情表現を持たないターゲットである「極性目標」と呼ばれるものに対するより高い意見の相違 – 保持者、表現。 0.72
The Open Domain Targeted dataset (Mitchell et al., 2013) makes use of crowd sourcing to annotate NEs from scraped tweets in English and Spanish (Etter et al., 2013) with their polarities. Open Domain Targeted データセット (Mitchell et al., 2013) は、英語とスペイン語のつぶやき(Etter et al., 2013)を極性で注釈付けするためにクラウドソーシングを利用している。 0.80
The authors use majority voting to assign the final labels for the NEs, discarding tweets without sentiment consensus on all NEs. 著者らは過半数の投票でNEに最終ラベルを割り当て、すべてのNEに対して感情的な合意なしにツイートを破棄する。 0.56
英語(論文から抽出)日本語訳スコア
The 2014 SemEval shared task (Pontiki et al., 2014) on aspect-based sentiment analysis include labeled data from restaurant and laptop reviews for two subtasks: 1) target extraction, which they call “aspect term extraction” and 2) classification of polarity with respect to targets (“aspect term polarity”). 2014 semeval shared task (pontiki et al., 2014) では、アスペクトベースの感情分析について、2つのサブタスクに対するレストランやラップトップレビューのラベル付きデータが含まれている: 1) ターゲット抽出、2) ターゲットに対する極性の分類("aspect term polarity")。
訳抜け防止モード: 2014 SemEval shared task ( Pontiki et al ., 2014 ) on aspects - based sentiment analysis include labeled data from restaurant and laptop review for two subtasks : 1 ) target extract, 彼らは "アスペクト項抽出" と 2 ) を目標 (アスペクト項極性) に関する極性の分類 (アスペクト項極性) と呼ぶ。
0.84
As most targeted datasets only contain a single target, or multiple targets with the same polarity, sentence-level classifiers are strong baselines. ほとんどのターゲットデータセットは単一のターゲットまたは同じ極性を持つ複数のターゲットしか含まないため、文レベルの分類器は強いベースラインである。 0.72
In order to mitigate this, Jiang et al. これを軽減するために、江ら。 0.58
(2019) create a Challenge dataset which has both multiple targets and multiple polarities in each sentence. (2019)は、各文に複数の目標と複数の極性を持つチャレンジデータセットを作成する。 0.79
Similarly, Wang et al. 同様に、Wang et al。 0.69
(2017) also point out that most targeted sentiment methods perform poorly with multiple targets and propose TDParse, a corpus of UK election tweets with multiple targets per tweet. また(2017年)、ほとんどのターゲットの感情的手法は複数のターゲットでうまく機能せず、TDParseは1ツイート当たりの複数のターゲットを持つ英国の選挙ツイートのコーパスであると指摘した。 0.61
2.2 Modelling Katiyar and Cardie (2016) explore jointly extracting holders, targets, and expressions with LSTMs. 2.2 Modelling Katiyar and Cardie (2016)は、LSTMでホルダー、ターゲット、表現を共同で抽出する。 0.66
They find that adding sentence-level and relationlevel dependencies (IS-FROM or IS-ABOUT) improve extraction, but find that the LSTM models lag behind CRFs with rich features. 文レベルの依存性と関係レベルの依存関係(IS-FROMまたはIS-ABOUT)の追加は抽出を改善するが、LSTMモデルが豊富な機能を持つCRFの背後に遅れていることに気付く。 0.57
Regarding modelling the interaction between elements, there are several previous attempts to jointly learn to extract and classify targets, using factor graphs (Klinger and Cimiano, 2013), multitask learning (He et al., 2019) or sequence tagging with collapsed tagsets representing both tasks (Li et al., 2019). 要素間の相互作用のモデル化については、因子グラフ(Klinger と Cimiano, 2013)、マルチタスク学習(He et al., 2019)、および両方のタスクを表す崩壊タグセットによるシーケンスタグ付け(Li et al., 2019)を用いて、目標の抽出と分類を共同で学習する試みがある。 0.84
In general, the benefits are small and have suggested that there is only a weak relationship between target extraction and polarity classification (Hu et al., 2019). 一般に、利益は小さく、ターゲット抽出と極性分類の間には弱い関係しか存在しないことが示唆されている(Hu et al., 2019)。 0.77
3 Data One of the difficulties of working with finegrained sentiment analysis is that there are only a few datasets (even in English) and they come in incompatible, competing data formats, e.g., BRAT or various flavors of XML. 3 データ細かい感情分析を扱うことの難しさの1つは、わずかなデータセット(英語でも)しかなく、BRATやXMLのさまざまなフレーバーなど、互換性のない競合するデータフォーマットで提供されることです。 0.77
With the goal of creating a simple unified format to work on fine-grained sentiment tasks, we take the eight datasets mentioned in Section 2 – MPQA (Wiebe et al., 2005), Darmstadt Services and Universities (Toprak et al., 2010), TDParse (Wang et al., 2017), SemEval Restaurant and Laptop (Pontiki et al., 2014), Open Domain Targeted Sentiment (Mitchell et al., 2013), and the Challenge dataset from Jiang et al. 第2節(Wiebe et al., 2005), Darmstadt Services and Universities (Toprak et al., 2010), TDParse (Wang et al., 2017), SemEval Restaurant and Laptop (Pontiki et al., 2014), Open Domain Targeted Sentiment (Mitchell et al., 2013), and the Challenge dataset from Jiang et al.)で言及された8つのデータセットを,よりきめ細かな感情タスクを扱うためのシンプルな統一フォーマットを作成することを目的としている。 0.83
(2019) – and convert them to (2019) – それらを変換する。 0.81
a standard JSON format. 標準の JSON フォーマットです。 0.88
The datasets are sentence and word tokenized using NLTK (Loper and Bird, 2002), except for MPQA, DS. データセットは、MPQA, DSを除いて、NLTK(Loper and Bird, 2002)を用いて文と単語をトークン化する。 0.72
Service and DS. サービスおよびDS。 0.72
Uni, which already contain sentence and token spans. Uniは、文とトークンのスパンをすでに含んでいる。 0.57
All polarity annotations are mapped to positive, negative, neutral, and conflict2. すべての極性アノテーションは、正、負、中性、矛盾2にマッピングされる。 0.65
As such, each sentence contains a sentence id, the tokenized text, and a possibly empty set of opinions which contain a holder, target, expression, polarity, and intensity. そのため、各文は文ID、トークン化されたテキスト、およびホルダー、ターゲット、表現、極性、強度を含む可能性のある空の意見のセットを含む。 0.66
We allow for empty holders and expressions in order generalize to the targeted corpora. 対象コーパスに一般化するために、空のホルダと式を許可する。 0.49
Finally, we use 10 percent of the training data as development and another 10 percent for test for the corpora that do not contain a suggested train/dev/test split. 最後に、トレーニングデータの10%を開発に、さらに10%を推奨されるトレイン/デベロップメント/テスト分割を含まないコーパスのテストに使用します。 0.75
For training and testing models, however, we convert the datasets to CoNLL format. しかし、トレーニングおよびテストモデルでは、データセットをCoNLL形式に変換します。 0.78
Table 1 presents an overview of the different datasets and highlights important differences between them. 表1は、異なるデータセットの概要を示し、それらの重要な違いを強調します。 0.67
The fully fine-grained sentiment datasets (MPQA, DS. 完全に細かい感情データセット(MPQA、DS。 0.68
Services, and DS. サービス、およびDS。 0.72
Uni) tend to be larger but have fewer targets annotated, due to a larger number of sentences with no targets. Uni) は大きいが、ターゲットのない文の数が多いため、アノテートされたターゲットが少なくなる傾向にある。 0.72
However, the MPQA dataset contains much longer targets than the other datasets – an average of 6, but a maximum of 56 tokens. しかし、MPQAデータセットは他のデータセットよりもはるかに長いターゲットが含まれています。平均6、最大56トークンです。 0.74
It also contains more opinion holders and expressions and these also tend to be longer, all of which marks MPQA as an outlier among the datasets. また、より多くの意見保持者や表現が含まれており、これらは長くなる傾向があり、MPQAがデータセットの外れ値であることを示している。 0.53
The distribution of polarity is also highly dependent on the dataset, with DS. 極性の分布は、DSによるデータセットにも大きく依存している。 0.79
Services being the most skewed and SemEval Laptop the least skewed. サービスが最もスキューされ、SemEval Laptopが最もスキューされていない。 0.52
Finally, the challenge dataset is by far the largest with over 11,000 training targets. 最後に、チャレンジデータセットは11,000以上のトレーニングターゲットを持つ最大です。 0.73
Additionally, Table 6 in Appendix A shows the percentage of unique targets per dataset, as well as the percentage of targets shared between the training set and the dev and test sets. さらに、appendix aのテーブル6は、データセット毎のユニークなターゲットの割合と、トレーニングセットと開発者とテストセット間で共有されるターゲットの割合を示している。 0.78
Again MPQA has the largest number of unique targets and the least overlap.3 再び、MPQAは最大のユニークなターゲットを持ち、最も重複が少ない。 0.64
4 Experimental Setup We split the task of targeted sentiment analysis into the extraction of sentiment targets and subsequent polarity classification of extracted targets, given their context. 4 実験的セットアップ 対象の感情分析のタスクを、そのコンテキストに応じて、感情ターゲットの抽出と抽出対象のその後の極性分類に分割する。 0.71
Figure 2 shows the two tasks and the eight models used in the experiments. 図2は、実験で使用される2つのタスクと8つのモデルを示しています。 0.65
As a base model, we take the tar- ベースモデルとして、私たちはタールを取ります- 0.64
2We discard conflict during evaluation because there are not enough examples to properly learn this class in most datasets 2我々は、ほとんどのデータセットでこのクラスを適切に学習する十分な例がないため、評価中の衝突を破棄します。
訳抜け防止モード: 2【評価中の対立を破棄する】 ほとんどのデータセットでこのクラスを適切に学習する十分な例がない
0.66
3We do not, however, consider partial overlap which may 3ただし、部分的な重複は考慮しません。 0.72
exaggerate the true uniqueness of targets. ターゲットの真のユニークさを誇張する。 0.64
英語(論文から抽出)日本語訳スコア
domain newswire 藩 Newswire 0.56
t MPQA n e m t MPQA n e m 0.85
i t n e S d e n i a r ge n i i t n e s d e n i a r ge n i 0.84
F t n e m i t n e S d e t e g r a T F t n e m i t n e S d e t e g r a T 0.85
DS. Services service reviews DS。 サービス サービスレビュー 0.79
DS. Uni TDParse DS。 ユニ TDParse 0.75
SemEval R. SemEval R。 0.78
SemEval L. SemEval L。 0.80
university reviews political tweets 大学レビュー 政治ツイート 0.71
restaurant reviews laptop reviews レストランレビュー ノートpcレビュー 0.65
Open tweets Challenge 開館 ツイート 挑戦 0.69
restaurant reviews sentences avg. レストランレビュー 文はavg。 0.71
25 23 24 16 18 17 20 9 20 6.9 6.6 6.9 13 11.3 9.6 22.5 21.1 18.6 12.8 12.3 11.6 8.8 8.9 8.9 25 23 24 16 18 17 20 9 20 6.9 6.6 6.9 13 11.3 9.6 22.5 21.1 18.6 12.8 12.3 11.6 8.8 8.9 8.9 0.55
# 4500 1622 1681 5913 744 748 2253 232 318 2889 321 867 2740 304 800 2744 304 800 1903 211 234 4297 500 500 # 4500 1622 1681 5913 744 748 2253 232 318 2889 321 867 2740 304 800 2744 304 800 1903 211 234 4297 500 500 0.85
holders targets ホルダー ターゲット 0.66
avg. max 27 2.6 16 2.6 32 2.8 1.2 2 3 1.7 1 1 2 1.2 3 1.1 1.3 4- avgだ max 27 2.6 16 2.6 32 2.8 1.2 2 3 1.7 1 1 2 1.2 3 1.1 1.3 4- 0.71
# 1382 449 405 2504 288 328 1252 151 198 9088 1040 2746 3293 350 1128 2049 244 633 2594 291 337 11186 1332 1336 # 1382 449 405 2504 288 328 1252 151 198 9088 1040 2746 3293 350 1128 2049 244 633 2594 291 337 11186 1332 1336 0.85
avg. max 56 6.1 41 5.3 42 6.4 1.2 7 4 1.2 5 1.2 5 1.2 3 1.2 1.2 6 7 1.2 5 1.2 6 1.2 19 1.4 1.4 5 8 1.4 6 1.5 5 1.6 1.6 7 8 1.6 6 1.6 7 1.6 9 1.3 1.3 8 8 1.3 avgだ max 56 6.1 41 5.3 42 6.4 1.2 7 4 1.2 5 1.2 5 1.2 3 1.2 1.2 6 7 1.2 5 1.2 6 1.2 19 1.4 1.4 5 8 1.4 6 1.5 5 1.6 1.6 7 8 1.6 6 1.6 7 1.6 9 1.3 1.3 8 8 1.3 0.69
# 1306 377 371 18 1 2 65 17 12- # 1306 377 371 18 1 2 65 17 12- 0.93
expressions # 1656 552 479 1273 144 168 837 106 139- expressions # 1656 552 479 1273 144 168 837 106 139- 0.92
avg. max 14 2.4 8 2.1 8 2.0 1.2 10 5 1.4 6 1.4 9 1.9 6 1.7 2.0 5- avgだ max 14 2.4 8 2.1 8 2.0 1.2 10 5 1.4 6 1.4 9 1.9 6 1.7 2.0 5- 0.70
polarity neu 271 105 89 46 1 7 149 19 18 3931 454 1162 574 54 195 402 44 162 1801 220 232 5042 604 607 polarity neu 271 105 89 46 1 7 149 19 18 3931 454 1162 574 54 195 402 44 162 1801 220 232 5042 604 607 0.85
− 658 202 199 838 104 80 610 92 103 3919 458 1206 734 63 195 747 96 128 215 25 31 2764 325 329 − 658 202 199 838 104 80 610 92 103 3919 458 1206 734 63 195 747 96 128 215 25 31 2764 325 329 0.85
+ 675 241 166 1623 103 241 495 40 77 1238 128 378 1902 226 724 870 99 327 578 46 74 3380 403 400 + 675 241 166 1623 103 241 495 40 77 1238 128 378 1902 226 724 870 99 327 578 46 74 3380 403 400 0.85
train dev test train dev test train dev test train dev test train dev test train dev test train dev test train dev test 列車テスト トレイン開発テスト トレイン開発テスト トレイン開発テスト トレイン開発テスト トレイン開発テスト トレイン開発テスト トレイン開発テスト トレイン開発テスト。 0.55
Table 1: Stastistics of the datasets, including number of sentences, as well as average, and max lengths (in tokens) for holder, target, and expression annotations. 表1: ホルダー、ターゲット、および式アノテーションの文数、平均、最大長(トークン内)を含むデータセットの統計。 0.54
Additionally, we include the distribution of polarity – restricted to positive, neutral, and negative – in each dataset. さらに、各データセットに極性 – 正、中立、負に制限された – の分布も含んでいます。 0.71
get extraction and classification models from Xu et al. Xu et alから抽出と分類モデルを取得します。 0.78
(2019), which achieve state-of-the-art performance on the SemEval task. (2019) 半減期タスクで最先端のパフォーマンスを実現する。 0.59
The approach first fine-tunes BERT (Devlin et al., 2019) on domainspecific unlabeled data as a domain-adaptation step. このアプローチはドメイン固有のラベルなしデータに対してbert(devlin et al., 2019)をドメイン適応ステップとして微調整する。 0.55
We use the datasets themselves to perform this step, except for the SemEval datasets. SemEvalデータセット以外は、データセット自身でこのステップを実行しています。 0.72
For these, we follow Rietzler et al. これらについては、rietzlerらをフォローする。 0.44
(2020) and instead use larger amounts of unlabeled data – 1,710,553 and 2,000,000 sentences for SemEval Laptop and Restaurant respectively – taken from Amazon Laptop reviews (He and McAuley, 2016) and the Yelp Dataset Challenge.4 We further deviate from Xu et al. (2020年)そして代わりに、semevalラップトップとレストランにそれぞれ1,710,553文と2,000,000文という、大量のラベルのないデータをamazon laptop reviews (he and mcauley, 2016年)とyelp dataset challenge.4から取得した。 0.70
(2019) by not pretraining the models on the SQUAD question answering dataset and in-domain sentiment questions which they create, as this data is not publicly available. (2019) このデータは公開されていないため、SQUAD質問応答データセットや、彼らが作成したドメイン内感情質問のモデルを事前訓練しない。 0.73
Finally, a linear prediction is added after the BERT model and the full model is updated on the sentiment task. 最後に、BERTモデルの後、線形予測が追加され、フルモデルが感情タスクで更新されます。 0.59
For target extraction, we use the contextualized BERT embeddings as input to a softmax layer ターゲット抽出には、Softmax レイヤーへの入力としてコンテキスト化された BERT 埋め込みを使用します。 0.61
4https://www.yelp.co m/dataset/ 4https://www.yelp.co m/dataset/ 0.34
challenge and predict the sequence of tags. 挑戦 タグの配列を予測します 0.68
We compare three prediction strategies: 1. 3つの予測戦略を比較します。 0.79
TARG. : The model predicts the labels y ∈ TARG。 : モデルはラベル y ∈ を予測する 0.82
{B,I,O} for the targets only. ターゲットのみの {b,i,o} である。 0.72
2. PRED. : We additionally predict 2. プリド。 :さらに予測します。 0.64
the labels for holders and expressions and predict y ∈ {B-holder, I-holder, B-target, I-target, B-expression, I-expression, O}. 保持者および表現のラベルと y ∈ {B-holder, I-holder, B-target, I-target, B-expression, I-expression, O} を予測する。 0.71
3. +POL. : Finally, we add the polarity (positive, negative, neutral) to the annotation specific BIO-tag, which leads to an inventory of 19 labels for the full fine-grained setup and 7 for the targeted setup. 3. +POL。 最後に、アノテーション固有のBIOタグに極性(正、負、中性)を追加します。これは、完全なきめ細かいセットアップのための19ラベルと、ターゲット設定のための7ラベルのインベントリにつながります。 0.79
For polarity classification, we take as a baseline the classification architecture from Xu et al. 極性分類については、xuらによる分類アーキテクチャのベースラインとして捉える。 0.71
(2019), which makes use of the two-sentence training procedure for BERT, by prepending the target before the sentence separation token, and then adding the full sentence after. (2019)は,文分離トークンの前にターゲットをプリプレプションし,後に全文を追加することによって,BERTの2文訓練手順を利用する。 0.71
We compare five strategies for producing the input to the softmax layer for predicting the sentiment of the target: ターゲットの感情を予測するために、入力を生成する5つの戦略をsoftmaxレイヤと比較する。 0.73
1. [CLS]: this model uses the [CLS] embed- 1. CLS]:このモデルは[CLS]埋め込みを使用します。 0.85
ding from the final BERT layer. 最終的な BERT 層からの ding。 0.76
英語(論文から抽出)日本語訳スコア
Figure 2: Our BERT-based target extraction and classification models, with the three strategies for extraction ((1) predict only targets, (2) predict holders, targets and expressions, and (3) predict the polarity of the targets and expressions as well) and five strategies for sentiment classification (passing to the softmax layer the contextualized embedding from (1) the [CLS] embedding, (2) the first token in the target (3) averaging all embeddings in the target phrase, (4) taking the max of the target embeddings, (5) concatenating the max, mean, and min). Figure 2: Our BERT-based target extraction and classification models, with the three strategies for extraction ((1) predict only targets, (2) predict holders, targets and expressions, and (3) predict the polarity of the targets and expressions as well) and five strategies for sentiment classification (passing to the softmax layer the contextualized embedding from (1) the [CLS] embedding, (2) the first token in the target (3) averaging all embeddings in the target phrase, (4) taking the max of the target embeddings, (5) concatenating the max, mean, and min). 0.91
2. FIRST: uses the contextualized BERT embedding from the first token of the target in context. 2. FIRST: コンテキスト内でターゲットの最初のトークンからのコンテキスト化されたBERT埋め込みを使用します。 0.75
3. MEAN: instead takes the average of the BERT embeddings for the tokens in the target. 3. 意味: 代わりに、ターゲットのトークンに対するBERT埋め込みの平均値を取る。 0.69
4. MAX: uses the max of the contextualized BERT embeddings for the tokens in the target. 4. MAX: ターゲット内のトークンのコンテキスト化されたBERT埋め込みの最大値を使用します。 0.80
5. MAXMM: takes the max, min, and mean pooled representations and passes the concatenation to the softmax layer, which has shown to perform well for sentiment tasks (Tang et al., 2014). 5. MAXMM: 最大, 最小, 平均プールされた表現を取り、その結合をソフトマックス層に渡すことで、感情タスクにうまく機能することが示されている(Tang et al., 2014)。 0.80
However, this triples the size of the input representation to the softmax layer. しかし、これは入力表現のサイズをsoftmax層に3倍にします。 0.74
The TARG. and [CLS] models correspond to the models used in Xu et al. TARG。 そして[CLS]モデルはXu et alで使用されるモデルに対応します。 0.66
(2019) and serve as baselines. (2019) ベースラインとして機能する。 0.75
The extraction and classification models are fine-tuned for 50 epochs using Adam with an initial learning rate of 3e−5, with a linear warmup of 0.1 and all other hyperparameters are left at default BERT settings (further details in Appendix B). 抽出および分類モデルは、初期学習率3e−5のアダムを使用して50エポックで微調整され、線形ウォームアップは0.1であり、他のすべてのハイパーパラメータはデフォルトのBERT設定(付録Bの詳細)で残される。 0.71
The best model on the development set is used for testing. 開発セットの最良のモデルはテストに使用されます。 0.85
Combined with the four input manipulations (Table 2), this leads to eleven extraction experiments – TARG. 4つの入力操作(表2)と組み合わせると、11の抽出実験(targ)が行われる。 0.69
and PRED. on the original data which only has annotated targets are the same and for simplicity we only show the results from TARG.– and twenty classification experiments per dataset. とPreD。 注釈付きターゲットのみを持つ元のデータについては、同じであり、単純さのためにデータセット毎の分類実験の結果を示すのみである。 0.66
In order to control for the effect of random initialization, we run each experiment 5 times on different random seeds and report the mean and standard deviation. ランダム初期化の効果を制御するために,各実験を異なるランダム種子上で5回実施し,平均および標準偏差を報告した。 0.79
4.1 Training with gold annotations Given that we are interested in knowing whether it is beneficial to include information about additional annotations (holder, expressions, polarity), we perform experiments where we systematically include these. 4.1 金のアノテーションによるトレーニング 追加のアノテーション(保持者、表現、極性)に関する情報を含めることが有益かどうかを知ることに興味があるため、系統的にそれらを含める実験を行う。 0.73
We do so by adding spe- spe を追加して行います。 0.56
cial tags, e.g.,,(cid:2)<E(cid:3), into the input text surround- cialタグ,例えば(cid:2)<e(cid:3)を入力テキストにサラウンドする 0.71
ing the annotated spans, as shown in Table 2. 表2に示すように、注釈付きスパンを ing します。 0.68
The models then have access to this information both during training and at test time, albeit in an indirect way. モデルは、間接的な方法ではありますが、トレーニング中とテスト時間の両方で、この情報にアクセスできます。 0.67
For the first set of experiments, we perform controlled experiments under ideal conditions, i.e., having gold annotations during testing. 最初の実験では、理想的な条件下で、つまりテスト中に金のアノテーションを持つ制御実験を行う。 0.78
This allows us to isolate the effects of incorporating the additional annotations, without worrying about noisy predictions これにより、ノイズ予測を気にせずに追加アノテーションを組み込む効果を分離できる。 0.70
4.2 Training with predicted expressions It is equally important to know whether the models are able to use noisy predicted annotations. 4.2 予測式によるトレーニング モデルが騒がしい予測アノテーションを使用できるかどうかを知ることは同様に重要です。 0.80
In order to test this, we train expression prediction models on the three full fine-grained sentiment corpora. これをテストするために,我々は3つのきめ細かな感情コーパスで表現予測モデルを訓練する。 0.69
We use the same BERT-based model and hyperparameters from the target extraction models above and train five models with different random seeds. 上記の対象抽出モデルから同一のbertモデルとハイパーパラメータを用い,ランダムな種子の異なる5つのモデルを訓練した。 0.71
Preliminary results suggested that these models had high precision, but low recall. 予備結果は、これらのモデルは精度は高いが、リコールは低いことを示唆した。 0.50
Therefore, we take a simple ensemble of the five trained models, where for each token, we keep labels predicted by at least one of the expression models in order to increase recall. そこで我々は5つの訓練されたモデルの簡単なアンサンブルをとり、各トークンに対して少なくとも1つの表現モデルによって予測されたラベルをリコールを増やすために保持する。 0.72
We perform an additional set of experiments where we use sentiment lexicons and assume any word in these lexicons is a sentiment expres- 我々は、感情のレキシコンを使用し、これらのレキシコンのどの単語も感情の誇張であると仮定する追加の実験を行う。 0.56
BERT[CLS]Ilikethepizzahere[SEP]thepizza[SEP]MeanMaxMaxMeanMinFir st[CLS]1)2)3)4)5)[CLS]Ilikethepizzahere[SEP]BERTExtractionClassi fication[CLS]Ilikethepizzahere[SEP][CLS]Ilikethepizzahere[SEP]thepizza[SEP]Targ.OOOBIOO1)Pred.O B-holB-EB-TI-TOO2)+Pol.OB-holB-E+B-E+I-T+OO3) BERT[CLS]Ilikethepizzahere[SEP]thepizza[SEP]MeanMaxMaxMeanMinFir st[CLS]1)2)4)5)[CLS]Ilikethepizzahere[SEP]BERTExtractionClassi fication[CLS]Ilikethepizzahere[SEP][CLS]Ilikethepizzahere[SEP]thepizza[SEP]Targ.OOOBIOO1)Pred.O B-holB-EB-TI-TOO2)+Pol.OB-holB-E+E+I-T+OO3) 0.79
英語(論文から抽出)日本語訳スコア
+ expressions Money Magazine (cid:2)<E(cid:3) rated (cid:2)E>(cid:3) E-Trade (cid:2)<E(cid:3) highly (cid:2)E>(cid:3) + Expression Money Magazine (cid:2)<E(cid:3) rated (cid:2)E>(cid:3) E-Trade (cid:2)<E(cid:3) highly (cid:2)E>(cid:3) 0.80
rated E-Trade highly E-Trade を評価します。 0.38
Money Magazine rated E-Trade highly . Money MagazineはE-Tradeを高く評価しました。 0.47
(cid:2)<H(cid:3) Money Magazine (cid:2)H>(cid:3) (cid:2)<H(cid:3) Money Magazine (cid:2)H>(cid:3) (cid:2)<H(cid:3)マネーマガジン(cid:2)H>(cid:3)(cid:2)<H(cid:3)マネーマガジン(cid:2)H>(cid:3) 0.74
original + holders original + holders 0.85
+ full (cid:2)<E(cid:3) rated (cid:2)E>(cid:3) E-Trade (cid:2)<E(cid:3) highly (cid:2)E>(cid:3) +フル (cid:2)<E(cid:3) rated (cid:2)E>(cid:3) E-Trade (cid:3)<E(cid:3) highly (cid:2)E>(cid:3) 0.73
Table 2: We inform our models regarding annotations other than targets by inserting special tags into the input text before and after annotated holders and expressions . 表2: アノテートされたホルダと式の前に特別なタグを入力テキストに挿入することにより、ターゲット以外のアノテーションに関するモデルに通知します。 0.65
sion. We use the Hu and Liu lexicon (Hu and Liu, 2004), the SoCal and SoCal-Google lexicons (Taboada et al., 2006) and the NRC emotion lexicon (Mohammad and Turney, 2013), which also contains sentiment annotations. シオン 私たちは、Hu and Liu lexicon(Hu and Liu, 2004)、SoCal and SoCal-Google lexicons(Taboada et al., 2006)、およびNRC感情辞書(Mohammad and Turney, 2013)を使用しています。 0.52
The lexicons contain 6,789, 5,824, 2,142, and 5,474 entries, respectively. レキシコンはそれぞれ6,789,5,824,2,142,5, 474個のエントリを含む。 0.54
The MPQA and Darmstadt experiments show the effect of predicted vs. gold expressions, as well as domain transfer. MPQAとDarmstadtの実験は、予測された金の表現とドメイン転送の効果を示している。 0.81
The experiments on the targeted datasets, on the other hand, will show us whether it is possible to improve the targeted models with predicted expressions. 一方で、ターゲットとするデータセットに関する実験では、予測された表現でターゲットモデルを改善することができるかどうかが示される。 0.76
5 Results In this section we describe the main results from the extraction and two classification experiments described in Section 4. 5) 本節では,抽出の主な結果と,第4節で述べた2つの分類実験について述べる。 0.79
5.1 Target extraction Table 3 shows the results for the extraction experiment, where token-level F1 is measured only on targets. 5.1ターゲット抽出表3は、目標に対してのみトークンレベルF1を測定する抽出実験の結果を示す。 0.78
The models perform poorer than the stateof-the-art, as we did not finetune on the SQUAD question answering dataset and in-domain sentiment questions or perform extensive hyperparameter tuning. SQUAD質問応答データセットやドメイン内感情質問を微調整したり、広範囲なハイパーパラメータチューニングを行ったりしなかったため、モデルの性能は最先端よりも低かった。 0.57
The average F1 score depends highly on the dataset – MPQA is the most difficult dataset with 13.1 F1 on the original data, while the Darmstadt Universities corpus is the easiest for target extraction with 84.6. MPQAは元のデータで13.1 F1を持つ最も困難なデータセットであり、ダームシュタット大学コーパスは84.6のターゲット抽出が最も簡単である。 0.69
Augmenting the input text with further annotations, but predicting only sentiment targets (TARG. 入力テキストをアノテーションで拡張するが、感情目標(TARG)のみを予測する。 0.74
in Table 3) hurts the model performance in all cases. 表3では、すべてのケースでモデルパフォーマンスが損なわれます。 0.69
Specifically, adding holder tags leads to an average drop of 1.3 percentage points (pp), expressions 1.2 and full 1.5. 具体的には、ホルダータグを追加すると、平均で1.3パーセンテージポイント(pp)、式1.2、完全な1.5となる。
訳抜け防止モード: 具体的にはホルダータグを追加します 平均減少率 1.3 % ( pp ) となる。 1.2 と 1.5 です
0.79
Attempting to additionally predict these annotations (PRED. これらのアノテーション(PRED)の追加予測の試み。 0.67
in Table 3) leads to mixed results – the model leads to improvements on MPQA + exp. 表3では、結果が混同され、モデルはMPQA + expの改善につながります。 0.74
and Darmstadt Services + holders, no notable difference on MPQA + full and Darmstadt Universities + exp., and a loss on the rest. そして、Darmstadt Services + holders, no noted difference on MPQA + full and Darmstadt Universities + exp., and a loss on the rest。 0.87
Adding the polarity to the target BIO tags (original +POL. ターゲットのBIOタグ(オリジナル+POL)に極性を追加する。 0.78
in Table 3) leads to the most consistent improvements across experiments – an average of 0.5 pp – with the largest improvement of 1.5 pp on the TDParse dataset. 表3では、実験全体の最も一貫した改善 – 平均0.5pp – が、TDParseデータセットで1.5ppの最大の改善をもたらす。 0.75
This suggests a weakto-moderate relationship between polarity and extraction, which contradicts previous conclusions (Hu et al., 2019). これは、それまでの結論と矛盾する極性と抽出の間の弱モード関係を示唆する(hu et al., 2019)。 0.62
Finally, further adding the holder and expression tags (+POL. 最後に、ホルダーと式タグ(+POL)を追加します。 0.65
in Table 3) tends to decrease performance. 表3ではパフォーマンスが低下する傾向があります。 0.60
5.2 Polarity classification with gold 5.2 金による極性分類 0.70
annotations Table 4 shows the macro F1 scores for the polarity classification task on the gold targets. 注釈 表4は、金ターゲット上の極性分類タスクのマクロF1スコアを示しています。 0.72
The model performs better than the best reported results on Challenge (Jiang et al., 2019), and similar to previous results on the SemEval corpora. このモデルは、challenge(jiang et al., 2019)で報告された最高の結果よりも優れており、semeval corporaの以前の結果と同様である。 0.67
Regarding the choice of target representation, FIRST is the strongest overall, with an average of 64.7 F1 across the original eight datasets, followed by MAX (64.6), MEAN (64.4), MAXMM (64.2), and finally [CLS] (64.1). ターゲット表現の選択に関して、FIRSTは、最初の8つのデータセットで平均64.7 F1であり、MAX (64.6)、MEAN (64.4)、MAXMM (64.2)、そして最終的に[CLS] (64.1)が続く。 0.69
It is, however, unclear exactly which representation is the best, as it differs for each dataset. しかし、データセットごとに異なるため、どの表現が最も良いかは正確には分かっていない。 0.77
But we can conclude that [CLS] is in general the weakest model, while either FIRST or MAX provide good starting points. しかし、[CLS] は一般に最も弱いモデルであり、一方 FIRST または MAX は良い出発点を提供する。 0.76
Adding holder annotations to the input text delivers only small improvements on four of the fifteen experiments, and has losses on seven. 入力テキストにホルダーアノテーションを追加することで、15の実験のうち4つの小さな改善しか得られず、7つが失われる。 0.66
The +exp. model, however, leads to significant improvements on 10 experiments. エクスプット。 しかし、モデルは10の実験で大幅に改善される。 0.60
The outlier seems to be Darmstadt Services, which contains a large number of “polar targets” in the data, which do not have polar expressions. 外れ値がdarmstadtサービスであるように思われる。データには多数の“極性目標”が含まれており、極性表現を持っていない。 0.65
This may explain why including this information has less effect on this dataset. この情報を含むと、このデータセットに影響を与えない理由が説明できるかもしれない。 0.54
Finally, +full performs between the original input and +exp. 最後に、 +full は元の入力と +exp の間で実行される。 0.61
英語(論文から抽出)日本語訳スコア
Xu et al. (2019) BiLSTM-CRF original xuなど。 (2019年)BiLSTM-CRFオリジナル 0.53
n/a 12.2 (1) 14.1 (2) n/a 12.2 (1) 14.1 (2) 0.74
MPQA DS. Services DS. MPQA DS。 サービスDS。 0.75
Unis Challenge SemEval R. SemEval L. 84.3 74.0 (1) 71.3 (1) Unis Challenge SemEval R. SemEval L. 84.3 74.0 (1) 71.3 (1) 0.78
78.0 72.5 (1) 51.9 (1) 78.0 72.5 (1) 51.9 (1) 0.74
n/a 85.0 (1) 85.9 (1) n/a 85.0 (1) 85.9 (1) 0.74
n/a 73.4 (1) 75.8 (1) n/a 73.4 (1) 75.8 (1) 0.74
- - - 73.7 (1) 52.5 (1) - - - 73.7 (1) 52.5 (1) 0.84
- - 74.5 (1) 71.6 (1) - - 74.5 (1) 71.6 (1) 0.84
- Open TDParse n/a 82.6 81.7 (3) - TDParse n/a 82.6 81.7 (3) 0.73
n/a 62.2 (1) 62.0 (4) n/a 62.2 (1) 62.0 (4) 0.74
- - - - 62.3 (1) 62.9 (1) - - - - 62.3 (1) 62.9 (1) 0.84
81.8 (1) 83.2 (0) 81.8 (1) 83.2 (0) 0.81
- - . + holders - - . +保有者 0.82
G R A T . D E R P G R A T . D E R P 0.85
. L O P + . L O P +。 0.88
+ exp. + full + exp。 +フル 0.75
+ holders + exp. + ホルダー + exp。 0.76
+ full BiLSTM-CRF original +フル BiLSTM-CRFオリジナル 0.69
+ holders + exp. + ホルダー + exp。 0.76
+ full 11.9 (1) 11.6 (1) 10.5 (2) +フル 11.9 (1) 11.6 (1) 10.5 (2) 0.74
12.1 (2) 14.9 (1) 13.0 (3) 12.1 (2) 14.9 (1) 13.0 (3) 0.80
13.9 (1) 13.8 (1) 13.9 (1) 13.8 (1) 0.81
13.8 (2) 13.5 (2) 12.0 (1) 13.8 (2) 13.5 (2) 12.0 (1) 0.80
84.3 (1) 85.0 (0) 84.8 (1) 86.2 (0) 84.7 (1) 85.5 (1) 84.3 (1) 85.0 (0) 84.8 (1) 86.2 (0) 84.7 (1) 85.5 (1) 0.79
85.2 (1) 85.4 (1) 85.2 (1) 85.4 (1) 0.81
85.6 (1) 85.4 (1) 86.0 (1) 85.6 (1) 85.4 (1) 86.0 (1) 0.80
n/a 84.4 (1) 84.6 (0) 83.6 (1) 83.4 (0) 83.8 (1) 84.6 (0) 84.5 (1) 84.3 (1) n/a 84.4 (1) 84.6 (0) 83.6 (1) 83.4 (0) 83.8 (1) 84.6 (0) 84.5 (1) 84.3 (1) 0.77
83.7 (1) 84.3 (1) 83.7 (1) 84.3 (1) 0.81
84.4 (1) 84.3 (0) 84.6 (0) 84.4 (1) 84.3 (0) 84.6 (0) 0.80
73.6 (1) 76.9 (1) 73.6 (1) 76.9 (1) 0.81
- Table 3: Average token-level F1 scores for the target extraction task across five runs, (standard deviation in parenthesis). - 表3: ターゲット抽出タスクの平均トークンレベルF1スコアを5回実行します(括弧の標準偏差)。 0.81
Bold numbers indicate the best model per dataset, while blue and pink highlighting indicates an improvement or loss in performance compared to the original data, respectively. ボールド番号はデータセットごとに最高のモデルを示し、青とピンクのハイライトは、それぞれ元のデータと比較してパフォーマンスの向上または損失を示します。 0.72
5.3 Polarity classification with predicted 5.3 予測した極性分類 0.73
annotations The expression models achieve modest F1 scores when trained and tested on the same dataset – between 15.0 and 47.9 –, and poor scores when transferred to a different dataset – between 0.9 and 14.9 (further details shown in Table 7 in Appendix A). 注釈 式モデルは、同じデータセット(15.0から47.9)でトレーニングされテストされたときの控えめなF1スコアと、異なるデータセットに転送されたときの低スコアを0.9から14.9(アペンディックスAのテーブル7に示されている)に達成する。 0.67
The lexicons often provide better cross-dataset F1 than the expression models trained on another dataset, as they have relatively good precision on general sentiment terms. レキシコンはしばしば、他のデータセットでトレーニングされた式モデルよりも優れたクロスデータセットf1を提供する。 0.61
Figure 3 shows a heatmap of improvements (blue) and losses (red) on the eight datasets (xaxis) when augmenting the input text with expression tags from the expression models and lexicons (y-axis). 図3は、表現モデルと語彙(y軸)の表現タグで入力テキストを増強する場合、8つのデータセット(x軸)における改善(青)と損失(赤)のヒートマップを示しています。 0.73
We compare the expression augmented results to the original results for each pooling technique and take the average of these improvements and losses. 表現の拡張結果とプール技術ごとの元の結果を比較し、これらの改善と損失の平均を取ります。 0.76
For a full table of all results, see Table 5 in Appendix A. すべての結果の全表は、Appendix Aのテーブル5を参照してください。 0.80
Augmenting the input text with predicted sentiment expressions leads to losses in 41 out of averaged 56 experiments shown in Figure 3 (or in 173 out of 280 experiments in Table 5). 予測された感情表現による入力テキストの増大は、図3で示された56実験中41件(表5で280実験中173件)に損失をもたらす。 0.77
Curiously, the experiments that use an expression model trained on the same dataset as the classification task, e.g., MPQA predicted expressions on the MPQA classification task, have the largest losses – the largest of which is MPQA (-2.78 on average). 皮肉なことに、MPQA分類タスクと同じデータセットでトレーニングされた表現モデルを使用する実験は、MPQA分類タスク上での表現を予測するなど、最大の損失があり、そのうち最大はMPQA(平均2.78)である。 0.75
This seems to indicate that the mismatch be- これはミスマッチを示すようです。 0.58
tween the train prediction, which are near perfect, and the rather poor test predictions is more problematic than cross-dataset predictions, which are similar on train and test. 列車の予測は、ほぼ完璧であり、列車とテストで似たクロスデータセットの予測よりも、かなり悪いテストの予測の方が問題となる。 0.71
The best expression prediction model is the one trained on MPQA, improving the performance on Darmstadt Universties, Open, and SemEval Restaurants. 最高の表現予測モデルはMPQAで訓練されたもので、Darmstadt Universties、Open、SemEval Restaurantsのパフォーマンスを改善します。 0.78
This is likely due to the fact that MPQA has the largest number of annotated expressions, and that the domain is more general, leading to expression predictions that generalize better. これは、MPQAがアノテートされた表現の最大数を持ち、ドメインがより一般的であるため、より一般化された表現予測につながるためであろう。 0.74
The expression models trained on Darmstadt Services leads to small benefits on two corpora and the expression model trained on Darmstadt Universities only leads to losses Darmstadt Servicesでトレーニングされた表現モデルは2つのコーパスに小さな利点をもたらし、Darmstadt Universitiesでトレーニングされた表現モデルは損失にしかならない。 0.74
The datasets that receive the most benefit from expression annotations are Darmstadt Universities (6/7 experiments) and the TDParse dataset (5/7). 式アノテーションの恩恵を受けるデータセットは、Darmstadt Universities(6/7実験)とTDParseデータセット(5/7実験)である。 0.73
In both cases, the lexicon-based expression models provide more consistent benefits than the trained expression prediction models. どちらの場合も、語彙に基づく表現モデルは、訓練された表現予測モデルよりも一貫した利益をもたらす。 0.63
The fact that the dataset that benefits most is the TDParse dataset suggests that expression information is most useful when there are multiple targets with multiple polarities. 最も恩恵を受けるデータセットがTDParseデータセットであるという事実は、表現情報が複数の極性を持つ複数のターゲットがある場合に最も有用であることを示唆している。 0.63
There is no significant correlation between the performance of the expression prediction model and the performance on the classification task on the three fine-grained datasets. 表現予測モデルの性能と3つのきめ細かいデータセットの分類課題における性能との間に有意な相関はない。 0.84
In fact, there is a small but insignificant negative correlation (-0.33 実際、小さいが重要な負の相関(-0.33)がある。 0.76
英語(論文から抽出)日本語訳スコア
] S L C [ T S R ] S L C [ T S R 0.85
I F N A E M 我 F N A E M 0.80
X A M Previous Results original + holders + exp. X A M 前回の結果は original + holders + exp だった。 0.78
+ full original + holders + exp. + 完全オリジナル + ホルダー + exp。 0.78
+ full original + holders + exp. + 完全オリジナル + ホルダー + exp。 0.78
+ full original + holders + exp. + 完全オリジナル + ホルダー + exp。 0.78
+ full M original + holders M X + exp. +フル m original + holders m x + exp。 0.71
A M + full A M + full 0.85
n/a 63.5 (2) 63.1 (2) 64.0 (3) 61.9 (2) 64.3 (2) 63.4 (2) 64.8 (2) 64.0 (1) 63.5 (2) 63.1 (2) 64.3 (2) 64.2 (2) 60.8 (4) 61.9 (4) 64.3 (2) 62.7 (3) 59.3 (2) 61.3 (1) 64.1 (2) 63.9 (1) n/a 63.5 (2) 63.1 (2) 64.0 (3) 61.9 (2) 64.3 (2) 63.4 (2) 64.8 (2) 64.0 (1) 63.5 (2) 63.1 (2) 64.3 (2) 64.2 (2) 60.8 (4) 61.9 (4) 64.3 (2) 62.7 (3) 59.3 (2) 61.3 (1) 64.1 (2) 63.9 (1) 0.78
MPQA DS. Services DS. MPQA DS。 サービスDS。 0.75
Unis Challenge SemEval R. SemEval L. 78.3 72.8 (1)74.3 (1)72.8 (1)74.5 (2)74.5 (1)- Unis Challenge SemEval R. SemEval L. 78.3 72.8 (1)74.3 (1)72.8 (1)74.5 (2)74.5 (1)- 0.81
n/a 57.3 (1) 57.1 (1) 56.4 (0) 56.6 (1) 57.8 (1) 57.7 (2) 57.0 (1) 55.2 (1) 57.3 (1) 57.8 (1) 56.2 (1) 56.3 (1) 58.2 (1) 57.9 (1) 57.4 (1) 57.9 (1) 57.8 (1) 57.8 (1) 59.8 (3) 57.7 (1) n/a 57.3 (1) 57.1 (1) 56.4 (0) 56.6 (1) 57.8 (1) 57.7 (2) 57.0 (1) 55.2 (1) 57.3 (1) 57.8 (1) 56.2 (1) 56.3 (1) 58.2 (1) 57.9 (1) 57.4 (1) 57.9 (1) 57.8 (1) 57.8 (1) 59.8 (3) 57.7 (1) 0.78
n/a 57.6 (4) 60.5 (0) 62.9 (4) 62.8 (2) 58.7 (4) 60.5 (3) 63.7 (2) 65.7 (4) 60.2 (4) 56.7 (5) 64.1 (3) 63.7 (2) 57.8 (3) 53.9 (1) 61.5 (6) 54.5 (2) 55.2 (3) 54.7 (3) 54.0 (2) 54.4 (4) n/a 57.6 (4) 60.5 (0) 62.9 (4) 62.8 (2) 58.7 (4) 60.5 (3) 63.7 (2) 65.7 (4) 60.2 (4) 56.7 (5) 64.1 (3) 63.7 (2) 57.8 (3) 53.9 (1) 61.5 (6) 54.5 (2) 55.2 (3) 54.7 (3) 54.0 (2) 54.4 (4) 0.78
70.3 84.3 (0)84.4 (1)84.4 (1)81.4 (1)81.3 (1)- 70.3 84.3 (0)84.4 (1)84.4 (1)81.4 (1)81.3 (1)- 0.80
80.1 74.1 (2)75.6 (1)74.1 (2)73.9 (2)77.2 (1)- 80.1 74.1 (2)75.6 (1)74.1 (2)73.9 (2)77.2 (1)- 0.80
Open TDParse Open TDParse 0.85
54.6 (1)55.6 (2)56.8 (3)61.4 (5)60.2 (5)- 54.6 (1)55.6 (2)56.8 (3)61.4 (5)60.2 (5)- 0.83
48.8 (1)46.6 (1)46.1 (1)49.0 (3)48.5 (5)- 48.8 (1)46.6 (1)46.1 (1)49.0 (3)48.5 (5)- 0.83
Table 4: Average macro F1 scores for polarity classification across five runs (standard deviation in parenthesis) on gold targets, also adding information about holders and expressions. 表4:金ターゲット上の5ラン(括弧の標準偏差)にわたる極性分類の平均マクロF1スコア、ホルダーと表現に関する情報も追加。 0.81
Bold indicates the best model per dataset, while blue and pink highlighting indicates an improvement or loss in performance compared to the original (targets only) data, respectively. Boldはデータセットごとに最高のモデルを示し、青とピンクのハイライトは、それぞれ元の(ターゲットのみ)データと比較してパフォーマンスの向上または損失を示します。 0.76
p=0.13, -0.16 p=0.48, -0.26 p=0.25 for macro Precision, Recall, or F1 respectively, as measured by Pearson’s correlation between the expression performances and the F1 of the classification models augmented with these predicted expressions). p=0.13, -0.16 p=0.48, -0.26 p=0.25 for macro precision, Recall, or F1, as measured by the correlation between the expression performances and the F1 of the classification model augmented with these predict expression)。 0.76
It seems that the possible benefits depends more on the target dataset than the actual expression model used. 考えられる利点は、実際の式モデルよりもターゲットデータセットに依存しているようだ。 0.73
6 Conclusion In this work we have explored the benefit of augmenting targeted sentiment models with holder and sentiment expressions. 6 結論 本研究では,ホルダと感情表現を用いた対象感情モデルの拡張の利点について検討した。 0.61
The experiments have shown that although augmenting text with holder and expression tags (RQ1 a) or simultaneously predicting them (RQ1 b) have no benefit for target extraction, predicting collapsed BIO + polarity tags consistently improves target extraction (RQ1 c). 実験の結果,テキストをホルダと式タグ(RQ1a)で拡張したり,同時に予測したりすることは,目標抽出の利益を得られないものの,崩壊したBIO+極性タグの予測は一貫して目標抽出(RQ1c)を改善することがわかった。 0.64
Furthermore, augmenting the input text with gold expressions generally improves targeted polarity classification (RQ2 a), although it is not clear which target representation strategy is best (RQ2 b). さらに、入力テキストに金の表現を付加することで、ターゲットの極性分類(RQ2a)が向上するが、どのターゲットの表現戦略が最適かは明らかでない(RQ2b)。 0.70
Furthermore, we have found benefits of さらに、私たちは利益を見つけました。 0.54
Figure 3: Heatmap of average improvements (blue) and losses (red) on the target classification tasks (x-axis) when augmenting the input text with predicted sentiment expressions from the expression prediction models (y-axis). 図3:表現予測モデル(y軸)から予測された感情表現で入力テキストを増強する際の目標分類タスク(x軸)における平均的改善(青)と損失(赤)のヒートマップ。 0.83
MPQADS ServicesDS UnisChallengeOpenSem Eval R.SemEval L.TDParseDatasetsMPQ ADS ServicesDS UnisHuLiuNRCSoCalSoC al-GExpression prediction models-2.78-0.240.52 -0.521.440.24-0.14-0 .90-0.50-1.560.12-1. 54-0.18-0.22-0.360.6 4-0.50-0.44-1.12-1.3 2-0.42-1.46-1.04-0.9 0-1.82-1.340.98-1.22 -2.34-0.72-0.140.480 .18-0.422.02-1.02-1. 32-1.060.281.08-0.86 -1.440.30-1.02-2.20- 3.52-1.821.46-0.70-0 .860.28-1.18-2.10-1. 74-0.380.58432101234 MPQADS ServicesDS UnisChallengeOpenSem Eval R.SemEval L.TDParseDatasetsMPQ ADS ServicesDS UnisHuLiuNRCSoCalSoC al-GExpression prediction model-2.78-0.240.52- 0.521.440.24-0.14-0. 90-0.50-1.560.12.12- 1.54-0.18-0.0.0.22-0 .360.64-0.50-0.44-1. 12-1.12-1.12-1.0.42- 1.46-1.0.0.90-1.82-1 .340.98-1.22-2.34-0. 72-0.140.480.18-0.42 2-1.0-2.32-1.0.32-1. 0.28.8.8.0.0.0.0.0.2 0-21.0.21.0.0.0.0.0. 0.0.0.0.0.0.0.0.0.0. 0.12.32.32.32.32.32. 32.32.0.32.0.0.0.0. 0.04
英語(論文から抽出)日本語訳スコア
including lexicon-based expressions for the more complex targeted datasets (RQ2 c). より複雑なターゲットデータセット(RQ2 c)に対する語彙ベースの式を含む。 0.72
The rather poor performance of the learned expression models and the difference between augmenting with gold or predicted expressions reveals the need to improve expression prediction approaches, both by creating larger corpora annotated with sentiment expressions, as well as performing further research on the modeling aspect. 学習式モデルのかなり低い性能と、金や予測式による増補との違いは、感情表現でアノテートされた大きなコーパスを作ることと、モデリングの側面についてさらなる研究を行うことで、表現予測アプローチを改善する必要性を示している。 0.67
Any future work interested in modelling more complex sentiment phenomena should therefore be aware that we may first require more highquality annotated data if we wish to do so with current state-of-the-art machine learning approaches. したがって、より複雑な感情現象をモデル化することに関心のある将来の作業は、現在の最先端の機械学習アプローチで実現したい場合、まずは高品質な注釈付きデータが必要であることに気付くべきです。 0.66
Furthermore, we introduce a common format for eight standard English datasets in fine-grained sentiment analysis and release the scripts to download and preprocess them easily. さらに,きめ細かな感情分析において8つの標準英語データセットの共通フォーマットを導入し,スクリプトのダウンロードとプリプロセスを容易にする。 0.81
We plan to include further datasets in our script in the future, as well as extending our work to other languages with available fine-grained corpora. 将来的には、スクリプトにさらなるデータセットを含めるとともに、よりきめ細かいコーパスで作業を他の言語に拡張する予定です。 0.72
References Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 参照: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova。 0.85
2019. BERT: Pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing. 2019. BERT:言語のための深い双方向の変圧器の事前訓練2019年の会議の立場の進行中。 0.76
of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota. 0.85
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
David Etter, Francis Ferraro, Ryan Cotterell, Olivia Buzek, and Benjamin Van Durme. David Etter、Francis Ferraro、Ryan Cotterell、Olivia Buzek、Benjamin Van Durme。 0.70
2013. Nerit: Named Entity Recognition for Informal Text. 2013. Nerit: Informal Textのエンティティ認識の名称。 0.82
Technical Report 11, Human Language Technology Center of Excellence, Johns Hopkins University, Baltimore, Maryland. 技術報告 11、人間言語技術センター、ジョンズホプキンス大学、ボルチモア、メリーランド州。 0.57
Ruidan He, Wee Sun Lee, Hwee Tou Ng, and Daniel Dahlmeier. Ruidan He、Wee Sun Lee、Hwee Tou Ng、Daniel Dahlmeier。 0.70
2019. An interactive multi-task learning network for end-to-end aspect-based sentiment analysis. 2019. エンド・ツー・エンドの感情分析のための対話型マルチタスク学習ネットワーク 0.74
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 504–515, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 504–515, イタリア・フィレンツェ。 0.71
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ruining He and Julian McAuley. 彼とジュリアン・マコーリーを破る。 0.52
2016. Ups and downs: Modeling the visual evolution of fashion trends with one-class collaborative filtering. 2016. ups and downs: 1階級のコラボレーティブフィルタリングによるファッショントレンドの視覚的進化のモデリング。 0.83
In Proceedings of the 25th International Conference on World Wide Web, WWW ’16, page 507–517, Republic and Canton of Geneva, CHE. 第25回World Wide Web国際会議の進行において、WWW’16、ページ507-517、ジュネーブ、CHEの共和国とカントン。 0.79
International World Wide Web Conferences Steering Committee. International World Wide Web Conferences Steering Committee(英語) 0.84
Minghao Hu, Yuxing Peng, Zhen Huang, Dongsheng Li, and Yiwei Lv. Minghao Hu, Yuxing Peng, Zhen Huang, Dongsheng Li, Yiwei Lv 0.66
2019. Open-domain targeted sentiment analysis via span-based extraction and classification. 2019. スパンベース抽出と分類によるオープンドメイン目標感情分析 0.81
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 537–546, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, Page 537-546, イタリア・フィレンツェ。 0.71
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Minqing Hu and Bing Liu. Minqing HuとBing Liu。 0.74
2004. Mining and summarizing customer reviews. 2004. 顧客レビューのマイニングと要約。 0.77
In Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 168–177, Seattle, USA. 10th acm sigkdd international conference on knowledge discovery and data mining, pages 168–177, seattle, usa. (英語)
訳抜け防止モード: 第10回ACM SIGKDD International Conference on Knowledge Discovery and Data Mining に参加して 168-177頁、アメリカ合衆国シアトル。
0.87
Qingnan Jiang, Lei Chen, Ruifeng Xu, Xiang Ao, and Min Yang. Qingnan Jiang、Lei Chen、Ruifeng Xu、Xiang Ao、Min Yang。 0.66
2019. A challenge dataset and effective models for aspect-based sentiment analysis. 2019. アスペクトベース感情分析のためのチャレンジデータセットと効果的なモデル 0.79
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 6279– 6284, Hong Kong, China. 2019年の自然言語処理の実証的方法に関する会議と第9回自然言語処理に関する国際合同会議(EMNLP-IJCNLP)の進行において、ページ6279–6284、香港、中国。 0.81
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Arzoo Katiyar and Claire Cardie. Arzoo KatiyarとClaire Cardie。 0.75
2016. Investigating LSTMs for joint extraction of opinion entities and relations. 2016. 意見団体と関係の合同抽出のためのLSTMの検討 0.81
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 919–929, Berlin, Germany. 第54回計算言語学会年次大会(Volume 1: Long Papers)において,919-929頁,ドイツ,ベルリン。 0.69
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Roman Klinger and Philipp Cimiano. ローマ・クリンガーとフィリップ・シミアーノ 0.59
2013. Bidirectional inter-dependencies of subjective expressions and targets and their value for a joint model. 2013. 主観的表現と目標の双方向相互依存性とその共同モデルの価値。 0.83
In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 848–854, Sofia, Bulgaria. 第51回計算言語学会年次総会(Volume 2: Short Papers)の進行において、ブルガリアのソフィアの848-854ページ。 0.66
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Xin Li, Lidong Bing, Piji Li, and Wai Lam. Xin Li、Lidong Bing、Piji Li、Wai Lam。 0.69
2019. A unified model for opinion target extraction and target sentiment prediction. 2019. 評価対象抽出とターゲット感情予測のための統一モデル。 0.78
In Proceedings the ThirtyThird AAAI Conference on Artificial Intelligence (AAAI 2019), pages 6714–6721, Honolulu, Hawaii. In Proceedings the ThirtyThird AAAI Conference on Artificial Intelligence (AAAI 2019), page 6714–6721, Honolul, Hawaii。 0.85
AAAI Press. Bing Liu. AAAIプレス。 Bing Liu 0.67
2015. Sentiment analysis: Mining Opinions, Sentiments, and Emotions. 2015. 感情分析: 意見、感情、感情をマイニングする。 0.73
Cambridge University Press, Cambridge, United Kingdom. ケンブリッジ大学出版局(Cambridge University Press) - イギリスの大学。 0.63
Edward Loper and Steven Bird. エドワード・ローパーとスティーブン・バード 0.67
2002. NLTK: The natural language toolkit. 2002. NLTK: 自然言語ツールキット。 0.79
In Proceedings of the ACL-02 Workshop on Effective Tools and Methodologies for Teaching Natural Language Processing and Computational Linguistics - Volume 1, pages 63–70. acl-02 workshop on effective tools and methodology for teaching natural language processing and computational linguistics - volume 1, pp. 63-70。 0.78
Margaret Mitchell, Jacqui Aguilar, Theresa Wilson, and Benjamin Van Durme. マーガレット・ミッチェル、ジャック・アグイラー、テレサ・ウィルソン、ベンジャミン・ヴァン・ダーメ。 0.46
2013. Open domain targeted sentiment. 2013. オープンドメインをターゲットとした感情。 0.70
In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pages 1643–1654, Seattle, Washington, USA. 自然言語処理における経験的手法に関する2013年会議の議題1643–1654ページ、ワシントン州シアトル。
訳抜け防止モード: 自然言語処理における実証的方法に関する2013年会議の進捗状況 ページ 1643–1654、シアトル、ワシントン、米国。
0.81
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
英語(論文から抽出)日本語訳スコア
Hu Xu, Bing Liu, Lei Shu, and Philip Yu. Hu Xu、Bing Liu、Lei Shu、Philip Yu。 0.63
2019. BERT post-training for review reading comprehension and aspect-based sentiment analysis. 2019. BERTポストトレーニングによる読解理解とアスペクトベース感情分析 0.77
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 2324–2335, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 2324–2335, Minneapolis, Minnesota 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Meishan Zhang, Yue Zhang, and Duy-Tin Vo. Meishan Zhang、Yue Zhang、Duy-Tin Vo。 0.80
2015. Neural networks for open domain targeted sentiIn Proceedings of the 2015 Conference on ment. 2015. オープンドメインをターゲットにしたSentiIn Proceedings of the 2015 Conference on ment。 0.74
Empirical Methods in Natural Language Processing, pages 612–621, Lisbon, Portugal. Empirical Methods in Natural Language Processing, page 612–621, Lisbon, Portugal 0.84
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Saif M. Mohammad and Peter D. Turney. Saif M. MohammadとPeter D. Turney。 0.92
2013. Crowdsourcing a Word-Emotion Association Lexicon. 2013. Word-Emotion Association Lexiconのクラウドソーシング。 0.78
Computational Intelligence, 29(3):436–465. 計算知能、29(3):436–465。 0.61
Maria Pontiki, Dimitris Galanis, John Pavlopoulos, Harris Papageorgiou, Ion Androutsopoulos, and Suresh Manandhar. Maria Pontiki、Dimitris Galanis、John Pavlopoulos、Harris Papageorgiou、Ion Androutsopoulos、Suresh Manandhar。 0.70
2014. SemEval-2014 task 4: Aspect based sentiment analysis. 2014. semeval-2014 task 4: アスペクトベースの感情分析。 0.78
In Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014), pages 27–35, Dublin, Ireland. 第8回セマンティック・アセスメント国際ワークショップの進行(2014年7月)では、アイルランドのダブリン27-35ページ。 0.61
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Alexander Rietzler, Sebastian Stabinger, Paul Opitz, and Stefan Engl. Alexander Rietzler、Sebastian Stabinger、Paul Opitz、Stefan Engl。 0.70
2020. Adapt or get left behind: Domain adaptation through BERT language model finetuning for aspect-target sentiment classification. 2020. Adapt or get left: アスペクトターゲットの感情分類のためのBERT言語モデルによるドメイン適応。 0.80
In Proceedings of The 12th Language Resources and Evaluation Conference, pages 4933–4941, Marseille, France. 第12回言語資源評価会議(英語版)の議事録、4933-4941ページ、マルセイユ、フランス。 0.64
European Language Resources Association. 欧州言語資源協会 (European Language Resources Association) の略。 0.41
Maite Taboada, Caroline Anthony, and Kimberly Voll. Maite Taboada、Caroline Anthony、Kimberly Voll。 0.61
2006. Methods for Creating Semantic Orientation In Proceedings of the Fifth InterDictionaries. 2006. 第5中間辞典の進行におけるセマンティック・オリエンテーションの作成方法 0.78
national Conference on Language Resources and Evaluation (LREC’06), Genoa, Italy. イタリア・ジェノヴァの言語資源・評価に関する国際会議(LREC'06)に参加。 0.74
European Language Resources Association (ELRA). 欧州言語資源協会 (ELRA) の略。 0.77
Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Learning sentimentLiu, and Bing Qin. Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Learning sentimentLiu, Bing Qin 0.67
2014. specific word embedding for twitter sentiment classification. 2014年、Twitter感情分類のための特定の単語埋め込み。 0.58
In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1555–1565, Baltimore, Maryland. 第52回計算言語学会年次総会(Volume 1: Long Papers)において、1555-1565ページ、ボルチモア、メリーランド州。 0.65
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Cigdem Toprak, Niklas Jakob, and Iryna Gurevych. Cigdem Toprak、Niklas Jakob、Iryna Gurevych。 0.66
2010. Sentence and expression level annotation of In Proceedopinions in user-generated discourse. 2010. ユーザ生成談話におけるIn Proceedopinionsの文と表現レベルアノテーション 0.81
ings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 575–584, Uppsala, Sweden. 第48回計算言語学会年次大会(スウェーデン・ウプサラ, 575–584ページ)に出席。 0.61
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Bo Wang, Maria Liakata, Arkaitz Zubiaga, and Rob Procter. Bo Wang、Maria Liakata、Arkaitz Zubiaga、Rob Procter。 0.66
2017. TDParse: Multi-target-specific sentiment recognition on twitter. 2017. tdparse: twitter上のマルチターゲット特有の感情認識。 0.74
In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, pages 483–493, Valencia, Spain. the european chapter of the association for computational linguistics: volume 1, long papers, pages 483–493, valencia (スペイン語) 0.58
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Janyce Wiebe, Theresa Wilson, and Claire Cardie. Janyce Wiebe、テレサ・ウィルソン、クレア・カーディ。 0.62
2005. Annotating expressions of opinions and emotions in language. 2005. 言語における意見と感情の表現。 0.81
Language Resources and Evaluation (formerly Computers and the Humanities), 39(2/3):164–210. 言語資源と評価(旧コンピュータと人文科学) 39(2/3):164–210。 0.87
英語(論文から抽出)日本語訳スコア
Appendix Appendix A Additional tables Appendix Appendixの追加テーブル 0.80
英語(論文から抽出)日本語訳スコア
[CLS] FIRST MEAN MAX MAXMM [CLS]FIRST MEANMAXMAX MAXMM 0.64
MPQA DS. Services DS. MPQA DS。 サービスDS。 0.75
Unis Challenge 84.3 (0) 63.5 (2) 84.4 (1) 64.3 (2) 84.4 (1) 63.5 (2) 81.4 (1) 60.8 (4) 59.3 (2) 81.3 (1) Unis Challenge 84.3 (0) 63.5 (2) 84.4 (1) 64.3 (2) 84.4 (1) 63.5 (2) 81.4 (1) 60.8 (4) 59.3 (2) 81.3 (1) 0.80
57.3 (1) 57.8 (1) 57.3 (1) 58.2 (1) 57.8 (1) 57.3 (1) 57.8 (1) 57.3 (1) 58.2 (1) 57.8 (1) 0.80
57.6 (4) 58.7 (4) 60.2 (4) 57.8 (3) 55.2 (3) 57.6 (4) 58.7 (4) 60.2 (4) 57.8 (3) 55.2 (3) 0.80
Open SemEval R. SemEval L. TDParse 48.8 (1) 46.6 (1) 46.1 (1) 49.0 (3) 48.5 (5) Open SemEval R. SemEval L. TDParse 48.8 (1) 46.6 (1) 46.1 (1) 49.0 (3) 48.5 (5) 0.81
72.8 (1) 74.3 (1) 72.8 (1) 74.5 (2) 74.5 (1) 72.8 (1) 74.3 (1) 72.8 (1) 74.5 (2) 74.5 (1) 0.80
54.6 (1) 55.6 (2) 56.8 (3) 61.4 (5) 60.2 (5) 54.6 (1) 55.6 (2) 56.8 (3) 61.4 (5) 60.2 (5) 0.80
74.1 (2) 75.6 (1) 74.1 (2) 73.9 (2) 77.2 (1) 74.2 (2) 77.1 (1) 74.2 (2) 75.0 (2) 75.6 (2) 74.1 (2) 75.6 (1) 74.1 (2) 73.9 (2) 77.2 (1) 74.2 (2) 77.1 (1) 74.2 (2) 75.0 (2) 75.6 (2) 0.79
72.1 (2) 76.3 (1) 73.0 (2) 76.5 (1) 75.9 (2) 72.1 (2) 76.3 (1) 73.0 (2) 76.5 (1) 75.9 (2) 0.80
73.6 (3) 70.8 (3) 73.6 (3) 74.8 (2) 74.8 (1) 73.6 (3) 70.8 (3) 73.6 (3) 74.8 (2) 74.8 (1) 0.80
73.6 (1) 74.8 (1) 73.6 (1) 75.5 (2) 73.8 (3) 73.6 (1) 74.8 (1) 73.6 (1) 75.5 (2) 73.8 (3) 0.80
72.0 (1) 74.9 (3) 72.0 (1) 75.3 (2) 75.4 (2) 72.0 (1) 74.9 (3) 72.0 (1) 75.3 (2) 75.4 (2) 0.80
69.8 (1) 72.8 (2) 69.8 (1) 71.5 (4) 73.4 (3) 69.8 (1) 72.8 (2) 69.8 (1) 71.5 (4) 73.4 (3) 0.80
71.5 (1) 74.9 (2) 71.5 (1) 74.8 (2) 73.5 (4) 71.5 (1) 74.9 (2) 71.5 (1) 74.8 (2) 73.5 (4) 0.80
72.2 (1) 73.9 (2) 72.2 (1) 74.7 (1) 75.2 (1) 72.2 (1) 73.9 (2) 72.2 (1) 74.7 (1) 75.2 (1) 0.80
72.2 (1) 74.8 (1) 72.4 (1) 74.5 (1) 73.2 (2) 72.2 (1) 74.8 (1) 72.4 (1) 74.5 (1) 73.2 (2) 0.80
72.8 (1) 72.9 (2) 72.8 (1) 71.0 (1) 74.2 (1) 72.8 (1) 72.9 (2) 72.8 (1) 71.0 (1) 74.2 (1) 0.80
73.2 (1) 74.2 (1) 73.2 (1) 73.7 (3) 73.9 (1) 73.2 (1) 74.2 (1) 73.2 (1) 73.7 (3) 73.9 (1) 0.80
73.0 (1) 74.9 (0) 73.0 (1) 74.6 (2) 74.8 (1) 73.0 (1) 74.9 (0) 73.0 (1) 74.6 (2) 74.8 (1) 0.80
71.0 (1) 73.0 (1) 71.0 (1) 71.8 (2) 73.0 (1) 71.0 (1) 73.0 (1) 71.0 (1) 71.8 (2) 73.0 (1) 0.80
72.9 (1) 74.0 (1) 72.9 (1) 74.5 (2) 72.7 (2) 72.9 (1) 74.0 (1) 72.9 (1) 74.5 (2) 72.7 (2) 0.80
47.5 (2) 45.2 (1) 47.5 (2) 48.5 (2) 45.8 (4) 47.5 (2) 45.2 (1) 47.5 (2) 48.5 (2) 45.8 (4) 0.80
49.4 (2) 45.4 (2) 49.8 (2) 48.1 (3) 49.5 (4) 49.4 (2) 45.4 (2) 49.8 (2) 48.1 (3) 49.5 (4) 0.80
48.1 (3) 44.4 (1) 48.1 (3) 46.9 (2) 47.0 (4) 50.6 (1) 43.8 (1) 50.6 (1) 47.2 (3) 49.2 (4) 48.1 (3) 44.4 (1) 48.1 (3) 46.9 (2) 47.0 (4) 50.6 (1) 43.8 (1) 50.6 (1) 47.2 (3) 49.2 (4) 0.79
49.4 (1) 46.1 (2) 49.4 (1) 49.7 (3) 49.8 (4) 49.4 (1) 46.1 (2) 49.4 (1) 49.7 (3) 49.8 (4) 0.80
50.0 (1) 45.4 (2) 50.0 (1) 49.5 (4) 51.4 (2) 50.0 (1) 45.4 (2) 50.0 (1) 49.5 (4) 51.4 (2) 0.80
50.2 (1) 46.2 (0) 50.2 (1) 49.5 (4) 45.8 (5) 50.2 (1) 46.2 (0) 50.2 (1) 49.5 (4) 45.8 (5) 0.80
l a n i g i r o l a n i g i r o 0.85
A Q P M s n o i s s e r p x E d e t c i d e r P A Q P M s n o i s s e r p x e e d e t c i d e r p 0.85
s n o i s s e r p x E n o c i x e L s n o i s s e r p x E n o c i x e L 0.85
60.3 (2) [CLS] 61.6 (2) FIRST 60.3 (2) MEAN MAX 59.1 (2) MAXMM 56.2 (5) 60.3 (2) [CLS] 61.6 (2) FIRST 60.3 (2) MEAN MAX 59.1 (2) MAXMM 56.2 (5) 0.87
e c i v r e S e c i v r e S 0.85
63.6 (1) s [CLS] 61.3 (2) FIRST 64.1 (2) MEAN MAX 61.4 (1) MAXMM 58.5 (2) 63.6 (1) s [CLS] 61.3 (2) FIRST 64.1 (2) MEAN MAX 61.4 (1) MAXMM 58.5 (2) 0.87
S D . s i n U S D . s i n U 0.85
. S D u i L u H . S D u i L u H 0.85
C R N l a C o S C R N l a C o S 0.85
63.1 (1) [CLS] 64.1 (2) FIRST 62.3 (1) MEAN MAX 59.6 (4) MAXMM 59.8 (3) 63.1 (1) [CLS] 64.1 (2) FIRST 62.3 (1) MEAN MAX 59.6 (4) MAXMM 59.8 (3) 0.87
60.3 (2) [CLS] 61.2 (2) FIRST MEAN 60.3 (2) MAX 59.7 (3) MAXMM 60.8 (3) 60.3 (2) [CLS] 61.2 (2) FIRST MEAN 60.3 (2) MAX 59.7 (3) MAXMM 60.8 (3) 0.87
[CLS] FIRST MEAN MAX MAXMM [CLS]FIRST MEANMAXMAX MAXMM 0.64
64.0 (2) 63.7 (2) 64.0 (2) 61.1 (3) 59.5 (3) 64.0 (2) 63.7 (2) 64.0 (2) 61.1 (3) 59.5 (3) 0.80
63.2 (2) [CLS] 61.8 (2) FIRST 63.2 (2) MEAN MAX 59.2 (2) MAXMM 59.7 (2) 63.2 (2) [CLS] 61.8 (2) FIRST 63.2 (2) MEAN MAX 59.2 (2) MAXMM 59.7 (2) 0.87
l g o o G 62.6 (3) e [CLS] 62.1 (1) FIRST 62.6 (3) MEAN MAX 60.0 (3) MAXMM 60.6 (4) l g o o G 62.6 (3) e [CLS] 62.1 (1) FIRST 62.6 (3) MEAN MAX 60.0 (3) MAXMM 60.6 (4) 0.86
l a C o S 57.0 (1) 57.0 (2) 57.0 (1) 58.1 (0) 58.1 (1) l a C o S 57.0 (1) 57.0 (2) 57.0 (1) 58.1 (0) 58.1 (1) 0.82
56.3 (1) 54.5 (0) 56.0 (0) 56.7 (1) 57.1 (1) 56.3 (1) 54.5 (0) 56.0 (0) 56.7 (1) 57.1 (1) 0.80
57.0 (1) 56.9 (1) 57.0 (1) 57.8 (1) 57.5 (1) 57.0 (1) 56.9 (1) 57.0 (1) 57.8 (1) 57.5 (1) 0.80
56.2 (1) 55.0 (1) 56.2 (1) 57.2 (1) 57.1 (1) 56.2 (1) 55.0 (1) 56.2 (1) 57.2 (1) 57.1 (1) 0.80
56.9 (1) 56.9 (1) 56.9 (1) 58.0 (1) 57.6 (1) 56.9 (1) 56.9 (1) 56.9 (1) 58.0 (1) 57.6 (1) 0.80
56.6 (1) 53.7 (2) 56.6 (1) 57.8 (1) 56.5 (2) 56.6 (1) 53.7 (2) 56.6 (1) 57.8 (1) 56.5 (2) 0.80
56.5 (1) 56.2 (1) 56.5 (1) 57.8 (0) 57.1 (1) 56.5 (1) 56.2 (1) 56.5 (1) 57.8 (0) 57.1 (1) 0.80
61.3 (5) 59.8 (3) 61.3 (5) 57.0 (4) 52.7 (2) 61.3 (5) 59.8 (3) 61.3 (5) 57.0 (4) 52.7 (2) 0.80
60.6 (1) 59.4 (3) 60.1 (5) 55.2 (2) 54.8 (5) 60.6 (1) 59.4 (3) 60.1 (5) 55.2 (2) 54.8 (5) 0.80
60.3 (3) 58.2 (2) 59.7 (3) 53.4 (1) 52.3 (4) 60.3 (3) 58.2 (2) 59.7 (3) 53.4 (1) 52.3 (4) 0.80
60.8 (3) 61.2 (1) 60.8 (3) 56.4 (2) 55.2 (2) 60.8 (3) 61.2 (1) 60.8 (3) 56.4 (2) 55.2 (2) 0.80
63.0 (2) 61.1 (2) 63.0 (2) 55.6 (2) 56.9 (4) 63.0 (2) 61.1 (2) 63.0 (2) 55.6 (2) 56.9 (4) 0.80
60.5 (4) 59.9 (4) 60.5 (4) 54.5 (2) 55.6 (1) 60.5 (4) 59.9 (4) 60.5 (4) 54.5 (2) 55.6 (1) 0.80
60.0 (3) 60.8 (5) 60.0 (3) 55.5 (5) 54.6 (3) 60.0 (3) 60.8 (5) 60.0 (3) 55.5 (5) 54.6 (3) 0.80
83.1 (1) 83.5 (1) 83.1 (1) 82.3 (0) 81.3 (1) 83.1 (1) 83.5 (1) 83.1 (1) 82.3 (0) 81.3 (1) 0.80
82.4 (1) 82.6 (1) 82.4 (1) 80.3 (1) 80.4 (1) 82.4 (1) 82.6 (1) 82.4 (1) 80.3 (1) 80.4 (1) 0.80
82.8 (1) 82.6 (1) 82.8 (1) 80.5 (1) 80.5 (0) 82.8 (1) 82.6 (1) 82.8 (1) 80.5 (1) 80.5 (0) 0.80
82.8 (1) 82.3 (1) 82.8 (1) 81.0 (1) 80.8 (1) 82.8 (1) 82.3 (1) 82.8 (1) 81.0 (1) 80.8 (1) 0.80
83.1 (1) 83.3 (1) 83.1 (1) 80.4 (1) 80.8 (1) 83.1 (1) 83.3 (1) 83.1 (1) 80.4 (1) 80.8 (1) 0.80
83.0 (0) 81.8 (0) 83.0 (0) 79.3 (1) 79.1 (1) 83.0 (0) 81.8 (0) 83.0 (0) 79.3 (1) 79.1 (1) 0.80
83.0 (1) 82.5 (1) 83.0 (1) 80.9 (1) 80.5 (1) 83.0 (1) 82.5 (1) 83.0 (1) 80.9 (1) 80.5 (1) 0.80
57.5 (4) 55.2 (3) 57.5 (4) 63.7 (1) 61.9 (3) 57.5 (4) 55.2 (3) 57.5 (4) 63.7 (1) 61.9 (3) 0.80
53.4 (4) 56.2 (9) 56.1 (3) 63.0 (2) 59.0 (2) 53.4 (4) 56.2 (9) 56.1 (3) 63.0 (2) 59.0 (2) 0.80
54.7 (2) 55.2 (3) 54.7 (2) 62.0 (1) 59.9 (4) 54.7 (2) 55.2 (3) 54.7 (2) 62.0 (1) 59.9 (4) 0.80
54.0 (3) 46.5 (3) 54.0 (3) 61.1 (2) 61.3 (3) 54.0 (3) 46.5 (3) 54.0 (3) 61.1 (2) 61.3 (3) 0.80
54.8 (3) 49.1 (5) 54.8 (3) 62.0 (1) 61.3 (2) 54.8 (3) 49.1 (5) 54.8 (3) 62.0 (1) 61.3 (2) 0.80
51.5 (4) 51.4 (6) 51.5 (4) 62.3 (2) 60.9 (3) 51.5 (4) 51.4 (6) 51.5 (4) 62.3 (2) 60.9 (3) 0.80
53.2 (3) 49.7 (6) 53.2 (3) 61.5 (3) 60.5 (3) 53.2 (3) 49.7 (6) 53.2 (3) 61.5 (3) 60.5 (3) 0.80
Table 5: Macro F1 scores for polarity classification of gold targets. 表5:金ターゲットの極性分類のためのマクロF1スコア。 0.83
Bold numbers indicate the best model per dataset, while blue and pink highlighting indicates an improvement or loss in performance compared to the original data (gold targets only), respectively. ボールド番号はデータセットごとに最高のモデルを示し、青とピンクのハイライトは、それぞれ元のデータ(ゴールドターゲットのみ)と比較してパフォーマンスの向上または損失を示します。 0.76
英語(論文から抽出)日本語訳スコア
% Unique % Overlap %ユニーク。 %オーバーラップ 0.73
train 85.7 36.2 35.2 33 36.3 45.5 85 23.1 train 85.7 36.2 35.2 33 36.3 45.5 85 23.1 0.53
dev 88.5 48.6 52.9 51.8 59.8 71.7 92.4 39.0 dev 88.5 48.6 52.9 51.8 59.8 71.7 92.4 39.0 0.45
test 89.2 47.5 45.0 41.7 49.4 64.8 87.1 39.7 test 89.2 47.5 45.0 41.7 49.4 64.8 87.1 39.7 0.45
train-dev 15 45.0 58.5 57.4 56.4 48.9 23 54.1 train-dev 15 45.0 58.5 57.4 56.4 48.9 23 54.1 0.49
train-test 19 35.6 47.6 47.3 33.8 33.7 24 52 train-test 19 35.6 47.6 47.3 33.8 33.7 24 52 0.53
MPQA DS. Services DS. MPQA DS。 サービスDS。 0.75
Uni TDParse SemEval R. SemEval L. Open Challenge Uni TDParse SemEval R. SemEval L. Open Challenge 0.96
Table 6: Analysis of targets in the datasets. 表6:データセット内のターゲットの分析。 0.81
% Unique describes the number of targets that are found only in that split. % Uniqueは、その分割でのみ見つかるターゲットの数を記述している。 0.83
% Overlap describes the percentage of dev/test targets that are found in the train set. % オーバーラップは、列車セットで見つかった開発/テストターゲットの割合を示しています。 0.68
We disregard partial matches, e.g., “chinese food” and “food”. 我々は、部分的なマッチ、例えば「鶏肉」と「食物」を無視する。 0.69
d MPQA e n i a r t d MPQA E n i a r t 0.80
DS. Services DS. DS。 サービスDS。 0.75
Unis s HuLiu NRC SoCal SoCal Google 大学 s HuLiu NRC SoCal SoCal Google 0.63
n o c i x e l n o c i x e l 0.85
MPQA DS. Services DS. MPQA DS。 サービスDS。 0.75
Unis 2.2 (1.2) 14.9 (1.2) 18.5 (1.5) 16.0 9.0 13.8 11.4 Unis 2.2 (1.2) 14.9 (1.2) 18.5 (1.5) 16.0 9.0 13.8 11.4 0.56
1.0 (0.8) 47.9 (7.3) 10.9 (1.5) 17.9 7.4 13.2 13.2 1.0 (0.8) 47.9 (7.3) 10.9 (1.5) 17.9 7.4 13.2 13.2 0.54
15.0 (1.7) 0.9 (0.3) 1.4 (0.6) 4.7 3.3 2.4 1.0 15.0 (1.7) 0.9 (0.3) 1.4 (0.6) 4.7 3.3 2.4 1.0 0.54
Table 7: Token-level macro F1 scores for expression prediction models (trained) and lexicon expressions (lexicons) when tested on the three fine-grained datasets (x-axis). 表7: トークンレベルのマクロf1スコア 3つのきめ細かいデータセット(x軸)でテストされた式予測モデル(トレーニング)とレキシコン式(レキシコン)。 0.68
The trained model scores are the average and standard deviation across five runs with different random seeds. トレーニングされたモデルスコアは、ランダムシードの異なる5つのランの平均と標準偏差である。 0.69
The lexicon models are deterministic and therefore only have a single score. 辞書モデルは決定論的であるため、単一のスコアしか持たない。 0.68
英語(論文から抽出)日本語訳スコア
Appendix B Training details Appendix B トレーニングの詳細 0.94
GPU Infrastructure CPU Infrastructure GPUインフラストラクチャ CPU インフラストラクチャ 0.72
Number of search trials Domain training duration サーチトライアルの回数 ドメイントレーニング期間 0.64
Extraction fine-tuning duration Classification fine-tuning duration 抽出微調整期間分類微調整期間 0.64
Model implementation 1 NVIDIA P100, 16 GiB RAM Intel Xeon-Gold 6126 2.6 GHz モデル実装 1 NVIDIA P100, 16 GiB RAM Intel Xeon-Gold 6126 2.6 GHz 0.79
50 2580 sec 15381 sec 9080 sec 50 2580 sec 15381 sec 9080 sec 0.85
https://github.com/b linded/for/review https://github.com/b linded/for/review 0.34
early stopping Hyperparameter number of epochs max. 早期 止まる Hyperparameter number of epochs max (英語) 0.72
sequence length metric monitored batch size sentiment dropout learning rate optimiser fine-tuning learning rate learning rate warmup proportion regularisation type regularisation value シーケンス長メトリック監視バッチサイズ 感情ドロップアウト学習率オプティマイザー 微調整学習率学習率ウォームアップ正規化型正規化値 0.77
Assignment 50 128 validation loss 第50条 128 検証損失 0.79
32 0.3 Bert Adam 3e-5 0.1 32 0.3 Bert Adam 3e-5 0.1 0.59
L2 0.01 L2 0.01 0.59
                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。