論文の概要、ライセンス

# (参考訳) Swords: データカバレッジと品質を改善した語彙置換のためのベンチマーク [全文訳有]

Swords: A Benchmark for Lexical Substitution with Improved Data Coverage and Quality ( http://arxiv.org/abs/2106.04102v1 )

ライセンス: CC BY 4.0
Mina Lee, Chris Donahue, Alexander Iyabor, Robin Jia, Percy Liang(参考訳) 語彙置換のための新しいベンチマークを新たにリリースし、コンテキスト内でターゲット単語の適切な代用語を見つける。 人間が書くのを助けるために、語彙置換システムは、人間が簡単に考えられない単語を提案できる。 しかし、既存のベンチマークは、唯一のデータソースとして人間のリコールに依存するため、ヒトにとって最も役立つ代替品のカバレッジが欠落している。 さらにアノテータは、与えられた文脈では実際には適切でない低品質の代用品を提供することが多い。 語彙置換を分類問題とすることで高いカバレッジと高品質のデータを収集し、記憶から判断するよりも、人間が候補代替品の適切性を判断し易いという直感に導かれる。 この目的のために、文脈自由シソーラスを用いて候補を生成し、文脈的適切性を決定するために人間の判断に頼る。 これまでの最大のベンチマークと比べて、剣のベンチマークは、同じレベルの品質で1語あたり4.1倍の代替品があり、その代替品は同じ数の代替品に対して(人間の判断に基づいて)1.5倍適している。

We release a new benchmark for lexical substitution, the task of finding appropriate substitutes for a target word in a context. To assist humans with writing, lexical substitution systems can suggest words that humans cannot easily think of. However, existing benchmarks depend on human recall as the only source of data, and therefore lack coverage of the substitutes that would be most helpful to humans. Furthermore, annotators often provide substitutes of low quality, which are not actually appropriate in the given context. We collect higher-coverage and higher-quality data by framing lexical substitution as a classification problem, guided by the intuition that it is easier for humans to judge the appropriateness of candidate substitutes than conjure them from memory. To this end, we use a context-free thesaurus to produce candidates and rely on human judgement to determine contextual appropriateness. Compared to the previous largest benchmark, our Swords benchmark has 4.1x more substitutes per target word for the same level of quality, and its substitutes are 1.5x more appropriate (based on human judgement) for the same number of substitutes.
公開日: Tue, 8 Jun 2021 04:58:29 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
SWORDS : A Benchmark for Lexical Substitution SWORDS 語彙置換のベンチマーク 0.66
with Improved Data Coverage and Quality データカバレッジと品質が向上し 0.87
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 2 0 1 4 0 1 v 2 0 1 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Mina Lee* Chris Donahue* ミナ・リー* Chris Donahue* 0.72
Robin Jia Stanford University ロビン・ジア スタンフォード大学 0.57
Alexander Iyabor アレクサンドル・イヤボル 0.47
Percy Liang Percy Liang 0.85
{minalee, cdonahue, robinjia, aiyabor, pliang}@cs.stanford.edu minalee, cdonahue, robinjia, aiyabor, pliang}@cs.stanford.edu 0.84
Abstract We release a new benchmark for lexical substitution, the task of finding appropriate substitutes for a target word in a context. 概要 語彙置換のための新しいベンチマークを新たにリリースし、コンテキスト内でターゲット単語の適切な代用語を見つける。 0.55
To assist humans with writing, lexical substitution systems can suggest words that humans cannot easily think of. 人間が書くのを助けるために、語彙置換システムは、人間が簡単に考えられない単語を提案できる。 0.68
However, existing benchmarks depend on human recall as the only source of data, and therefore lack coverage of the substitutes that would be most helpful to humans. しかし、既存のベンチマークは、唯一のデータソースとして人間のリコールに依存するため、ヒトにとって最も役立つ代替品のカバレッジが欠落している。 0.61
Furthermore, annotators often provide substitutes of low quality, which are not actually appropriate in the given context. さらにアノテータは、与えられた文脈では実際には適切でない低品質の代用品を提供することが多い。 0.55
We collect higher-coverage and higher-quality data by framing lexical substitution as a classification problem, guided by the intuition that it is easier for humans to judge the appropriateness of candidate substitutes than conjure them from memory. 語彙置換を分類問題とすることで高いカバレッジと高品質のデータを収集し、記憶から判断するよりも、人間が候補代替品の適切性を判断し易いという直感に導かれる。 0.73
To this end, we use a contextfree thesaurus to produce candidates and rely on human judgement to determine contextual appropriateness. この目的のために、文脈自由シソーラスを用いて候補を作成し、文脈的適切性を決定するために人間の判断に頼る。 0.58
Compared to the previous largest benchmark, our SWORDS benchmark has 4.1x more substitutes per target word for the same level of quality, and its substitutes are 1.5x more appropriate (based on human judgement) for the same number of substitutes. 以前の最大のベンチマークと比較すると、SWORDSベンチマークは、同じ品質の単語に対して、ターゲットワード当たり4.1倍の代替品を持ち、その代替品は、同じ数の代用品に対して1.5倍(人間の判断に基づく)適当である。 0.58
1 Introduction Imagine you are writing the message “I read an amazing paper today” to a colleague, but you want to choose a more descriptive adjective to replace “amazing.” At first you might think of substitutes like “awesome” and “great,” but feel that these are also unsatisfactory. 1 はじめに 同僚に"i read a amazing paper today" というメッセージを書いているとしますが、"amazing" の代わりにもっと記述的な形容詞を選びたいと思います。"awesome" や "great" といった代用語を思い浮かべるかも知れませんが、これも不十分だと感じています。 0.66
You turn to a thesaurus for inspiration, but among reasonable alternatives like “incredible” and “fascinating” are words like “prodigious” which do not quite fit in your context. インスピレーションのためのシソーラスに目を向けるが、”incredible” や “fascinating” のような合理的な代替語の中には、“prodigious” のような言葉がある。 0.73
Ultimately, you choose to go with “fascinating,” but reaching this decision required a non-trivial amount of time and effort. を選ぶが、この決定を下すには、それほど多くの時間と労力が必要だった。
訳抜け防止モード: 究極的には、あなたは”augmented, ”で行くことを選ぶ。 しかし、この決定には膨大な時間と労力が必要だった。
0.54
*Equal contribution. lexical ※同等の貢献。 lexical 0.75
Research on lexical substitution (McCarthy, 2002; McCarthy and Navigli, 2007; Erk and Padó, 2008; Szarvas et al , 2013; Kremer et al , 2014; Melamud et al , 2015; Hintz and Biemann, 2016; Zhou et al , 2019; Arefyev et al , 2020) considers the task of replacing a target word in context with appropriate substitutes. 語彙置換の研究(McCarthy, 2002; McCarthy and Navigli, 2007; Erk and Padó, 2008; Szarvas et al , 2013; Kremer et al , 2014; Melamud et al , 2015; Hintz and Biemann, 2016; Zhou et al , 2019; Arefyev et al , 2020)では、目的語を適切な代用語に置き換える作業が検討されている。 0.85
There are two widely-used English benchmarks for this task: SEMEVAL (McCarthy and Navigli, 2007) and COINCO (Kremer et al , 2014). SEMEVAL (McCarthy and Navigli, 2007) と COINCO (Kremer et al , 2014) である。
訳抜け防止モード: このタスクには2つの広く使われている英語のベンチマークがある。 そして Navigli, 2007 ) と COINCO (Kremer et al, 2014 )。
0.68
For both benchmarks, data was collected by asking human annotators to think of substitutes from memory. どちらのベンチマークも、メモリから代用物を考えるように人間に指示することで、データは収集された。
訳抜け防止モード: どちらのベンチマークもデータが収集され 人間のアノテータに記憶から代替物を考えるように頼みます
0.56
Because substitution was originally proposed as a means for evaluating word sense disambiguation systems (McCarthy, 2002), this data collection strategy was designed to avoid a bias towards any particular word sense inventory. 2002年のMcCarthyでは,単語感覚の曖昧さを評価する手段として置換法が提案されていたため,このデータ収集戦略は特定の単語感覚の在庫に対するバイアスを避けるために設計された。 0.71
In this work, we consider a different use case for lexical substitution: writing assistance. 本研究では, 語彙置換の異なるユースケースとして, 筆記支援について考察する。 0.55
For this use case, we are interested in evaluating a system’s ability to produce appropriate substitutes that are likely to be difficult for humans to think of. このユースケースでは、人間が考えることが難しい可能性のある適切な代替物を作るシステムの能力を評価することに興味があります。 0.71
We show that the data collection strategy used in past benchmarks yields low coverage of such uncommon substitutes—for our previous example, they might contain words like “awesome” and “great,” but miss words like “incredible” and “fascinating.” Furthermore, we observe that these benchmarks have low quality, containing words like “fun,” which are easy to think of, but not quite appropriate in context. 過去のベンチマークで使用したデータ収集戦略は、このような珍しい代替品のカバレッジが低いことを示しています。前例では、"awesome"や"Great"といった単語を含むかも知れませんが、"incredible"や"fascinating"のような単語を見逃します。さらに、これらのベンチマークは品質が低く、"fun"のような単語を含んでいることが分かりました。 0.63
We present SWORDS—the Stanford Word Substitution Benchmark—an English lexical substitution benchmark that raises the bar for both coverage and quality (Table 1). スタンフォード語置換ベンチマーク(stanford word replacement benchmark)は、英語の字体置換ベンチマークで、音域と音質の両方の基準を上げます(表1)。
訳抜け防止モード: SWORDS(Stanford Word Substitution Benchmark)は、英語の語彙置換ベンチマークである。 カバレッジと品質の両方のバーを上げる(表1)。
0.66
We collect SWORDS by asking human annotators to judge whether a given candidate word is an appropriate substitute for a target word in context, following the intuition that judging a given substitute is easier than producing that same substitute from memory. 我々は,人間のアノテータに対して,ある候補単語が対象単語の適切な代用であるかどうかを,同じ代用単語をメモリから生成するよりも判断し易いという直感に従い,SWORDSを収集する。 0.76
To bootstrap a set of candidates for humans to annotate, we 人間に注釈を付けるための一連の候補をブートストラップする 0.65
英語(論文から抽出)日本語訳スコア
Context COINCO Thesaurus 文脈 Coinco Thesaurus 0.63
SWORDS My favorite thing about her is her straightforward honesty. SWORDS 彼女の好きなところは正直なことです。 0.74
candid (3), artless (1), blunt (1), complete (1), direct (1), forthright (1), frank (1), outspoken (1), plainspoken (1), truthful (1), unreserved (1) aboveboard, apparent, barefaced, candid, clear, clear-cut, direct, distinct, easy, elementary, evident, forthright, frank, genuine, guileless, honest, honorable, just, laid on the line, level, like it is, manifest, ... 32 more sincere (80%), genuine (80%), frank (70%), candid (70%), direct (70%), forthright (70%), uncomplicated (60%), up front (60%), clear-cut (60%), clear (60%), plainspoken (60%), complete (50%), straight-arrow (50%), honest (50%), open (50%), blunt (50%), outspoken (50%), truthful (50%), plaindealing (40%), undisguised (40%), unvarnished (40%), unreserved (40%), barefaced (40%), unequivocal (30%), upright (30%), simple (30%), veracious (30%), unconcealed (30%), like it is (30%), squareshooting (20%), upstanding (20%), undissembled (20%), manifest (20%), unambiguous (20%), pretenseless (20%), level (10%), laid on the line (10%), honorable (10%), guileless (10%), ... 20 more with 0% candid (3), artless (1), blunt (1), complete (1), direct (1), forthright (1), frank (1), outspoken (1), plainspoken (1), truthful (1), unreserved (1) aboveboard, apparent, barefaced, candid, clear, clear-cut, direct, distinct, easy, elementary, evident, forthright, frank, genuine, guileless, honest, honorable, just, laid on the line, level, like it is, manifest, ... 32 more sincere (80%), genuine (80%), frank (70%), candid (70%), direct (70%), forthright (70%), uncomplicated (60%), up front (60%), clear-cut (60%), clear (60%), plainspoken (60%), complete (50%), straight-arrow (50%), honest (50%), open (50%), blunt (50%), outspoken (50%), truthful (50%), plaindealing (40%), undisguised (40%), unvarnished (40%), unreserved (40%), barefaced (40%), unequivocal (30%), upright (30%), simple (30%), veracious (30%), unconcealed (30%), like it is (30%), squareshooting (20%), upstanding (20%), undissembled (20%), manifest (20%), unambiguous (20%), pretenseless (20%), level (10%), laid on the line (10%), honorable (10%), guileless (10%), ... 20 more with 0% 0.66
Table 1: We consider lexical substitution, the task of finding appropriate substitutes for a target word in context. 表1: 語彙置換は、文脈における目的語に対する適切な代用語を見つけるタスクである。 0.73
In COINCO (the previous largest benchmark), humans are asked to think of substitutes from memory and result in low coverage (the number of annotators who produced each substitute is shown in parentheses; out of six annotators). COINCO(以前の最大のベンチマーク)では、人間がメモリの代替品を考え、低カバレッジをもたらす(それぞれの代替品を作成したアノテータの数は括弧に示され、6つのアノテータのうちの1つ)。 0.64
On the other hand, looking up the target word in a thesaurus has higher coverage, but low quality, because it does not consider the context. 一方,シソーラスにおける対象単語の検索は,文脈を考慮しないため,高いカバレッジを持つが,品質は低い。 0.63
In SWORDS, we combine the best of both worlds and provide a list of substitutes that has high coverage and high quality, along with fine-grained scores for each substitute (shown in parentheses). SWORDSでは、両世界のベストを組み合わせ、高いカバレッジと高品質の代替品のリストと、それぞれの代替品(括弧に刻まれた)のきめ細かいスコアを提供する。 0.65
Substitutes with scores greater than 50% from SWORDS are bolded. SWORDSの50%以上のスコアを持つ置換者は大胆である。 0.70
look up target words in an existing context-free thesaurus (Kipfer, 2013).1 Because a thesaurus might miss substitutes that would not typically be synonymous with the target word outside of the provided context (e g “thought-provoking” for “amazing”), we also include human-proposed candidates from the previous COINCO benchmark. 既存の文脈自由 Thesaurus (Kipfer, 2013).1 Thesaurus は、提供されたコンテキストの外側のターゲット語と同義ではない代替語(例えば "thinkt-provoking&quo t; は "amazing" の "thinkt-provoking&quo t; など)を見逃す可能性があるため、以前の COINCO ベンチマークから提案された候補も含んでいる。 0.77
Determining whether a substitute is appropriate is intrinsically subjective. 代用が適切かどうかを決定することは本質的に主観的である。 0.49
To address this, we collect binary labels from up to ten annotators for each substitute, inducing a score for each substitute. これを解決するために、各置換子に対して最大10個のアノテータからバイナリラベルを収集し、置換子毎にスコアを誘導する。 0.56
In COINCO, analogous scores are derived from the number of independent annotators who thought of a substitute—hence, as we will show in Section 4, these scores tend to correspond more to ease-of-recollection than appropriateness. COINCOでは、類似のスコアは代用として考える独立したアノテータの数から導き出され、従って第4節で示すように、これらのスコアは適切性よりも緩和性に対応する傾向にある。 0.61
In contrast, scores from SWORDS correspond to appropriateness, and also allow us to explicitly trade off coverage and quality, permitting more nuanced evaluation. 対照的に、SWORDSのスコアは適切さに対応し、カバレッジと品質を明示的にトレードオフすることができ、より微妙な評価を可能にします。 0.48
Our analysis shows that compared to COINCO, SWORDS has 4.1x more substitutes per target word for the same level of quality, and its substitutes are 1.5x more appropriate based on scores for the same number of substitutes. COINCOと比較して、SWORDSは目的語当たり4.1倍の精度で品質を保ち、その代用品は同じ数の代用品のスコアに基づいて1.5倍適している。
訳抜け防止モード: 私たちの分析は COINCOと比較すると、SWORDSは同じ品質の単語に対して4.1倍の置換がある。 その代用品は 同じ数の代用品のスコアに基づいて1.5倍適しています
0.68
We demonstrate that SWORDS is a challenging benchmark by evaluating state-of-the-art lexical substitution systems and large-scale, pre-trained language models including systems based on BERT (Devlin et al , 2019; Zhou et al , 2019) and GPT-3 (Brown et al , 2020). bert (devlin et al , 2019; zhou et al , 2019) と gpt-3 (brown et al , 2020) に基づくシステムを含む,最先端の語彙置換システムと大規模で事前学習された言語モデルを評価することにより,剣は困難なベンチマークであることを示す。 0.66
In our evaluation, we find 1Note that our use of a thesaurus makes SWORDS less appropriate for the original use case for lexical substitution: evaluating word sense disambiguation systems. 私たちの評価では 1 語彙置換におけるSWORDSの使用は,単語感覚の曖昧さを評価するという本来のユースケースに適さない。 0.70
that humans substantially outperform all existing systems, suggesting that lexical substitution can be used as a downstream language understanding task for pre-trained models. 人間は既存の全てのシステムを大幅に上回り、語彙置換が事前訓練されたモデルの下流言語理解タスクとして使用できることを示唆している。 0.63
We release SWORDS publicly as a benchmark for lexical substitution, coupled with a Python library that includes previous benchmarks in a common format, standardized evaluation scripts for prescribed metrics, and reproducible re-implementations of several baselines.2 我々はSWORDSを語彙置換のベンチマークとして公開し、従来のベンチマークを共通のフォーマットで含むPythonライブラリ、所定のメトリクスの標準化された評価スクリプト、いくつかのベースラインの再現可能な再実装を含む。 0.68
2 Background We describe lexical substitution and briefly introduce two widely-used benchmarks: SEMEVAL (McCarthy and Navigli, 2007), the first benchmark, and COINCO (Kremer et al , 2014), the largest existing benchmark. 背景 第1ベンチマークであるsemeval (mccarthy and navigli, 2007) と最大の既存のベンチマークであるcoinco (kremer et al , 2014) である。
訳抜け防止モード: 背景 語彙置換について述べるとともに,広く使われている2つのベンチマーク,semeval (mccarthy and navigli, 2007) を簡潔に紹介する。 最初のベンチマークとcoinco (kremer et al, 2014)。 現存するベンチマークで最大。
0.43
For a survey of other benchmarks, we refer readers to Kremer et al (2014), Hintz and Biemann (2016), and Miller (2016). 他のベンチマークに関する調査では、読者をkremer et al (2014)、 hintz and biemann (2016)、miller (2016)に言及している。 0.72
Lexical substitution. Lexical substitution is the task of generating a list of substitutes w(cid:48) that can replace a given target word w in a given context c (McCarthy, 2002): 語彙の置換。 語彙置換は、与えられた文脈cにおける所定の対象語wを置換できる代用語w(cid:48)のリストを生成するタスクである(McCarthy, 2002)。 0.70
(context c, target w) → [substitute w(cid:48)]. (context c, target w) → [substitute w(cid:48)]。 0.79
The context c is one or more sentences where the target word w is situated. 文脈cは、対象語wが位置する1つ以上の文である。 0.64
The target word w is one word in the context, which is either manually chosen by humans (McCarthy and Navigli, 2007) or 対象語wは文脈の1つの単語であり、人間によって手動で選択される(McCarthy and Navigli, 2007)。 0.78
2SWORDS: github.com/p-lambda/ swords All experiments reproducible on the CodaLab platform: worksheets.codalab.o rg/worksheets/ 0xc924392d555f4b4fbe e47be92e3daa0b 2SWORDS: github.com/p-lambda/ swords CodaLabプラットフォーム上で再現可能なすべての実験: worksheets.codalab.o rg/worksheets/ 0xc924392d555f4b4be4 7bee3daa0b 0.32
英語(論文から抽出)日本語訳スコア
Benchmark Contexts ベンチマークコンテキスト 0.65
Targets Substitutes Labels ターゲット 代用 ラベル 0.61
Substitutes per target (on average) 対象(平均)ごとの代替品 0.79
Total Inconceivable (score = 0%) 総 理解不能(スコア=0%) 0.62
Conceivable (score > 0%) conceivable (複数形 conceivables) 0.31
Acceptable (score > 50%) 受け入れられる (score > 50%) 0.75
SEMEVAL COINCO SWORDS COINCO (dev) SWORDS (dev) COINCO (test) SWORDS (test) 精巧なCoinco SWORDS Coinco (dev) SWORDS (dev) Coinco (test) SWORDS (test) 0.64
2010 2474 1132 1577 370 897 762 2010 2474 1132 1577 370 897 762 0.85
201 15,629 1132 10,179 370 5450 762 201 15,629 1132 10,179 370 5450 762 0.78
8025 112,742 68,683 67,814 22,978 44,928 45,705 8025 112,742 68,683 67,814 22,978 44,928 45,705 0.47
12,300 167,446 375,855 98,950 121,938 68,496 253,917 12,300 167,446 375,855 98,950 121,938 68,496 253,917 0.43
4.0 7.2 60.7 6.7 62.1 8.2 60.0 4.0 7.2 60.7 6.7 62.1 8.2 60.0 0.43
2.5* 39.3 2.2* 41.6 2.9* 38.1 2.5* 39.3 2.2* 41.6 2.9* 38.1 0.53
5.2* 21.4 5.2* 20.5 5.7* 21.9 5.2* 21.4 5.2* 20.5 5.7* 21.9 0.53
2.3* 4.1 2.5* 4.2 2.4* 4.0 2.3* 4.1 2.5* 4.2 2.4* 4.0 0.53
Table 2: Benchmark statistics for SEMEVAL, COINCO, and SWORDS. 表2: SEMEVAL、COINCO、SWORDSのベンチマーク統計。 0.71
Our benchmark contains 4.1x more conceivable substitutes (21.4) and 1.8x more acceptable substitutes (4.1) on average, compared to the previous largest benchmark COINCO. 当社のベンチマークでは,COINCOと比較すると,平均4.1倍,21.4倍,1.8倍の代替品(4.1)が採用されている。 0.58
Unlike prior benchmarks, SWORDS has inconceivable substitutes that received a score of 0 from appropriateness judgement, which are useful as challenging distractors for model evaluation. 以前のベンチマークとは異なり、SWORDSは適切な判断から0のスコアを得た非認識の代替品を持っている。 0.47
The numbers of inconceivable, conceivable, and acceptable substitutes for COINCO (numbers with *) are estimated based on the subset of COINCO used to build SWORDS and therefore received scores. SWORDSを構築するために使われるCOINCOのサブセットに基づいて、COINCO(*の数字)の非認識、認識可能、許容可能な代替品の数を推定する。 0.69
automatically selected based on the part-of-speech of the target word (Kremer et al , 2014). 対象語の一部に基づいて自動的に選択される(Kremer et al , 2014)。 0.75
The substitute w(cid:48) can be a word or phrase. 代用w(cid:48)は単語またはフレーズである。 0.72
Note that the task of lexical substitution does not consider inflection and does not involve grammar correction; all benchmarks contain lemmas as substitutes (e g “run” instead of “ran”). 語彙置換のタスクは帰納法を考慮せず、文法の修正も含まないことに注意されたい;すべてのベンチマークは補題として補題を含む(例えば、"ran"の代わりに "run")。 0.64
SEMEVAL. The first lexical substitution benchmark, SEMEVAL-2007 Task 10 (McCarthy and Navigli, 2007), contains 201 manually chosen target words. SEMEVAL 最初の語彙置換ベンチマークであるSEMEVAL-2007 Task 10 (McCarthy and Navigli, 2007)は、手動で選択された201のターゲット語を含んでいる。
訳抜け防止モード: SEMEVAL 最初の語彙置換ベンチマーク SEMEVAL-2007 Task 10 ( McCarthy and Navigli, 2007 ) 手動で選択した 201の目標語を含む。
0.63
For each target word, 10 sentences were chosen as contexts (mostly at random, but in part by hand) from the English Internet Corpus (Sharoff, 2006) and presented to five human annotators. 対象語毎に10文が、英語インターネットコーパス(sharoff, 2006)から文脈(ほとんどがランダムだが一部は手によって)として選択され、5人の注釈者に提示された。 0.68
The five annotators were instructed to produce up to three substitutes from memory as a replacement for the target word in context that “preserves the meaning of the original word.” This resulted in 12,300 labels in total with four substitutes per target word on average. 5つのアノテータは、「元の単語の意味を保存する」コンテキストにおいて、ターゲット単語の置き換えとしてメモリから最大3つの置換語を生成するように指示された。
訳抜け防止モード: 5つのアノテータは、「元の単語の意味を保存する」コンテキストにおいて、ターゲット語の代わりにメモリから最大3つの代替語を生成するように指示された。 その結果、平均して12,300のラベルと4つの代替語が与えられた。
0.65
COINCO. The previous largest lexical substitution benchmark, COINCO (Kremer et al , 2014), was constructed by first choosing 2474 contexts from the Manually Annotated Sub-Corpus (Ide et al , 2008, 2010). COINCO 以前の最大の語彙置換ベンチマークであるCOINCO (Kremer et al , 2014) は、マニュアルアノテーション付きサブコルプス (Ide et al , 2008) から2474のコンテキストを選択して構築された。 0.64
Then, all content words (nouns, verbs, adjective, and adverbs) in the sentences were selected to be target words. そして、文中のすべての内容語(名詞、動詞、形容詞、副詞)を対象語として選択する。 0.62
Each target word was presented to six human annotators, who were asked to provide up to five substitutions or mark it as unsubstitutable. それぞれの標的語は6人のアノテーターに提示され、最大5つの代替語の提供を依頼された。 0.63
All the annotators were instructed to provide (preferably single-word) substitutes for the target that “would not change the meaning.” This resulted in 167,446 labels in total and 7.2 substitu- 全ての注釈家は「意味を変えない」という目標の代用語(おそらく単語)を指示され、合計167,446のラベルと7.2の代用が得られた。 0.63
tions per target word on average.3 For the rest of the paper, we focus on COINCO (but not SEMEVAL) as our benchmark is built on COINCO and it is the largest existing benchmark. 平均.3のターゲットワードあたりのオプション 残りの論文では、COINCO(SEMEVALではなく)に焦点を当てています。
訳抜け防止モード: 平均目標語当たりのオプション3 残りの紙については、 私たちはCOINCO(SEMEVALではなく)に焦点を当てています。 現存する最大のベンチマークです
0.65
3 Our benchmark SWORDS is composed of context, target word, and substitute triples (c, w, w(cid:48)), each of which has a score that indicates the appropriateness of the substitute. 3)我々のベンチマークSWORDSは文脈,目的語,代用三重語(c, w, w(cid:48))で構成され,それぞれが代用の有効性を示すスコアを有する。 0.72
We consider a substitute to be acceptable if its score is greater than 50% (e g bolded words in Table 1) and unacceptable if the score is less than or equal to 50%. 代用詞は、そのスコアが50%以上(例えば表1の太字語)であれば許容可能であり、そのスコアが50%以下であれば受け入れられないと考える。 0.67
Similarly, a substitute with a score greater than 0% is considered conceivable, and otherwise inconceivable. 同様に、0%以上のスコアを持つ代用品は可算であり、そうでなければあり得ない。 0.58
Note that these terms are operational definitions for convenience, and different thresholds can be chosen for desired applications. これらの用語は利便性のための操作定義であり、望ましいアプリケーションに対して異なるしきい値を選択することができる。 0.67
3.1 Addressing limitations of past work Improving quality. 3.1 過去の作業の制限への対処 品質改善。 0.66
In prior work, annotators were prompted to consider whether a substitute “preserves the meaning” (McCarthy and Navigli, 2007) or “would not change the meaning” (Kremer et al , 2014) of the target word. 以前の研究では、アノテーターは、標的語の代名詞が「意味を保存する」(McCarthy and Navigli, 2007)か、「意味を変えることはない」(Kremer et al , 2014)かを検討するよう促された。 0.72
Instead, we ask annotators whether they “would actually consider using this substitute as the author of the original sentence.” We believe this wording encourages a higher standard. その代わりに、アノテーターに「この代用語を原文の著者として実際に使用することを検討するべきか」と尋ねる。
訳抜け防止モード: 代わりにアノテーターに 彼らは「この代用語を原文の著者として実際に使うことを検討する」。 私たちはこの言葉がより高い基準を促進すると信じています。
0.59
In Section 4.1, we provide evidence that substitutes from SWORDS have higher quality than those from COINCO on average. 第4節1では、SWORDSの代替品がCOINCOの代替品よりも平均よりも高品質であることを示す。 0.56
3The reported number in Kremer et al (2014) is 167,336 and 10.71, respectively. 3 Kremer et al (2014) の報告番号はそれぞれ 167,336 と 10.71 である。 0.84
The latter differs as they counted the same substitute multiple times when suggested by multiple annotators, whereas we report the number of unique substitutes. 後者は,複数アノテータが提案する場合に同じ置換数を数えるのに対して,ユニークな置換数を報告している。 0.73
We also find that scores under COINCO (i.e. また、COINCO(すなわち、COINCO)で得点する。 0.62
the number of annotators who provided a substitute) could be inflated, as at least 375 substitutes have scores greater than six (up to 21). 少なくとも375人の代用人が6点(最大21点)以上のスコアを持っているため、代用を提供する代用記号の数は膨らませることができる。 0.55
英語(論文から抽出)日本語訳スコア
Improving coverage. For prior benchmarks, annotators were asked to generate a list of substitutes from memory. カバレッジの改善。 以前のベンチマークでは、アノテータはメモリから置換子のリストを生成するように求められた。 0.57
Psycholinguistic studies have shown that when humans are asked to predict the next word of a sentence, they deviate systematically from the true corpus probabilities (Smith and Levy, 2011; Eisape et al , 2020). 心理学的な研究は、人間が文の次の単語を予測するよう求められたとき、真のコーパス確率から体系的に逸脱することが示されている(Smith and Levy, 2011; Eisape et al , 2020)。
訳抜け防止モード: 心理学的な研究は 人間は文の次の単語を 予測するよう求められます 彼らは真のコーパス確率から体系的に逸脱する(Smith and Levy, 2011 ; Eisape et al,) 2020 ) .
0.85
Thus, we may reasonably expect that asking humans to generate substitutes would similarly lead to systematic omissions of some appropriate substitutes. したがって、人間に代用品を生産するよう求めることは、同様に適切な代用品の体系的な欠落につながると、合理的に期待できる。
訳抜け防止モード: したがって、私たちはそれを合理的に期待するかもしれない。 人間に代替品を作らせれば 同様に 適切な代替品の 系統的な欠落につながる
0.51
We observe that prior benchmarks exclude many appropriate substitutes that are difficult for humans to think of (Section 4.2). 先行ベンチマークでは、人間が考えるのが難しい多くの適切な代替品が除外されている(Section 4.2)。 0.56
To address this limitation, we first obtain a set of candidate substitutes and then ask annotators to judge whether they would consider using a given candidate to replace the target word in the context. この制限に対処するために、まず、候補代用詞のセットを取得し、その後、アノテータに、コンテキスト内の対象語を置き換えるために与えられた候補を使用するかどうかを判断する。
訳抜け防止モード: この制限に対処するためです まず候補の代用品のセットを入手し 注釈を尋ねます 文脈内の対象語を置き換えるために、与えられた候補を使用するかどうかを判断する。
0.74
That is, given a context c, target word w, and candidate substitute w(cid:48), we ask humans to judge whether w(cid:48) is a good replacement for the target word: すなわち、コンテキストc、ターゲット語w、および候補語w(cid:48)が与えられた場合、w(cid:48)が対象語の適切な置換であるかどうかを判断するよう人間に求める。 0.74
(context c, target w, substitute w(cid:48)) → {0, 1}, (context c, target w, replacement w(cid:48)) → {0, 1}) 0.89
where a positive label 1 corresponds to “I would actually consider using this substitute as the author of the original sentence,” and a negative label 0 as the opposite. 正のラベル1が「この代用品を原文の作者として実際に使うことを検討する」ことに対応し、負のラベル0を反対とする。 0.77
As described in Section 3.2, we annotate a large pool of candidate substitutes to ensure high coverage of all possible substitutes. 第3.2節で述べたように、我々は候補代替物の大規模なプールに注釈を付けて、可能な全ての代替物の高いカバレッジを確保する。 0.44
We confirm that this increases coverage compared to COINCO in Section 4.2. 第4.2節のCOINCOと比較してカバー範囲が増加することが確認された。 0.51
Redefining scores to reflect appropriateness. 適性を反映してスコアを再定義する。 0.46
In past work, each substitute w(cid:48) has an associated score defined as the number of annotators who produced w(cid:48) given the associated context c and target word w. Instead, we define the score as the fraction of annotators who judged the w(cid:48) to be an appropriate replacement of w. We argue that the previous definition of score reflects ease-of-recollection , but not necessarily appropriateness. 過去の研究では、各代用 w(cid:48) は、関連する文脈 c と対象単語 w に対して w(cid:48) を生成するアノテータの数として定義される関連スコアを持ち、代わりに、w(cid:48) を w の適切な置換であると判断するアノテータの分数として定義する。 0.66
In Section 4.3, we show that our definition of score better represents the appropriateness of each substitute. 第4節3では、スコアの定義が各代用品の適性を表していることを示す。
訳抜け防止モード: 第4節3では 我々のスコアの定義は各代用品の適性を表している。
0.57
3.2 Data collection We collect substitutes and scores for a context and target word pair (c, w) via the following three steps. 3.2 データ収集 コンテキストとターゲットワードペア(c, w)の代用とスコアを以下の3ステップで収集する。 0.69
Step 1: Select contexts, targets, and substitutes. ステップ1: コンテキスト、ターゲット、置換を選択します。 0.74
We use the subset of contexts and target words from COINCO. コンテクストのサブセットとCOINCOのターゲットワードを使用します。 0.67
Concretely, we start with the (c, w) pairs in COINCO and randomly select one w per c to annotate. 具体的には、COINCO の (c, w) 対から始めて、アノテートするために c あたりの w をランダムに選択する。 0.64
Here, the context c consists of three ここで、文脈cは3つから成り立つ 0.64
sentences, where the middle sentence has the target word w (see Appendix A.1 to see how we handled duplicate contexts from COINCO). 中間文が対象語wを持つ文(coincoからの重複したコンテキストの扱い方を見るための付録a.1を参照)。 0.61
Next, we choose a set of candidate substitutes w(cid:48) to annotate for each (c, w) pair, as framing annotation as binary classification requires determining the set of candidate substitutes a priori. 次に、各 (c, w) 対にアノテートする候補置換子 w(cid:48) の集合を二項分類としてフレーミングアノテーションとして選択する。 0.62
We use human-generated substitutes from COINCO, then add substitutes from an existing context-free thesaurus, Roget’s Thesaurus (Kipfer (2013); see Appendix A.2 for details). 私たちはCOINCOの人為的な代替品を使用し、その後、既存の文脈のないシソーラス、Roget's Thesaurus(2013年)の代替品を追加します。 0.69
In principle, candidate substitutes can be retrieved from any lexical resource or even sampled from a generative model, which we leave as future work. 原則として、候補代用品は任意の語彙的リソースから取り出すか、あるいは生成モデルからサンプリングすることもできます。
訳抜け防止モード: 原則として、任意の語彙資源から候補置換体を検索できる 将来の仕事として残した 生成モデルからサンプルを採取しました
0.72
By combining candidates from COINCO and the thesaurus, we increase the coverage of acceptable substitutes. COINCOとシソーラスの候補を組み合わせることで、許容可能な代替品のカバレッジを高めることができる。 0.61
Step 2: Reduce the pool of substitutes. ステップ2:代替品のプールを減らす。 0.73
Given a list of candidate substitutes from the previous step, we collect three binary labels on each (c, w, w(cid:48)) triple (see Section 3.3 for details). 前段から代用候補のリストが与えられると、各(c, w, w(cid:48))トリプルに3つのバイナリラベルを収集します(詳細はセクション 3.3を参照)。 0.72
Then, we pass any substitute with at least one positive label to Step 3 and further collect fine-grained scores. 次に、少なくとも1つの正のラベルを持つ置換品をステップ3に渡し、さらにきめ細かいスコアを収集する。 0.63
We show that the probability that an acceptable substitute gets incorrectly filtered out as an inconceivable substitute is very low in Section 4.4. 第4節4において、許容可能な代用人が不適切な代用として誤ってフィルタされる確率が非常に低いことを示す。 0.53
Step 3: Collect fine-grained scores. ステップ3: きめ細かいスコアを収集。 0.77
In the final step, we collect seven more binary labels on the substitutes which received at least one positive label from Step 2. 最後のステップでは,第2ステップから少なくとも1つの正のラベルを受信した置換子に,さらに7つのバイナリラベルを収集する。 0.65
This yields a total of 10 binary labels for the substitutes. これにより、置換の合計10個のバイナリラベルが得られる。 0.63
3.3 Crowdsourcing We used Amazon Mechanical Turk (AMT) to crowdsource labels on substitutes. 3.3 クラウドソーシング Amazon Mechanical Turk (AMT) を使って代替品のラベルをクラウドソースしました。 0.50
Each Human Intelligence Task (HIT) contained a target word highlighted in the context and at most 10 candidate substitutes for the target word. それぞれのヒューマンインテリジェンスタスク(HIT)には、コンテキストにハイライトされたターゲットワードと、ターゲットワードの少なくとも10の候補代用が含まれていた。
訳抜け防止モード: 各ヒューマンインテリジェンスタスク(HIT)は、コンテキストにハイライトされたターゲット単語を含む。 そして少なくとも10の候補が ターゲットの単語の代用です
0.72
Each candidate substitute had three radio buttons for positive, negative, and abstain. 各候補は正、負、棄権の3つの無線ボタンを持っていた。 0.63
Annotators were asked to choose positive if they would actually consider using the substitute to replace the target word as the author of the context, negative if they would not consider using the substitute, and abstain if they do not know the meaning of the substitute. 代用語を文脈の作者に置き換えることを実際に検討するかどうか、代用語の使用を考慮しない場合は否定的に、代用語の意味を知らない場合は棄権するかどうかを、アノテーションは肯定的に選択するよう求められた。
訳抜け防止モード: アノテーターはポジティブを選ぶよう頼まれました 対象の単語をコンテキストの作者として置き換えるために代用する検討を実際に行おうとするならば。 否定する 代替品の使用を 考慮しないなら 彼らは代役の意味を知らない。
0.71
We treated all abstain labels (1.2% of total labels) as negative labels, thereby making it binary. 全失禁ラベル(全ラベルの1.2%)を陰性ラベルとして扱い,バイナリとした。 0.77
The benchmark includes abstain labels to maintain the option for them to be handled separately (e g excluded) in the future. ベンチマークには、将来別々に(例えば除外された)処理するオプションを維持するためのラベルが含まれている。 0.71
The interface, instructions, qualification conditions, and filtering criteria used for crowdsourcing can be found in Appendix B. クラウドソーシングに使用されるインターフェース、指示、資格条件、フィルタリング基準は、Appendix Bで見ることができる。 0.61
英語(論文から抽出)日本語訳スコア
Context with target word Substitute 目的語による文脈 代用 0.55
COINCO’s score COINCOのスコア 0.59
SWORDS’s score SWORDSのスコア 0.59
Listen, man, he’s not there! 聞いて、彼はそこにいない! 0.68
We might have a lot of work ahead of us. 我々の前に多くの仕事があるかもしれない。 0.80
She was heading for a drink and slipped out of the crowd. 彼女は飲み物を飲みに行き、群衆から抜け出した。 0.72
kid bit look kid bit look ♪ 0.76
The e-commerce free zone is situated in north Dubai. 電子商取引自由地帯はドバイ北部にある。 0.61
She will have reunions in the next few weeks. 彼女は今後数週間で再会するでしょう。 0.62
It’s very reassuring. とても安心しています。 0.73
district forthcoming extraordinarily 4 2 2 地区 近日中に 4 2 2 0.63
1 1 0 0% 0% 10% 1 1 0 0% 0% 10% 0.85
90% 60% 80% 90% 60% 80% 0.85
Table 3: Controversial examples of contexts, target words, and substitutes (lemmas) which have high scores under either COINCO or SWORDS, but not the other. 表3: COINCO または SWORDS の下で高いスコアを持つ文脈、目的語、代用語(補題)の議論例。
訳抜け防止モード: 表3 : 文脈, 対象語, の議論例 補充する(補充する) COINCOまたはSWORDSで高いスコアを持つが、他方ではない。
0.64
We consider a score to be high if it is greater than 1 for COINCO (25.3% of substitutes) and 50% for SWORDS (24.5% of substitutes). COINCO(代替品の25.3%)が1以上、SWORDS(代替品の24.5%)が50%以上である場合、スコアが高いとみなす。 0.71
The contexts are simplified for readability. コンテキストは可読性のためにシンプルです。 0.56
4 Data analysis Table 2 shows overall statistics of our benchmark. 4 データ分析テーブル2は、ベンチマークの全体的な統計値を示しています。 0.59
SWORDS comprises a total of 1132 context and target word pairs (418 nouns, 442 verbs, 176 adjectives, 96 adverbs) and 68,683 total substitutes that have been labeled (including both acceptable and unacceptable substitutes). SWORDSは、合計1132の文脈と対象の単語対(418の名詞、442の動詞、176の形容詞、96の副詞)と、ラベル付けされた68,683の合計代用語(許容できない代用語と許容できない代用語の両方を含む)から構成される。 0.55
For brevity, we defer an analysis of annotator agreement to Appendix C.1. brevity については、アノテーションアグリーメントの分析を appendix c.1 に延期する。 0.62
4.1 High quality With our notion of acceptability, we first observe that 75.7% of the substitutes from COINCO4 are considered unacceptable, and 28.1% of the substitutes are even inconceivable (receiving scores less than 50% and 0% from our human annotators). 4.1 アクセシビリティの概念による品質の向上 まず、coinco4の代替品の75.7%が受け入れがたいと考えられ、28.1%が受け入れがたい(人間の注釈者から50%未満のスコアと0%)。
訳抜け防止モード: 4.1 アクセシビリティの概念による高品質 coinco4の代替品の75.7%は受け入れがたいと考えられている。 そして28.1パーセントの代替品は想像もつかないほどです()。 得点は50 %未満,0 %以下であった。
0.65
Table 3 shows examples of substitutes that received relatively high scores under COINCO, yet were considered unacceptable under SWORDS. 表3は、COINCOの下で比較的高いスコアを得た代替品の例を示しているが、SWORDSでは受け入れられなかった。 0.55
With the same size as COINCO (by taking the subset of our benchmark with the highest scoring substitutes per target), the average score of the substitutes is 50.7% for SWORDS and 34.4% for COINCO, resulting in 1.5x higher quality. COINCOと同じサイズ(我々のベンチマークのサブセットを目標当たり最高スコアの代替品とすることで)で、代用品の平均スコアはSWORDSが50.7%、COINCOが34.4%であり、それによって1.5倍高い品質が得られる。 0.61
Furthermore, SWORDS minimizes the potential noise by having fine-grained scores to account for appropriateness (Section 4.3) as well as explicit inconceivable substitutes, which is useful for evaluation (Section 5.2). また、剣は、適切な点数を考慮し、潜在的なノイズを最小限に抑える(第4条3)とともに、評価に有用な明示的な代替品(第5条2)である。 0.55
4.2 High coverage We show that SWORDS achieves high coverage. 4.2 高カバレッジ SWORDSが高カバレッジを実現することを示す。 0.54
Among the conceivable substitutes in SWORDS, 13.1% are only in COINCO (COINCO-only), 14.4% are common to both COINCO and the thesaurus (COINCO ∩ Thesaurus), and 72.5% are only from thesaurus (Thesaurus-only). SWORDSでは、13.1%がCOINCO(COINCOのみ)に、14.4%がCOINCOとthesaurus(COINCOはThesaurusのみ)に、72.5%がthesaurus(Thesaurusのみ)に限られている。 0.77
Among the acceptable substitutes in SWORDS, 21.5% are from COINCOonly, 36% are from COINCO ∩ Thesaurus, and 42.5% are from Thesaurus-only. SWORDSで許容される代替品のうち21.5%はCoINCOのみ、36%はCOINCOから、42.5%はThesaurusのみである。 0.77
This suggests that このことが示唆される。 0.44
4For this analysis, we consider COINCO’s substitutes that 4この分析では、COINCOの代替品について検討する。 0.63
are used and labeled under SWORDS. SWORDSで使用およびラベル付けされている。 0.66
a substantial number of substitutes are not present in COINCO. COINCOには相当数の置換基が存在しない。 0.71
Overall, SWORDS contains 21.4 conceivable and 4.1 acceptable substitutes per target word on average, increasing those numbers by 4.1x and 1.8x over COINCO, respectively. SWORDSは平均して21.4の許容可能な代用語と4.1の許容可能な代用語を含み、これらをそれぞれCOINCOの4.1倍と1.8倍に増やしている。 0.57
In addition, we find that substitutes from COINCO-only are more likely to be common words whereas substitutes from Thesaurus-only are more likely to be rare words. また,coincoのみの代用語の方が一般的な単語が多いのに対し,thesaurusのみの代用語は稀な単語であることが多い。 0.63
We compute the Zipf frequency (Speer et al , 2018) of each substitute based on the Google n-gram corpus (Brants and Franz, 2006) and threshold conceivable substitutes into three groups: uncommon (≤ 3.5), neutral, common (> 4.5). 我々は、Google n-gramコーパス(Brants and Franz, 2006)としきい値認識可能な置換子に基づいて、各置換体のZipf周波数(Speer et al , 2018)を、uncommon (≤ 3.5), neutral, common (> 4.5)の3つのグループに計算する。 0.73
We observe that substitutes from COINCO-only are more likely to be common words (53.1%) than those from Thesaurus-only (38.6%). コインコのみの代用語は、テッサロスのみの代用語(38.6%)よりも一般的な単語(53.1%)である可能性が高い。 0.49
On the other hand, the substitutes from Thesaurusonly tend to be more uncommon words (28.2%) than those from COINCO-only (17.6%). 一方、テサウルス語の代名詞は、COINCOのみの代名詞である(17.6%)よりも一般的ではない(28.2%)。 0.61
4.3 Reflection of appropriateness in scores We show that scores in SWORDS better reflect the appropriateness of each substitute compared to COINCO both quantitatively and qualitatively. 4.3 スコアの適切性を反映し,各代用品のスコアが量的・質的に比較して,各代用品の適性を反映していることを示す。 0.65
We consider a COINCO’s score to be high if it is greater than 1 (25.3% of substitutes) and a SWORDS’s score to be high if it is greater than 50% (24.5% of substitutes). コインコのスコアが1(代用品の25.3%)以上であれば高いものとし、50%(代用品の24.5%)以上であれば剣のスコアが高いと考える。
訳抜け防止モード: 我々は、COINCOスコアが1以上であれば高いとみなす(代替品の25.3%)。 SWORDSのスコアが高ければ高い 50%以上(代替品の24.5%)。
0.58
We find that if a substitute has a high score under COINCO, it is likely to be acceptable under SWORDS almost half of the time (47.2%). 代替品がCOINCOの下で高いスコアを持つ場合、SWORDSのほぼ半分(47.2%)で受け入れられる可能性が高い。 0.60
However, the converse does not hold: the acceptable substitutes under SWORDS have high scores under COINCO only 29.3% of the time. しかし、この逆は成立せず、SWORDS の代替品は COINCO の29.3% しかスコアが得られない。
訳抜け防止モード: しかし、逆は成り立たない : SWORDS で許容される代替品は COINCO では29.3% しかスコアが得られない。
0.70
Intuitively, this is because COINCO’s scores reflect the ease of producing the substitute from memory, whereas SWORDS’s scores reflect the appropriateness of the substitute. 直感的には、これはCOINCOのスコアがメモリから代用品を製造することの容易さを反映しているのに対して、SWORDSのスコアは代用品の適切さを反映しているからです。 0.55
Table 3 shows examples of context, target word, and substitute triples which received high scores under either COINCO or SWORDS, but did not under the other benchmark. 表3は、COINCOまたはSWORDSで高いスコアを得た文脈、ターゲットワード、代用トリプルの例を示しているが、他のベンチマークでは示されていない。 0.67
英語(論文から抽出)日本語訳スコア
that even the substitutes provided by human annotators are controvertible, and that it is important to account for the intrinsically continuous nature of appropriateness with fine-grained scores. 人間のアノテータが提供した代用物でさえ逆転可能であり、微粒なスコアで本質的に連続的な適切性を考慮することが重要である。
訳抜け防止モード: 人間のアノテータが提供する代用物でさえ そして、微妙なスコアで本質的に連続的な適切さを考慮に入れることが重要である。
0.63
5 Model evaluation In this section, we evaluate several methods on SWORDS. 5 モデル評価 この節では,SWORDS のいくつかの手法を評価する。 0.70
The goals of this evaluation are threefold: (1) to prescribe our recommended evaluation practice for SWORDS, (2) to measure performance of existing large-scale pre-trained models and stateof-the-art lexical substitution systems, and (3) to measure human performance for the purpose of comparing current and future systems. 本評価の目標は,(1)刀剣の推奨評価実践を規定すること,(2)既存の大規模事前訓練モデルと最先端の語彙置換システムの性能を測定すること,(3)現在と将来のシステムを比較するためにヒューマンパフォーマンスを測定すること,の3つである。 0.89
5.1 Evaluation settings There are two primary evaluation settings in lexical substitution research: the generative setting (McCarthy and Navigli, 2007) and the ranking setting (Thater et al , 2010). 5.1 評価設定 レキシカル代替研究においては、生成設定(McCarthy and Navigli, 2007)とランキング設定(Thater et al , 2010)の2つの主要な評価設定がある。 0.83
In the generative setting, systems output a ranked list of substitute candidates. 生成設定では、システムは置換候補のランクリストを出力する。 0.75
There are no restrictions on the number of candidates that a system may output. システムが出力する候補数に制限はない。 0.49
In the ranking setting, systems are given all substitute candidates from the benchmark (including those marked as inconceivable) and tasked with ranking them by appropriateness. ランキング設定では、システムはベンチマークから全ての代替候補を与えられる(非推奨とマークされたものを含む)。 0.58
Here, we primarily focus on the generative setting and defer our experiments on the ranking setting to Appendix D. ここでは,主に生成的設定に焦点をあて,付録dのランキング設定に関する実験を延期する。 0.71
5.2 Evaluation metrics In a writing assistance context, we envision that lexical substitution systems would be used to suggest a limited number of substitutes to users (e g 10 substitutes as opposed to 100). 5.2 書字支援コンテキストにおける評価指標として,字体置換システムは,ユーザに対して限られた数の代用を提案できると想定した(例えば,100に対して10代用)。 0.76
Hence, we consider evaluation metrics that examine the quality and coverage of the top-ranked substitutes from a system with respect to the substitutes that humans judged as acceptable (score > 50%). そこで本研究では,人間に許容される代替品について,システムから上位の代替品の品質とカバレッジを検討する評価指標を検討する(score > 50%)。 0.72
Specifically, we compute precision (P k) and recall (Rk) at k6: # acceptable substitutes in system top-k 具体的には、k6で精度(Pk)とリコール(Rk)を計算します。 0.56
P k = # substitutes in system top-k p k = #システムトップkの代用 0.75
Rk = # acceptable substitutes in system top-k Rk= システムトップkの#許容代用 0.70
min(k, # acceptable substitutes) min(k, #acceptive alternatives) 0.72
Because we care about both quality (precision) and coverage (recall) when comparing systems, we report F k, the harmonic mean of P k and Rk. システムを比較するとき、品質(精度)とカバレッジ(コール)の両方に関心があるので、p k と rk の調和平均である f k を報告する。 0.71
Likewise, we evaluate against the list of substitutes 6Note that our definition of recall at k is non-standard; the min compensates for the fact that there are often fewer than k acceptable substitutes. 同様に、置換子 6Note の一覧に対して、k でのリコールの定義が非標準であることを評価し、min は k で許容される代用子よりも少ないという事実を補う。 0.64
Figure 1: Score distribution of SWORDS’s substitutes with the source of substitutes. 図1:SWORDSの代替品と代用品の供給源のスコア分布 0.65
We find that neither COINCO nor the thesaurus completely dominates substitutions across scores, indicating the necessity of both human-generated substitutes as well as substitutes from the thesaurus. また,COINCOもthesaurusもスコア間の置換を全面的に支配せず,人為的代用とthesaurusの代用の両方の必要性が示唆された。 0.75
Substitutes with score 0% are not shown to make the bars visually distinguishable.5 スコア0%の代用品は、バーを視覚的に区別することができない。 0.53
4.4 Validation with additional data We show that the probability of an acceptable substitute falsely filtered out in Step 2 is very low. 4.4 追加データによる検証 ステップ2で誤ってフィルタされた許容代用品の確率が極めて低いことを示す。 0.81
To this end, we collected 10 additional labels on 89 context-target word pairs randomly selected from the test set, without reducing the pool of substitutes as in Step 2. この目的のために、テストセットからランダムに選択された89個のコンテキストターゲットワードペアに10個のラベルを収集し、ステップ2のように代用品のプールを削減した。 0.63
By comparing the first three labels to the entire 10 labels, we find that 33.7% of substitutes without any positive labels in Step 2 could have received one or more positive labels if they were kept in Step 3. 最初の3つのラベルを10のラベル全体と比較すると、ステップ2に正のラベルがない代用品の33.7%は、ステップ3に保持された場合、1つ以上の正のラベルを受け取ることができた。 0.71
However, we find that 99.2% of these substitutes were eventually considered unacceptable (judged by 10 labels), indicating that the probability of an acceptable substitute incorrectly filtered out in Step 2 is very low (0.8%). しかし、これらの代替品の99.2%は最終的に受け入れがたいものと考えられ(10のラベルで判断される)、ステップ2で不正に除去された代替品の確率は非常に低い(0.8%)。 0.72
4.5 Score distribution Figure 1 shows the score distribution of substitutes in SWORDS along with the source of substitutes: COINCO-only, COINCO ∩ Thesaurus, or Thesaurus-only. 4.5スコア分布 図1は、代用品の供給源であるCOINCOのみ、COINCOはシソーラスのみ、またはThesaurusのみであるSWORDSの代用品のスコア分布を示す。
訳抜け防止モード: 4.5スコア分布図1は代用品の供給源とともに代用品のスコア分布を示す。 のみ、COINCO は Thesaurus または Thesaurus である。
0.74
Across scores, neither COINCO nor thesaurus completely dominates substitutes, and the overlap between COINCO and thesaurus is quite small, thus indicating the necessity of both human-recalled substitutes as well as substitutes from a thesaurus. スコア全体では、COINCOもthesaurusも置換品を完全に支配しておらず、COINCOとthesaurusの重なり合いは極めて小さく、人為的な代替品とthesaurusの代替品の両方の必要性が示唆される。 0.72
We also find that SWORDS adds more substitutes for all the scores, although substitutes from the thesaurus tend to have a lower range of scores compared to those from COINCO. また、SWORDSは全てのスコアに代用を付加するが、シソーラスの代用品はCOINCOの代用品に比べてスコアの範囲が低い傾向にある。 0.59
Lastly, we observe that substitutes from COINCO roughly form a normal distribution, which suggests 最後に,COINCOの代替品が大まかに正規分布を形成していることが示唆される。 0.63
51691 substitutes from COINCO-only, 917 from COINCO ∩ Thesaurus, and 41817 from Thesaurus-only received a score of 0%. 51691 は COINCO のみ、917 は COINCO は Thesaurus から、41817 は Thesaurus のみから 0% のスコアを得た。 0.76
10%20%30%40%50%60%70 %80%90%100%Score0100 02000300040005000Num ber of substitutesSource of substitutesThesaurus -onlyBoth CoInCo and ThesaurusCoInCo-only 10%20%50%50%50%50%70 %70%90%90%90%Score01 000200030005000Numbe r of alternatives Thesaurus-onlyBothCo InCo and ThesaurusCoInCo-only 0.88
英語(論文から抽出)日本語訳スコア
which humans judged as conceivable (score > 0%). 人間が知覚できると判断した(スコア > 0%)。 0.72
c constitute precision and recall of sysc and Rk P k tems against this larger candidate list, and F k c their harmonic mean. c はsysc と rk p k tem のこのより大きな候補リストに対する精度とリコールを示し、f k c は調和平均となる。 0.74
Motivated by past work (McCarthy and Navigli, 2007), we primarily examine performance for k = 10 and lemmatize systemgenerated substitutes before comparison.7 我々は過去の研究(mccarthy and navigli, 2007)に動機づけられ、主にk = 10 と lemmatize system generated replacements のパフォーマンスを調べている。 0.72
We note that these metrics represent a departure from standard lexical substitution methodology, established by McCarthy and Navigli (2007). これらの指標は、mccarthy and navigli (2007) によって確立された標準語彙置換法からの逸脱を示している。 0.62
Like P k and Rk, the previously-used BEST and OOT metrics are also measures of precision and recall, but are not designed to take advantage of inconceivable substitutes as no such explicit negative substitutes existed in the earlier benchmarks. Pk や Rk と同様に、以前使用されていた BEST と OOT のメトリクスも精度とリコールの尺度であるが、以前のベンチマークではそのような明示的な負の代用が存在しないため、決定不能な代用を利用するように設計されていない。 0.53
Nevertheless, we report performance of all systems on these metrics in Appendix E as reference. それにもかかわらず、Appendix Eにおけるこれらのメトリクスに関する全てのシステムの性能を参考に報告する。 0.58
5.3 Baselines We evaluate both state-of-the-art lexical substitution systems and large-scale pre-trained models as baselines on SWORDS. 5.3ベースライン SWORDSのベースラインとして,最先端の語彙置換システムと大規模事前学習モデルの両方を評価した。 0.58
We reimplement the BERTbased lexical substitution system (BERT-LS) from Zhou et al (2019), which achieves state-ofthe-art results on past benchmarks. Zhou et al (2019) からBERTベースの語彙置換システム (BERT-LS) を再実装し、過去のベンチマークで最先端の結果を得た。 0.53
As another lexical substitution system, we examine WORDTUNE (AI21, 2020), a commercial system which offers lexical substitution capabilities.8 その他の語彙置換システムとして、語彙置換機能を備えた商業システムWORDTUNE(AI21, 2020)を検討する。 0.63
We also examine two large-scale pre-trained models adapted to the task of lexical substitution: BERT (Devlin et al , 2019) and GPT-3 (Brown et al , 2020). また,語彙置換作業に適応した大規模事前訓練モデルであるBERT (Devlin et al , 2019) と GPT-3 (Brown et al , 2020) についても検討した。 0.65
To generate and rank substitute candidates with BERT, we feed in a context with a target word either masked (BERT-M) or kept intact (BERT-K), and output the top 50 most likely words according to the masked language modeling head. BERTを用いて代用候補を生成・ランク付けするために、マスクされた単語(BERT-M)または無傷な単語(BERT-K)を用いてコンテキスト内にフィードし、マスクされた言語モデリングヘッドに基づいて上位50語を出力する。 0.68
Because the target word is removed, BERT-M is expected to perform poorly—its main purpose is to assess the relative importance of the presence of the target word compared to the context. 目的語が除去されるため、BERT-Mは性能が悪く、主目的は、目的語の存在の相対的重要性を文脈と比較して評価することである。
訳抜け防止モード: ターゲット語が削除されるため、BERT - M は性能が悪くなると予想される 主な目的は 目的語の存在の相対的重要性を文脈と比較して評価する。
0.75
Note that both of these strategies for using BERT to generate candidates differ from that of BERT-LS, which applies dropout to the target word embedding to partially obscure it. BERT を用いて候補を生成するこれらの戦略は、それぞれ BERT-LS とは異なる。
訳抜け防止モード: BERT を用いて候補を生成するこれらの戦略は、BERT - LS の戦略とは異なることに注意してください。 ターゲット単語の埋め込みに ドロップアウトを適用します
0.67
To generate candidates with GPT-3, we formulate lexical substitution as natural language generation (see Appendix D.5 for details). GPT-3の候補を生成するために、語彙置換を自然言語生成として定式化する(詳細はAppendix D.5を参照)。 0.63
7Note that some methods use lemmas of target words (e g THESAURUS) and others use original word forms of target words (e g GPT-3). 7) 対象単語の補題(例 THESAURUS) を用いる方法や,対象単語の原語形式(例 GPT-3) を用いる方法がある。 0.70
We provide both forms in the benchmark. ベンチマークで両方のフォームを提供します。 0.49
8WORDTUNE is not optimized for lexical substitution. 8WORDTUNEは語彙置換に最適化されていない。 0.52
Model HUMANS* COINCO THESAURUS† THESAURUS GPT-3 WORDTUNE† GPT-3† WORDTUNE BERT-K† BERT-LS BERT-K BERT-M BERT-M† モデルヒト*Coincothesaurussthe saurus GPT-3WORDTUNEUORDTUN EGPT-3AWORDTUNEBERT- KKBERT-LSBERT-KBERT- MBERT-MM 0.54
Lenient Strict F 10 レジェント 厳格 F 10 0.67
48.8 34.1 25.6 12.0 34.6 34.6 34.4 34.3 32.4 32.1 31.7 30.9 30.9 48.8 34.1 25.6 12.0 34.6 34.6 34.4 34.3 32.4 32.1 31.7 30.9 30.9 0.41
F 10 c 77.9 63.6 61.6 44.9 F 10 c 77.9 63.6 61.6 44.9 0.72
49.0 45.4 49.0 45.2 55.4 54.9 54.8 48.1 48.3 49.0 45.4 49.0 45.2 55.4 54.9 54.8 48.1 48.3 0.42
F 10 − − − − 22.7 23.5 22.3 22.8 19.2 17.2 15.7 10.7 16.2 F 10 − − − − 22.7 23.5 22.3 22.8 19.2 17.2 15.7 10.7 16.2 0.55
c F 10 − − − − 36.3 34.7 34.7 33.6 30.3 27.0 24.5 16.5 25.4 c F 10 − − − − 36.3 34.7 34.7 33.6 30.3 27.0 24.5 16.5 25.4 0.70
Table 4: Evaluation of systems on SWORDS in the generative setting. 表4: 生成環境におけるSWORDSシステムの評価 0.63
Here, systems must both generate and rank a set of substitutes. ここでは、システムは一連の置換物の生成とランク付けの両方をしなければならない。 0.48
We observe that the performance of all baselines on all metrics falls short of human performance. すべての指標におけるすべてのベースラインのパフォーマンスは、人間のパフォーマンスに欠けています。 0.70
For the “lenient” setting, we filter out system generated substitutes which are not in SWORDS. 良さ”の設定では、剣にはないシステム生成の代替品をフィルターアウトします。 0.58
*Computed on a subset of the test data. * テストデータのサブセットで計算します。 0.65
†Reranked by our best ranking model (BERT). ベストランキングモデル(BERT)を参考にしてください。 0.46
5.4 Human and oracle systems Here we consider human and oracle “systems” to help contextualize the performance of automatic lexical substitution systems evaluated on SWORDS. 5.4 人・オラクルシステム ここでは、SWORDSで評価された自動語彙置換システムの性能の文脈化を支援する「システム」について検討する。 0.66
We evaluate the performance of HUMANS using labels from a separate pool of annotators as described in Section 4.4. 第4節4に記載したアノテータの別プールからのラベルを用いたHUMANSの性能評価を行った。 0.61
Because this task is inherently subjective, this system represents the agreement of two independent sets of humans on this task, which can be viewed as a realistic upper bound for all metrics. このタスクは本質的に主観的であるため、このシステムはこのタスク上の2つの独立した人間のセットの合意を表しており、全てのメトリクスの現実的な上限と見なすことができる。 0.69
We consider the substitutes that have score > 0% from the separate pool of annotators as HUMANS’s substitutes in the generative setting. 我々は,アノテータの分離プールから0%のスコアを持つ置換体を,生成環境におけるHUMANSの置換体とみなす。 0.66
We also consider both of the candidate sources, COINCO and THESAURUS, as oracle systems. また、coincoとthesaurusの2つの候補ソースをoracleシステムだと考えています。 0.58
Each source contains a list of substitutes for every target word, and therefore can be viewed as a lexical substitution system and evaluated on SWORDS. 各ソースは、各ターゲット語に対する置換語のリストを含み、したがって語彙置換システムと見なされ、SWORDSで評価される。 0.73
COINCO provides substitutes for a target word that were provided by six human annotators. COINCOは、6人のアノテータによって提供されたターゲット語の代用を提供する。 0.61
This can be thought of as a proxy for how humans perform on lexical substitution when recalling words off the top of their heads (as opposed to making binary judgements as in HUMANS). これは、人間の頭頂部から単語を想起する際の語彙置換の方法の代理人と考えることができる(人間のように二分判定を行うのとは対照的に)。 0.71
THESAURUS provides context-free substitutes for a target word (regardless of their word senses) with the default ranking retrieved from the thesaurus. thesaurusは、(単語のセンスに関係なく)ターゲットワードのコンテキストフリーな代用品を提供し、デフォルトのランキングはthesaurusから取り出される。
訳抜け防止モード: THESAURUS provides context - free substitutes for a target word (その言葉によらず) デフォルトのランキングは Thesaurus から取得しました
0.81
This represents the context-insensitive ordering that a user of the same thesaurus would encounter. これは、同じシソーラスのユーザが遭遇するコンテキスト非センシティブな順序を表す。 0.67
英語(論文から抽出)日本語訳スコア
Context Substitutes in SWORDS SWORDSにおけるコンテキスト置換 0.65
Reference for F k (7) Reference for F k c (17) COINCO (9) THESAURUS† (14) WORDTUNE† (11) GPT-3† (13) BERT-LS (50) BERT-K† (50) BERT-M† (50) F k (7) Reference for F k c (17) COINCO (9) THESAURUSU (14) WORDTUNEU (11) GPT-3' (13) BERT-LS (50) BERT-K' (50) BERT-M' (50) 参照 0.81
The e-commerce free zone is situated in north Dubai, near the industrial free zone in Hebel Ali sector (90%), district (90%), area (90%), region (70%), section (70%), range (60%), strip (60%), ground (50%), segment (50%), territory (50%), sphere (40%), realm (40%), place (30%), tract (30%), city (30%), belt (20%), circuit (20%), band (0%) sector, district, area, region, section, range, strip sector, district, area, region, section, range, strip, ground, segment, territory area, region, district, section, city, place, range, strip, territory district, area, belt, territory, region, realm, sector, section, circuit, segment district, area, city, region, site, league, center, system, place, zona district, area, territory, region, realm, sector, locality, section, quarter, precinct belt, district, port, area, zones, city, park, center, strip, sector zones, district, area, city, belt, region, park, ville, site, sector zones, district, area, city, belt, territory, region, haven, park, site The e-commerce free zone is situated in north Dubai, near the industrial free zone in Hebel Ali sector (90%), district (90%), area (90%), region (70%), section (70%), range (60%), strip (60%), ground (50%), segment (50%), territory (50%), sphere (40%), realm (40%), place (30%), tract (30%), city (30%), belt (20%), circuit (20%), band (0%) sector, district, area, region, section, range, strip sector, district, area, region, section, range, strip, ground, segment, territory area, region, district, section, city, place, range, strip, territory district, area, belt, territory, region, realm, sector, section, circuit, segment district, area, city, region, site, league, center, system, place, zona district, area, territory, region, realm, sector, locality, section, quarter, precinct belt, district, port, area, zones, city, park, center, strip, sector zones, district, area, city, belt, region, park, ville, site, sector zones, district, area, city, belt, territory, region, haven, park, site 0.76
Table 5: Qualitative comparison of top 10 candidates generated by best systems. 表5:ベストシステムによって生成されたトップ10候補の質的比較。 0.76
From top to bottom, table sections show (1) a context, target word, substitutes, and scores from SWORDS (dev), (2) reference lists used to compute F k and F k c (applying thresholds of > 50% and > 0% to scores), (3) substitute candidates from oracle systems (sources of substitutes in SWORDS), and (4) substitute candidates from best systems. 表の上部から下部まで、(1)SWORDS(dev)の文脈、目的語、代用語、スコア、(2)FkとFkc(スコアに50%と0%の閾値を適用)の基準リスト、(3)オラクルシステム(SWORDSの代用語源)の代替候補、(4)ベストシステムからの代替候補を示す。
訳抜け防止モード: 上から下まで、テーブルセクションは (1 ) コンテキストを示します。 SWORDS ( dev ) のターゲット語、置換語、スコア (2 ) F k と F k c の計算に用いられる参照リスト(スコアに対して > 50 % と > 0 % のしきい値を適用する) (3) オラクルシステム(SWORDSの代替品源)の代替候補 そして (4 ) ベストシステムからの候補を代替する。
0.80
For each system, we include the total number of substitute candidates produced by the system in parentheses (after removing duplicates). 各システムについて,システムによって生成される代用候補の総数を括弧(重複除去後)に含める。 0.78
Substitutes with scores greater than 50% from SWORDS are bolded. SWORDSの50%以上のスコアを持つ置換者は大胆である。 0.70
Because these oracle systems only produce candidates which are guaranteed to be in SWORDS, they have an inherent advantage on the evaluation metrics over other systems. これらのオラクルシステムは、SWORDSに含まれることが保証されている候補のみを生成するため、他のシステムよりも評価指標に固有の利点がある。 0.69
Hence, to be more equitable to other systems, we additionally compute F 10 and F 10 in a “lenient” fashion—filtering out c model generated substitutes which are not scored under SWORDS (we refer to the setup without filtering as “strict”). したがって、他のシステムとより等しくするために、F 10 と F 10 を「リッチ」な方法で計算し、SWORDS でスコア付けされていない c モデル生成代用をフィルタリングする("strict" をフィルタリングせずに設定する)。 0.80
It is our intention that future systems should not use COINCO or THESAURUS in any way, as they leak information about the SWORDS benchmark. SWORDSベンチマークに関する情報をリークするため、将来のシステムはCOINCOやTheSAURUSをいかなる方法でも使用すべきではない。 0.72
5.5 Evaluation results Table 4 shows that the performance of all methods falls short of that of humans on all metrics. 5.5 評価結果表 4 は、すべてのメソッドのパフォーマンスが、すべてのメトリクスにおける人間のパフォーマンスより低いことを示している。
訳抜け防止モード: 5.5評価結果表4は すべてのメソッドのパフォーマンスは、すべてのメトリクスで人間のパフォーマンスに劣る。
0.79
We interpret this as evidence that SWORDS is a challenging benchmark, since strong (albeit unsupervised) baselines like BERT and GPT-3 do not reach parity with humans. 我々は、SWORDSが、BERTやGPT-3のような強い(教師なしの)ベースラインが人間と同等ではないため、難しいベンチマークであると解釈する。 0.61
We also observe that two models (WORDTUNE and GPT-3) achieve higher F 10 than COINCO. また、2つのモデル(WORDTUNEとGPT-3)がCOINCOよりも高いF10を達成することも観察した。 0.61
In other words, while all models perform worse than humans who are judging the appropriateness of substitutes (HUMANS), some models appear to slightly outperform humans who are thinking of substitutes off the top of their head (COINCO). 言い換えると、全てのモデルは置換品(HUMANS)の適当性を判断している人間よりもパフォーマンスが悪く、一部のモデルは、置換品を頭頂部(COINCO)から外すことを考えている人間よりわずかに優れているように見える。 0.69
This implies that some lexical substitution models may already be helpful to humans for writing assistance, with room for improvement. これは、一部の語彙置換モデルは、人間が手伝うのに役立ち、改善の余地があることを示唆している。 0.63
Overall, we find that there is no single system which emerges as the best on all metrics. 全体として、すべてのメトリクスでベストとして現れるシステムは1つもないことが分かります。
訳抜け防止モード: 全体としては すべての指標でベストとして現れる単一のシステムはありません。
0.74
We note that, despite BERT-LS representing the state-ofthe-art for past lexical substitution benchmarks, its BERT-LSは過去の語彙置換ベンチマークの最先端を表すものであるが、その点に留意する。 0.40
performance falls short of that of commercial systems like GPT-3 and WORDTUNE on most criteria. 性能は GPT-3 や WORDTUNE のような商用システムよりも多くの基準で劣っている。 0.65
Also, the BERT-based methods output around 5x as many candidates as the other models on average, thus having an inherent advantage in recall with the lenient criteria (see Table 7 in Appendix E). また、BERTベースのメソッドは、他のモデルの約5倍の候補を出力するので、寛大な基準(Appendix Eのテーブル7参照)を思い出すことに固有の利点がある。 0.66
In Table 4, we additionally report the performance of generative models by re-ranking their lists of substitutes using the best ranker from our candidate ranking evaluation, BERT (see Appendix D for details). 表4では、候補ランキング評価であるBERT(詳細はAppendix Dを参照)のベストランキングから、置換品のリストを再ランク付けすることで、生成モデルの性能を報告する。 0.72
This procedure unilaterally improves performance for all systems on all metrics except for GPT-3. このプロシージャは、GPT-3を除く全てのメトリクス上の全てのシステムの性能を一方的に改善する。 0.56
Hence, we speculate that improved performance on the ranking setting will be mostly complementary to improved performance on the generative setting. したがって、ランキング設定における性能向上は、生成設定における性能向上に概ね相補するであろうと推測する。 0.81
From a qualitative perspective, many of the systems we evaluate already produce helpful substitutes (Table 5). 定性的な観点からは、我々が評価する多くのシステムは、既に有用な代替物を生み出している(表5)。 0.57
In examining errors, we find that BERT-based models and WORDTUNE tend to produce words that differ semantically from the target (e g “league” for zone). 誤りの検証において、BERTベースのモデルとWORDTUNEは、ターゲットと意味的に異なる単語を生成する傾向がある(例えば、ゾーンの"league"など)。 0.58
Substitutes generated by GPT-3 are often repetitive (e g for zone, GPT-3 produced 64 substitutes, out of which only 13 were unique)—we filter out duplicates for evaluation. GPT-3 が生成した代替品は繰り返し(例えば、ゾーンでは GPT-3 が64個の代替品を生産し、そのうち13個だけが独特である)、評価のために複製をフィルタリングする。 0.61
Finally, we observe that some systems produce appropriate substitutes which are not present in SWORDS (e g GPT-3 produces “precinct” for zone), indicating that SWORDS has limitations in coverage. 最後に,システムによってはSWORDSに存在しない適切な代用品(例えばGPT-3ではゾーンの「接頭辞」)を生産している。 0.67
However, the higher coverage and quality in SWORDS compared to past benchmarks still improves the reliability of our proposed evaluation. しかし,過去のベンチマークと比較して,剣のカバレッジや品質が向上するほど,提案する評価の信頼性は向上する。 0.70
英語(論文から抽出)日本語訳スコア
6 Related work As we discussed previous benchmarks for lexical substitution in Section 2 and relevant models in Section 5, we use this section to draw connections to other related literature. 6関連作品 第2節および第5節の関連モデルにおける辞書置換の以前のベンチマークについて論じたように、本節を用いて他の関連文献との関連性について考察する。
訳抜け防止モード: 6関連作品 第2節の語彙置換と第5節の関連モデルに関する以前のベンチマークについて論じる。 このセクションを使って 他の文献とのつながりを 引き起こそうとしています
0.70
Word sense disambiguation. The task of word sense disambiguation consists of selecting the intended meaning (i.e. 言葉感覚の曖昧さ。 単語感覚の曖昧さの課題は、意図した意味(すなわち意味)を選択することである。 0.56
sense) from the pre-defined set of senses for that word in a sense inventory. 感覚の在庫において、その単語に対する事前定義された感覚のセットから。 0.65
The task of lexical substitution is closely related to word sense disambiguation, as many words are sense synonyms—some of their senses are synonymous, but others are not (Murphy, 2010). 語彙置換のタスクは、多くの単語が感覚の同義語であるので、単語感覚の曖昧さと密接に関連している(Murphy, 2010)。 0.59
In fact, McCarthy (2002) proposed lexical substitution as an application-oriented word sense disambiguation task that avoids some of the drawbacks of standard word sense disambiguation, such as biases created by the choice of sense inventory (Kilgarriff, 1997). 実際、mccarthy (2002) は、センスインベントリの選択によって生み出されるバイアスのような標準の単語センス不曖昧さの欠点を避けるアプリケーション指向の単語センス不曖昧化タスクとして語彙置換を提案した(kilgarriff, 1997)。 0.75
Near-synonym lexical choice. ほぼ同期の語彙選択。 0.45
Words are often near-synonyms—they can substitute for each other in some contexts, but not every context (DiMarco et al , 1993; Murphy, 2010). 単語はしばしばほぼ同義語であり、ある文脈では互いに代用できるが、全ての文脈で置き換えられるわけではない(DiMarco et al , 1993; Murphy, 2010)。
訳抜け防止モード: 言葉はよく近い -シノニム — 状況によっては相互に代用できる。 しかし、すべての文脈 (DiMarco et al, 1993; Murphy, 2010) ではない。
0.74
SWORDS can be viewed as a collection of human judgments on when certain near-synonyms are substitutable in a given context. SWORDS は、ある特定の状況において、特定の近義語が置換可能であるときの人間の判断の集合と見なすことができる。 0.51
The task of near-synonym lexical choice consists of selecting the original target word from a set of candidate words given a context where the target word is masked out (Edmonds and Hirst, 2002). 近義語辞書選択のタスクは、対象語がマスクアウトされたコンテキストが与えられた候補語の集合から元の目標語を選択することである(edmonds and hirst, 2002)。 0.81
The candidate words are composed of the target word and its near-synonyms which are often retrieved from a lexical resource such as Hayakawa (1994). 候補語は, 早川 (1994) などの語彙資源からしばしば抽出される, 対象語とその近義語から成り立っている。 0.79
In this task, systems are tested whether they can reason about near-synonyms and choose the best substitute that fits in the context, without knowing any direct semantic information about the target word and without having to explicitly judge the appropriateness of other candidates. 本課題では,目的語に関する直接的な意味情報を知らず,他の候補の適切性を明示的に判断する必要がなく,文脈に適合する最適な代用語を選択することができるかどうかをシステムで検証する。 0.78
Lexical and phrasal resources. 語彙とフレーズのリソース。 0.73
Lexical resources such as thesauri are often used to identify possible word substitutes. テサウリのような語彙資源は、しばしば単語の代用を識別するために使われる。 0.63
WordNet (Fellbaum, 1998) is a widely used lexical resource for English that includes synonymy, antonymy, hypernymy, and other relations between words. WordNet (Fellbaum, 1998) は英語の語彙資源として広く使われており、同義語、アントロニミー、ハイパーネミー、その他の単語間の関係を含んでいる。 0.72
PPDB (Pavlick et al , 2015) includes both word-level and phraselevel paraphrase rules ranked by paraphrase quality. PPDB (Pavlick et al , 2015) には、単語レベルとフレーズレベルのパラフレーズルールの両方が含まれている。 0.71
These resources relate words and phrases in the absence of context, whereas lexical substitution requires suggesting appropriate words in context. これらのリソースは文脈のない単語やフレーズを関連づけるが、語彙置換には文脈における適切な単語を提案する必要がある。 0.58
Paraphrase generation. Work on sentencelevel paraphrase generation considers a wide range of meaning-preserving sentence transformations, including phrase-level substitutions and large syntactic changes (Madnani and Dorr, 2010; Wieting and Gimpel, 2018; Iyyer et al , 2018; Hu et al , 2019). パラフレーズ生成。 文レベルのパラフレーズ生成の研究は、フレーズレベルの置換や大きな構文変化(Madnani and Dorr, 2010; Wieting and Gimpel, 2018; Iyyer et al , 2018; Hu et al , 2019)を含む、幅広い意味保存的な文変換を考察している。 0.73
Our work could be extended to phrases given appropriate methods for identifying target phrases and proposing candidate substitute phrases. 対象句の識別や候補代用句の提案に適切な方法が与えられれば,提案文に拡張することが可能である。
訳抜け防止モード: 対象句を識別する適切な手法を与えられたフレーズに拡張できる。 候補の代名詞を提案します
0.62
One benefit of focusing on word substitutions is that we can cover a large fraction of all appropriate substitutes, and thus estimate recall of generative systems. 単語置換に注目する一つの利点は、適切な置換の大部分がカバーでき、そのため生成システムのリコールを見積もることができることである。 0.65
Some word-level substitutions, such as function word variation and substitutions that rely on external knowledge, are also outside the scope of our work but occur in standard paraphrase datasets (Bhagat and Hovy, 2013). 単語レベルの置換(例えば、関数語の変化や外部知識に依存する置換)は、作業の範囲外であるが、標準的なパラフレーズデータセット(Bhagat and Hovy, 2013)で発生する。 0.80
Self-supervised pre-trained models. 自己管理型事前訓練モデル。 0.53
The task of suggesting words given surrounding context bears strong resemblance to masked language modeling, which is commonly used for pretraining (Devlin et al , 2019). 周囲の文脈に与えられた単語を提案するタスクは、一般的に事前訓練に使用されるマスク付き言語モデリングに強く似ている(Devlin et al , 2019)。 0.70
However, for lexical substitution, appropriate substitutes must not only fit in context but also preserve the meaning of the target word; thus, additional work is required to make BERT perform lexical substitution (Zhou et al , 2019; Arefyev et al , 2020). しかし、語彙置換においては、適切な代名詞は文脈に適合するだけでなく、目的語の意味も保たなければならないため、BERTが語彙置換を行うためには追加の作業が必要である(Zhou et al , 2019; Arefyev et al , 2020)。 0.66
Modeling human disagreement. 人間の不一致をモデル化する。 0.44
In SWORDS, we find considerable subjectivity between annotators on the appropriateness of substitutes. SWORDSでは代用品の適切性についてアノテータ間でかなりの主観性を見いだす。 0.47
For the task of natural language inference, recent work argues that inherent disagreement between human annotators captures important uncertainty in human language processing that current NLP systems model poorly (Pavlick and Kwiatkowski, 2019; Nie et al , 2020). 自然言語推論のタスクでは、人間のアノテータ間の固有の不一致は、現在のNLPシステムが貧弱な人間の言語処理において重要な不確実性を捉えている(Pavlick and Kwiatkowski, 2019; Nie et al , 2020)。 0.70
We hope that the fine-grained scores in SWORDS encourage the development of systems that more accurately capture the graded nature of lexical substitution. 我々は,剣の細粒度スコアが,語彙置換の階調的性質をより正確に捉えるシステムの開発を促進することを期待している。 0.59
Acknowledgments We sincerely thank Frieda Rong, Nelson Liu, Stephen Mussmann, Kyle Mahowald, Daniel Jiang, and all reviewers for their help and feedback throughout this project. 承認 Frieda Rong氏、Nelson Liu氏、Stephen Mussmann氏、Kyle Mahowald氏、Daniel Jiang氏およびすべてのレビュアーに、このプロジェクト全体の支援とフィードバックを感謝します。 0.63
We also thank OpenAI and Wordtune for allowing us to evaluate their systems. また、OpenAIとWordtuneのシステム評価に感謝しています。 0.57
This work was funded by DARPA CwC under ARO prime contract no. この事業はDARPA CwCがAROプライム契約Noで出資した。 0.67
W911NF-15-1-0462. W911NF-15-1-0462。 0.30
英語(論文から抽出)日本語訳スコア
References AI21. 2020. AI21を参照。 2020. 0.76
Wordtune (accessed 2020 Oct 30). Wordtune(2020年10月30日閲覧) 0.72
https://www.wordtune .com/. https://www.wordtune .com/。 0.48
Nikolay Arefyev, Boris Sheludko, Alexander Podolskiy, and Alexander Panchenko. Nikolay Arefyev、Boris Sheludko、Alexander Podolskiy、Alexander Panchenko。 0.68
2020. A comparative study of lexical substitution approaches based on neural language models. 2020. ニューラルネットワークモデルに基づく語彙置換アプローチの比較研究 0.68
Rahul Bhagat and Eduard Hovy. Rahul BhagatとEduard Hovy。 0.75
2013. Squibs: What Computational Linguistics, 2013. Squibs: 計算言語学とは何か 0.72
is a paraphrase? 39(3):463–472. 言い換えは? 39(3):463–472. 0.61
Thorsten Brants and Alex Franz. トルステン・ブランツとアレックス・フランツ。 0.51
2006. Web 1T 5-gram 2006. Web 1T 5-gram 0.76
version 1. Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. バージョン1。 Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateuss Litwin, Scott Gray, Benjamin Chesss, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ia Sutsk, Dario Démod 0.78
2020. Language models are few-shot learners. 2020. 言語モデルはわずかな学習者です。 0.77
In Advances in Neural Information Processing Systems, volume 33, pages 1877–1901. 神経情報処理システムの進歩』第33巻、1877-1901頁。 0.70
Curran Associates, Inc. Curran Associates, Inc. 0.85
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019. BERT: Pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing. 2019. BERT: 2019年開催のProceedings of the 2019 Conferenceにおいて、言語の下での双方向トランスフォーマーの事前トレーニング。 0.71
of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota. 0.85
Association for Computational Linguistics. Chrysanne DiMarco, Graeme Hirst, and Manfred Stede. 計算言語学会会員。 Chrysanne DiMarco、Graeme Hirst、Manfred Stede。 0.57
1993. The semantic and stylistic differentiation of synonyms and near-synonyms. 1993. 同義語と準同義語の意味的および様式的区別。 0.74
In AAAI Spring Symposium on Building Lexicons for Machine Translation. AAAI Spring Symposium on Building Lexicons for Machine Translation(英語) 0.75
Philip Edmonds and Graeme Hirst. フィリップ・エドモンズと グレーム・ハースト 0.55
2002. Nearsynonymy and lexical choice. 2002. 近交と語彙の選択。 0.72
Computational Linguistics, 28(2):105–144. 計算言語学 28(2):105–144。 0.73
Tiwalayo Eisape, Noga Zaslavsky, and Roger Levy. Tiwalayo Eisape、Noga Zaslavsky、Roger Levy。 0.64
2020. Cloze distillation: Improving neural language In Promodels with human next-word prediction. 2020. クローズ蒸留: ニューラル言語の改善 ヒトの次単語予測によるプロモデル 0.80
ceedings of the 24th Conference on Computational Natural Language Learning, pages 609–619, Online. 第24回計算自然言語学習会議、609-619頁、オンライン。 0.71
Association for Computational Linguistics. Katrin Erk and Sebastian Padó. 計算言語学会会員。 カトリン・エルクとセバスチャン・パド。 0.47
2008. A structured vector space model for word meaning in context. 2008. 文脈における単語の意味に対する構造化ベクトル空間モデル 0.84
In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 897–906, Honolulu, Hawaii. 2008年、ハワイ州ホノルルの897-906ページで「自然言語処理における経験的方法に関する会議」を開催。
訳抜け防止モード: 自然言語処理における実証的手法に関する2008年会議のまとめ 897-906頁、ハワイ州ホノルル。
0.78
Association for Computational Linguistics. Christiane Fellbaum. 計算言語学会会員。 クリスチャン・フェルバウム。 0.49
1998. WordNet: An Electronic 1998. WordNet: 電子製品 0.79
Lexical Database. MIT Press. 語彙データベース。 MIT出版。 0.65
Samuel Ichiye Hayakawa. サミュエル・イチエ・ハヤカワ 0.47
1994. Choose the Right Word: A Contemporary Guide to Selecting the Precise Word for Every Situation. 1994. 正しい単語を選ぶ: 状況に応じて正確な単語を選択するための現代的ガイド。 0.80
Collins Reference. Gerold Hintz and Chris Biemann. コリンズ参照。 ジェラルド・ヒンツとクリス・ビーマン。 0.56
2016. Language transfer learning for supervised lexical substitution. 2016. 教師付き語彙置換のための言語伝達学習 0.77
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 118–129, Berlin, Germany. 第54回計算言語学会年次大会(Volume 1: Long Papers)において,118-129頁,ベルリン,ドイツ。 0.68
Association for Computational Linguistics. J. Edward Hu, Rachel Rudinger, Matt Post, and Benjamin Van Durme. 計算言語学会会員。 j・エドワード・ヒュー、レイチェル・ラディンジャー、マット・ポスト、ベンジャミン・ヴァン・ダーム。 0.51
2019. ParaBank: Monolingual bitext generation and sentential paraphrasing via lexically-constraine d neural machine translation. 2019. parabank: 語彙制約付きニューラルマシン翻訳による単言語バイテキスト生成とセンテンシャルパラフレーズ化。 0.76
In Association for the Advancement of Artificial Intelligence. 人工知能の進歩のための協会。 0.61
Nancy Ide, Collin Baker, Christiane Fellbaum, Charles Fillmore, and Rebecca Passonneau. Nancy Ide、Collin Baker、Christiane Fellbaum、Charles Fillmore、Rebecca Passonneau。 0.71
2008. MASC: the manually annotated sub-corpus of American EnIn Proceedings of the Sixth International glish. 2008. masc: the manual annotated sub-corpus of american enin proceedings of the sixth international glish (英語) 0.79
Conference on Language Resources and Evaluation (LREC’08), Marrakech, Morocco. conference on language resources and evaluation (lrec’08), marrakech, morocco。 0.66
European Language Resources Association (ELRA). 欧州言語資源協会 (ELRA) の略。 0.77
Nancy Ide, Collin Baker, Christiane Fellbaum, and Rebecca Passonneau. Nancy Ide、Collin Baker、Christiane Fellbaum、Rebecca Passonneau。 0.69
2010. The manually annotated sub-corpus: A community resource for and by the people. 2010. 手作業による注釈付きサブコーパス: 人々および人々によるコミュニティリソース。 0.81
In Proceedings of the ACL 2010 Conference Short Papers, pages 68–73, Uppsala, Sweden. The Proceedings of the ACL 2010 Conference Short Papers, page 68–73, Uppsala, Sweden 0.82
Association for Computational Linguistics. Mohit Iyyer, John Wieting, Kevin Gimpel, and Luke Zettlemoyer. 計算言語学会会員。 Mohit Iyyer、John Wieting、Kevin Gimpel、Luke Zettlemoyer。 0.59
2018. Adversarial example generation with syntactically controlled paraphrase networks. 2018. 構文制御されたパラフレーズネットワークを用いた逆例生成 0.73
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 1875–1885, New Orleans, Louisiana. The 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), page 1875–1885, New Orleans, Louisiana. 0.80
Association for Computational Linguistics. A. Kilgarriff. 計算言語学会会員。 A.Kilgarriff 0.56
1997. I don’t believe in word senses. 1997. 私は言葉のセンスを信じない。 0.72
Computers and the Humanities. コンピュータと人文科学です 0.69
Barbara Ann Kipfer. Barbara Ann Kipfer 0.64
2013. Roget’s 21st Century Thesaurus, Third Edition. 2013. Roget's 21th Century Thesaurus, Third Edition 0.82
Random House Publishing Group. ランダムハウス出版グループ。 0.74
Kazuaki Kishida. 2005. 岸田和明。 2005. 0.64
Property of average precision and its generalization: An examination of evaluation indicator for information retrieval experiments. 平均精度の特性とその一般化:情報検索実験における評価指標の検討 0.77
National Institute of Informatics Tokyo, Japan. 国立情報学研究所(東京都)。 0.72
Gerhard Kremer, Katrin Erk, Sebastian Padó, and Stefan Thater. Gerhard Kremer、Katrin Erk、Sebastian Padó、Stefan Thater。 0.61
2014. What substitutes tell us - analysis of an “all-words” lexical substitution corpus. 2014. 代用詞が私たちに教えてくれるのは、"all-words"の語彙置換コーパスの分析です。 0.70
In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 540–549, Gothenburg, Sweden. 計算言語学会欧州支部第14回会議紀要540-549頁、スウェーデン、ヨーテボリ。
訳抜け防止モード: 計算言語学会欧州支部第14回大会の議事録において 540-549頁、スウェーデン、ヨーテボリ。
0.54
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
Nathaniel Smith and Roger Levy. ナサニエル・スミスとロジャー・レヴィ 0.48
2011. Cloze but no cigar: The complex relationship between cloze, corpus, and subjective probabilities in language processIn Proceedings of the Annual Meeting of the ing. 2011. cloze but no cigar: the complex relationship between cloze, corpus and subjective riskities in language process in proceedings of the annual meeting of the ing. (英語) 0.83
Cognitive Science Society. Robyn Speer, Joshua Chin, Andrew Lin, Sara JewLuminosoIn- 認知科学協会会員。 Robyn Speer, Joshua Chin, Andrew Lin, Sara JewLuminosoIn 0.77
and Lance Nathan. そしてランス・ネイサン。 0.56
2018. ett, sight/wordfreq: v2.2. 2018. ett, sight/wordfreq: v2.2。 0.75
György Szarvas, Róbert Busa-Fekete, and Eyke Hüllermeier. György Szarvas、Róbert Busa-Fekete、Eyke Hüllermeier。 0.78
2013. Learning to rank lexical substitutions. 2013. 語彙置換のランク付けを学ぶこと。 0.68
In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pages 1926–1932, Seattle, Washington, USA. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pages 1926–1932, Seattle, Washington, USA 0.85
Association for Computational Linguistics. Stefan Thater, Hagen Fürstenau, and Manfred Pinkal. 計算言語学会会員。 Stefan Thater、Hagen Fürstenau、Manfred Pinkal。 0.56
2010. Contextualizing semantic representations usIn Proing syntactically enriched vector models. 2010. 文脈化意味表現 usin proing syntactically enriched vector model 0.76
ceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 948– 957, Uppsala, Sweden. 第48回計算言語学会年次大会(スウェーデン・ウプサラ, 948–957ページ)を開催。 0.63
Association for Computational Linguistics. William Webber, Alistair Moffat, and Justin Zobel. 計算言語学会会員。 ウィリアム・ウェバー、アリスター・モファット、ジャスティン・ゾベル。 0.51
2010. A similarity measure for indefinite rankings. 2010. 不確定ランクの類似度尺度。 0.75
ACM Transactions on Information Systems, 28(4):1– 38. ACM Transactions on Information Systems, 28(4):1– 38。 0.93
John Wieting and Kevin Gimpel. ジョン・ワイティングとケヴィン・ギンペル。 0.63
2018. ParaNMT50M: Pushing the limits of paraphrastic sentence embeddings with millions of machine translations. 2018. ParaNMT50M: 数百万の機械翻訳でパラフレーズ文の埋め込みを制限する。 0.83
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 451–462, Melbourne, Australia. 第56回計算言語学会年次大会(Volume 1: Long Papers)において,451-462頁,メルボルン,オーストラリア 0.62
Association for Computational Linguistics. Wangchunshu Zhou, Tao Ge, Ke Xu, Furu Wei, and Ming Zhou. 計算言語学会会員。 Wangchunshu Zhou、Tao Ge、Ke Xu、Furu Wei、Ming Zhou。 0.58
2019. BERT-based lexical substitution. 2019. BERTによる語彙置換。 0.73
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3368–3373, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 3368–3373, イタリア・フィレンツェ。 0.72
Association for Computational Linguistics. Nitin Madnani and Bonnie J. Dorr. 計算言語学会会員。 ニチン・マドナニとボニー・J・ドル。 0.54
2010. Generating phrasal and sentential paraphrases: A survey of data-driven methods. 2010. phrasal と sentential paraphrases: データ駆動型メソッドのサーベイ。 0.74
Computational Linguistics, 36(3):341–387. 計算言語学 36(3):341–387。 0.76
Diana McCarthy. ダイアナ・マッカーシー 0.46
2002. Lexical substitution as a task In Proceedings of the ACLfor WSD evaluation. 2002. acl for wsd evaluationの手続きにおけるタスクとしての語彙置換。 0.77
02 Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, pages 089– 115. 02 Workshop on Word Sense Disambiguation: recent Successes and Future Directions, page 089–115。 0.84
Association for Computational Linguistics. Diana McCarthy and Roberto Navigli. 計算言語学会会員。 ダイアナ・マッカーシーとロベルト・ナヴィリ。 0.51
2007. SemEval2007 task 10: English lexical substitution task. 2007. SemEval 2007 Task 10: 英語の語彙置換タスク。 0.83
In Proceedings of the Fourth International Workshop on Semantic Evaluations (SemEval-2007), pages 48– 53, Prague, Czech Republic. The Proceedings of the Fourth International Workshop on Semantic Evaluations (SemEval-2007), page 48– 53, Prague, Czech Republic 0.82
Association for Computational Linguistics. Oren Melamud, Ido Dagan, and Jacob Goldberger. 計算言語学会会員。 Oren Melamud、Ido Dagan、Jacob Goldberger。 0.59
2015. Modeling word meaning in context with substitute vectors. 2015. 代用ベクトルを用いた文脈における単語意味のモデル化 0.75
In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 472–482, Denver, Colorado. 2015年、アメリカ計算言語学会北米支部のProceedings of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, page 472–482, Denver, Colorado。 0.86
Association for Computational Linguistics. Tristan Miller. 計算言語学会会員。 トリスタン・ミラー。 0.51
2016. Adjusting Sense Representations for Word Sense Disambiguation and Automatic Pun Interpretation. 2016. 単語センスの曖昧さと自動句解釈のための意味表現の調整 0.73
Ph.D. thesis, Technische Universität Darmstadt. Ph.D. thesis, Technische Universität Darmstadt 0.90
M. Lynne Murphy. M・リン・マーフィー 0.61
2010. Lexical Meaning. 2010. 語彙的意味。 0.76
Cam- bridge University Press. カム ブリッジ大学出版。 0.59
Yixin Nie, Xiang Zhou, and Mohit Bansal. Yixin Nie、Xiang Zhou、Mohit Bansal。 0.61
2020. What can we learn from collective human opinions on natural language inference data? 2020. 自然言語推論データに関する人間集団の意見から何が学べるだろうか? 0.85
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 9131–9143, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 9131–9143, Online. 0.88
Association for Computational Linguistics. Ellie Pavlick and Tom Kwiatkowski. 計算言語学会会員。 Ellie PavlickとTom Kwiatkowski。 0.66
2019. Inherent disagreements in human textual inferences. 2019. 人間のテキスト推論に固有の不一致。 0.72
Transactions of the Association for Computational Linguistics, 7:677–694. 計算言語学協会 (association for computational linguistics) 7:677–694。 0.59
Ellie Pavlick, Pushpendre Rastogi, Juri Ganitkevitch, Benjamin Van Durme, and Chris Callison-Burch. Ellie Pavlick、Pushpendre Rastogi、Juri Ganitkevitch、Benjamin Van Durme、Chris Callison-Burch。 0.72
2015. PPDB 2.0: Better paraphrase ranking, finegrained entailment relations, word embeddings, and style classification. 2015. PPDB 2.0: より優れたパラフレーズランキング、きめ細かい詳細関係、単語埋め込み、スタイル分類。 0.81
In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), pages 425–430, Beijing, China. 第53回計算言語学会年次大会および第7回自然言語処理国際合同会議(第2巻:短い論文)の議事録において、中国北京の425-430ページ。 0.72
Association for Computational Linguistics. Jeffrey Pennington, Richard Socher, and Christopher Manning. 計算言語学会会員。 ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・マニング。 0.57
2014. GloVe: Global vectors for word representation. 2014. GloVe: ワード表現のためのグローバルベクトル。 0.82
In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1532–1543, Doha, Qatar. 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) において、1532–1543頁、Doha, Qatar。 0.77
Association for Computational Linguistics. S. Sharoff. 計算言語学会会員。 S.シャロフ。 0.60
2006. Open-source corpora: Using the net to fish for linguistic data. 2006. オープンソースのコーパス: ネットを使って言語データに魚を釣る。 0.75
International Journal of Corpus Linguistics, 11:435–462. International Journal of Corpus Linguistics, 11:435–462。 0.76
英語(論文から抽出)日本語訳スコア
A Data collection A.1 Deduplicating context SWORDS uses the same contexts as COINCO, but with slight modifications to avoid duplication issues and incomplete contexts found in COINCO. データコレクション A.1 Deduplicating context SWORDS は COINCO と同じコンテキストを使用するが、重複問題や COINCO で見られる不完全なコンテキストを避けるために若干の変更を加えている。 0.70
COINCO uses a subset of contexts from the Manually Annotated Sub-Corpus (MASC) (Ide et al , 2008, 2010), in which some sentences are erroneously repeated multiple times due to multiple IDs assigned to a single sentence. COINCO は Manually Annotated Sub-Corpus (MASC) (Ide et al , 2008) のコンテキストのサブセットを使用し、いくつかの文は1つの文に割り当てられた複数のIDによって誤って複数回繰り返される。 0.84
Consequently, COINCO contains duplicate sentences in some contexts, as shown below: 結果として、COINCOは以下のように、いくつかの文脈で重複文を含む。 0.60
" –was kindly received," "But an artist who would stay first among his fellows can tell when he begins to fail." 「 – 優しく受け取られた」「しかし、仲間の中で一番先にいた芸術家は、彼がいつ失敗し始めるかわかる」 0.70
"But an artist who would stay first among his fellows can tell when he begins to fail." 「しかし、仲間の中で一番先にいた芸術家は、いつ失敗し始めるか分かる。」 0.75
Furthermore, we found that some parts of the document context are missing in COINCO because an ID was not assigned to the parts in MASC (e g “he said.” is missing from the above passage after the word “received”). さらに、文書コンテキストの一部がcoincoに欠落していることが分かった。これは、idがmascの一部に割り当てられていないためである(例えば、"he said."は、"received"という単語の後に上記の節から欠落している)。
訳抜け防止モード: さらに,文書コンテキストのいくつかは,MASCの部分にIDが割り当てられていなかったため,COINCOでは欠落していることがわかった(例:「彼は言った」)。 という単語の後に上記の節から欠落している。
0.70
To address this issue, we re-extracted full contexts from MASC. この問題に対処するため、MASCから全コンテキストを抽出した。 0.50
Given a sentence containing a target word in COINCO, we located the sentence in MASC and used three non-overlapping adjacent MASC regions as our context. 目的語を含む文をcoincoに付与すると,文をmascに配置し,隣接した3つのmasc領域を文脈として用いた。 0.58
As a result, our context contains additional text that was erroneously omitted in COINCO (including newlines), thereby reducing annotator confusion. その結果,COINCOで誤って省略されたテキスト(新文を含む)が追加され,アノテーションの混乱が軽減された。 0.70
The context of the above example in our benchmark is as follows: 上記のベンチマークの例の文脈は下記のとおりである。 0.71
" –was kindly received," he said. 「優しく受け取りました」と彼は言った。 0.64
"But an artist who would stay first among his fellows can tell when he begins to fail." 「しかし、仲間の中で一番先にいた芸術家は、いつ失敗し始めるか分かる。」 0.75
"Oh?" A.2 Retrieving substitutes from a thesaurus We use Roget’s Thesaurus (Kipfer, 2013), upon which thesaurus.com is built, as a primary source of context-free substitutes for target words in SWORDS. 「あ?」 A.2 Thesaurus の代替語を検索する Roget's Thesaurus (Kipfer, 2013) を使用して、thesaurus.com が構築されている。
訳抜け防止モード: 「あ?」 A.2 Thesaurusから代替品を取得する Roget の Thesaurus (Kipfer, 2013 )を使用し、thesaurus.comが製造されている。 コンテキストの主要なソースとして - SWORDSのターゲット単語の無料代用。
0.72
To select substitutes for a particular target word, we gather substitutes from all word senses that have the same part of speech as the original target, in order to disentangle lexical substitution from the task of word sense disambiguation as well as to include challenging distractors for evaluating models.9 We use the default ranking retrieved 9In COINCO, contexts, target words, and their part-ofspeech tags all come from the Manually Annotated SubCorpus (Ide et al , 2008, 2010) 特定の対象語に対する代用語を選択するために、原語と同一の発話部分を持つすべての単語感覚から代用語を収集し、単語感覚の曖昧さのタスクから語彙置換を解き、モデル評価に難易度の高いインタラプターを含むようにした。9 既定のランク付けされた9In COINCO、文脈、ターゲット語、およびそれらのパート・オブ・音声タグはすべて、マニュアルアノテーション付きサブコーパス(Ide et al, 2008)から来ている。
訳抜け防止モード: 特定の対象単語の代名詞を選択する。 全ての単語から代用詞を収集し 元のターゲットと同じ発話部分を持つ。 単語感覚の曖昧さのタスクから語彙の置換を外すため、また、注意をそらすことを含む 評価 model.9 検索されたデフォルトランキング 9in coinco、contexts、 ターゲットワード、およびそれらの部分-ofspeechタグは、すべて手動で注釈付きサブコーパス(ide et al , 2008 , 2010)から来ている。
0.76
Instructions and interface 教えとインタフェース 0.65
from the thesaurus. thesaurus (複数形 thesauruss) 0.61
When a target word has multiple word senses, we rank substitutes by simply concatenating the lists of substitutes for each sense in the order that the senses appear in the thesaurus. 対象語が複数の単語センスを持つ場合、置換語を単に置換語のリストをテッサロスに現れる順番に結合することによってランク付けする。 0.63
B Crowdsourcing B.1 Figures 2 and 3 show the instructions and interface we used for Amazon Mechanical Turk (AMT) to crowdsource labels on substitutes. B クラウドソーシング B.1 図2と3は、代替品のラベルをクラウドソーシングするためにAmazon Mechanical Turk (AMT)で使用した指示とインターフェースを示しています。 0.58
Following the practice of COINCO, we showed a highlighted target word in the context, which consisted of three sentences to provide sufficient context. coincoの実践に続いて,文脈に強調された目標語を示し,十分な文脈を提供するために3つの文からなる。 0.63
We instructed annotators to provide a negative label if the target word is a proper noun or part of a fixed expression or phrase. 対象語が固有名詞である場合や固定表現や句の一部であれば負のラベルを付すことを注釈者に指示した。 0.67
Since our Human Intelligence Task (HIT) concerns acceptability judgement as opposed to substitute generation, we made the following modifications to the COINCO’s setup. 我々のヒューマン・インテリジェンス・タスク(HIT)は、代替世代ではなく、受理性判断を懸念するため、COINCOのセットアップに以下の変更を加えました。 0.63
First, we asked annotators whether they “would actually consider using this substitute” rather than whether the substitute “would not change the meaning” of the target word (Section 3.1). 第一に、代替語が対象語の意味を「変更しない」のかわりに「実際にこの代用語を使用するか検討する」かどうかを注釈官に尋ねた(第3条1)。
訳抜け防止モード: まず、アノテータに“この代替品の使用を実際に検討する”かどうかを尋ねました。 代用語“は、対象語の意味”を変更しない(セクション3.1)。
0.68
Second, we allowed annotators to abstain if they do not know the definition of the substitute, while asking them to return the HIT if they do not know the definition of the target word or more than three substitutes. 第2に,代用単語の定義を知らない場合,対象単語の定義を知らない場合,あるいは3つ以上の代用単語を知らない場合は,HITを返却するように求めた。 0.63
Third, we asked annotators to accept a substitute which is “good but not quite grammatically correct.” Lastly, we asked annotators to accept the substitute identical to the target word, in attempt to filtering out spammed HITs (Section B.3). 第3に,「良いが文法的には正しくない」代替語を受け入れるよう注釈者に対して求めた。最後に,スパムのヒットをフィルタリングするために,対象語と同一の代用語を受け入れるように指示した(b.3)。 0.70
B.2 Setting on Amazon Mechanical Turk Each HIT contained at most 10 candidate substitutes for a context-target word pair. B.2 Amazon Mechanical Turkの設定 それぞれのHITには、コンテキストターゲットのワードペアの10以上の候補が含まれている。 0.61
When there were more than 10 candidate substitutes, we generated multiple HITs by partitioning the candidate substitutes into multiple subsets with potentially different length, using numpy.array_split. 10以上の候補置換体が存在する場合、numpy.array_splitを用いて、候補置換体を潜在的に異なる長さの複数のサブセットに分割することで、複数のHITを生成する。
訳抜け防止モード: 候補候補が10以上あった場合,複数のHITを生成した。 numpy.array_splitを使って、候補を潜在的に異なる長さの複数のサブセットに分割する。
0.66
We randomized the ordering of substitutes so that each HIT is likely to contain substitutes from both COINCO and the thesaurus. 代替品の注文をランダム化し,それぞれのHITがCOINCOとシソーラスの両方の代替品を含む可能性が示唆された。 0.61
The following qualification conditions were used to allow experienced annotators to participate in our task: 経験豊富なアノテータが作業に参加できるように、以下の資格条件が用いられた。 0.60
• HIT Approval Rate (%) for all Requesters’ •全請求者に対するHIT承認率(%) 0.80
HITs is greater than 98. HITsは98以上である。 0.80
• Location is the United States. ※所在地はアメリカ合衆国。 0.61
• Number of HITs Approved is greater than •承認されたHITの数はより多い 0.78
10,000. 10,000. 0.71
英語(論文から抽出)日本語訳スコア
Figure 2: Our instructions ask annotators to accept a substitute if they would actually consider using the substitute as the author of the context, reject if not, or abstain if they do not know the definition of the substitutes. 図2:アノテータに、コンテキストの作者として代用を実際に使用することを検討する場合、あるいは、その代用の定義を知らない場合は拒否するか、あるいは棄権するよう求めます。 0.56
Examples are provided for reference, when annotators click the “click to show examples” buttons. アノテータが”Click to show examples”ボタンをクリックすると、参照用の例が提供される。 0.74
Our target hourly wage for annotators was $15. 私たちのアノテーターの目標時給は15ドルでした。 0.72
Based on our in-person pilot study with five native English speakers, we approximated the time per assignment (labeling at most twelve substitutes) to be 25 seconds. 5人のネイティブイングリッシュスピーカーによるパイロットスタディに基づいて、割り当て毎の時間(最大12の代替語をラベル付けする)を25秒と見積もった。 0.69
Then, we assumed that it may take 1-2x longer for crowd workers to complete the assignments and decided on the compensation of $0.10 to fall into the range of $7.25 (US federal minimum wage) and $15 per hour, which corresponds to 50 seconds and 24 seconds per assignment, respectively. そして、群衆労働者が割り当てを完了するのに1-2倍の時間がかかると仮定し、1件あたり50秒と24秒に相当する7.25ドル(連邦最低賃金)、1時間あたり15ドル(約1万円)の報酬を0.10ドルと決定した。 0.83
It may be surprising that our assignments only take 25 seconds on average, though there are several reasons why this is the case: (1) In general, making binary judgements about substitute words 私たちの割り当てが平均で25秒しかかからないのには驚くかも知れませんが、これにはいくつかの理由があります。
訳抜け防止モード: 私たちの割り当てが平均25秒しかかからないのは驚きかもしれません。 理由はいくつかあるが、 (1 ) 一般的には、 代用語についての二分判断をする
0.64
takes very little time for native speakers. ネイティブスピーカーにはほとんど時間がかかりません 0.70
(2) Annotators only have to read the target sentence once to provide judgements for all substitutes in an assignment. 2)アノテーションは,代用品の代用品の審査を行うために,対象文を一度だけ読まなければならない。
訳抜け防止モード: (2)アノテーションのみ 課題のすべての代用品の判断を下すために 一度 対象の文を読み取る。
0.68
(3) Annotators usually do not need to read the two additional context sentences to make judgements. (3) アノテーションは通常、判断を行うために2つの追加の文脈文を読む必要はない。
訳抜け防止モード: (3)アノテーションは通常不要である 2つの追加の文脈文を読んで判断します
0.75
(4) Annotators can almost instantly judge two control substitutes (Section B.3), and are therefore only realistically evaluating at most ten candidates per assignment. (4) アノテータは、ほぼ瞬時に2つの制御代用品(第b.3節)を判断することができ、従って、割り当てごとに最大10人の候補を現実的な評価しかできない。
訳抜け防止モード: (4)アノテーションは2つの制御代行をほぼ即座に判断できる(第B.3節) そのため 1人当たり10人以上の候補者を 現実的に評価するしかありません
0.65
B.3 Filtering spam In order to filter out work done by spammers, we included two additional control candidate substitutes in every HIT: the original target word and a randomly chosen dictionary word. B.3 スパムをフィルタリングする スパマーによる処理をフィルタリングするために、各HITに2つの制御候補(元のターゲット語とランダムに選択された辞書語)を追加した。 0.79
Annotators were 注釈は 0.36
英語(論文から抽出)日本語訳スコア
Figure 3: Our Human Intelligence Task (HIT) contains a highlighted target word in the context, which consisted of three sentences to provide sufficient context. 図3: 我々のヒューマンインテリジェンスタスク(hit)は、十分なコンテキストを提供する3つの文からなるコンテキストにハイライトされたターゲットワードが含まれています。 0.68
For each HIT, we show at most 10 candidate substitutes for the target word and two control substitutes for filtering. 各HITに対して、ターゲット語に対する10の候補代用とフィルタリングのための2つの制御代用を示す。 0.73
instructed to accept the substitute identical to the target word and were expected to either reject or abstain on the random word. 対象の単語と同一の代名詞を受け入れるように指示され、ランダムな単語を拒絶または棄権することが期待された。
訳抜け防止モード: 対象語と同一の代用語を受け入れるよう指示された ランダムな単語を拒絶するか 棄却するかのどちらかです
0.76
We used these control substitutes to filter out spammed HITs. 我々はこれらの制御代用を使ってスパムHITをフィルタリングした。 0.66
Concretely, we filtered out all the HITs with any wrong label assigned to the control substitutes as well as HITs completed by annotators whose overall accuracy on control substitutes across HITs was less than 90%. 具体的には、すべてのHITを制御代行に割り当てられた間違ったラベルと、制御代行に対して全体の精度が90%未満のアノテータで完了したHITでフィルタリングした。 0.77
Then, we re-collected labels on these filtered HITs for Step 2 and Step 3. そして、これらのフィルタされたHITのラベルをステップ2とステップ3に再コンパイルする。 0.67
C Data analysis C.1 Annotator agreement McCarthy and Navigli (2007) introduced two interannotator agreement measures, which assumes that a fixed number of annotators generate a set of substitutes for every context-target word pair.10 However, these measures are not designed for the case when there is only one collective set of substitutes for each context-target word pair, and every contexttarget word pair is labeled by various combinations of annotators. Cデータ解析 C.1 Annotator agreement McCarthy and Navigli (2007) では、アノテータの固定数が各コンテキストターゲット語対の代用集合を生成すると仮定する2つのインターアノテータ合意措置が導入されたが、これらの措置は、各コンテキストターゲット語対の代用集合が1つしかない場合にのみ設計されておらず、各コンテキストターゲット語対はアノテータの様々な組み合わせによってラベル付けされる。 0.78
Instead, we compute correlation between the two ranked lists using rank-biased overlap (RBO) (Webber et al , 2010), which handles non-conjoint lists and weights high ranks more heavily than low un- その代わり、ランクバイアスオーバーラップ(RBO)(Webber et al , 2010)を用いて2つのランクリスト間の相関関係を計算する。
訳抜け防止モード: 代わりに、ランク付きオーバーラップ(RBO) (Webber et al, 2010) を用いてランク付きリスト間の相関を計算する。 非結合リストと重みを扱い、低いunよりも高いランクを扱う
0.68
10McCarthy and Navigli (2007) had five annotators from 10McCarthy and Navigli (2007) には5つのアノテーションがある。 0.59
the UK, where each of them annotated the entire dataset. イギリスでは、それぞれがデータセット全体に注釈を付けた。 0.72
Figure 4: Annotator agreement between SWORDS and k additional annotators measured by rank-biased overlap (RBO) (Webber et al , 2010). 図4: ランクバイアスオーバーラップ(RBO)によって測定されたSWORDSとkのアノテータ間のアノテータ合意(Webber et al , 2010)。 0.59
The standard deviations from 100 simulations are shown as error bars. 100のシミュレーションからの標準偏差はエラーバーとして示される。 0.75
We observe quite low RBO for k < 3 and diminishing returns as k grows. k < 3 に対して非常に低い RBO を観測し、k が大きくなるにつれてリターンを減少させる。 0.56
This indicates that there is wide variation in opinions, and it is necessary to use sufficiently large k to capture the distribution. これは、意見のばらつきが広く、分布を捉えるのに十分な大きさの k を用いる必要があることを示している。 0.71
like other common rank similarity measures such as Kendall’s τ and Spearman’s ρ. ケンドールのτやスピアーマンのρのような他の一般的なランク類似性指標と同様に。 0.61
With additionally collected 10 labels (Section 4.4), we computed RBO by comparing the ranked list of substitutes derived from the data to that of SWORDS and simulate the effect of having k annotators by sampling k labels per substitute without replacement a total of 100 times. 新たに収集した10個のラベル(Section 4.4)を用いて,データから派生した代用ラベルのランクリストとSWORDSのランクリストを比較してRBOを計算し,100回の置換を行わずにk個のラベルをサンプリングすることにより,k個のアノテータを持つ効果をシミュレートした。 0.60
Figure 4 shows the correlation between SWORDS 図4はSWORDSの相関を示す 0.89
12345678910Number of simulated annotators (k)0.740.750.760.770 .780.79Correlation (rank-biased overlap) 12345678910 シミュレートアノテータ(k)0.740.750.760.770 .780.79相関(ランクバイアス重なり) 0.46
英語(論文から抽出)日本語訳スコア
Model HUMANS* BERT BERT-LS BERT-LS w/o sp BERT-LS w/o sv GLOVE RANDOM Model HUMANS* BERT-LS BERT-LS w/o sp BERT-LS w/o sv GLOVE RANDOM 0.71
GAP 66.2 56.9 53.4 52.9 51.7 49.7 32.7 GAP 66.2 56.9 53.4 52.9 51.7 49.7 32.7 0.64
Table 6: Evaluation of models on SWORDS in the ranking setting. 表6: ランキング設定におけるSWORDSのモデルの評価。 0.77
Here, systems provide a score for every candidate in the benchmark. ここで、システムはベンチマークの各候補に対してスコアを提供する。 0.62
*Computed on a subset of the test data. * テストデータのサブセットで計算します。 0.65
and k additional human annotators. 追加の人間のアノテーターも 0.47
We observe quite low RBO for k < 3 and diminishing returns as k grows. k < 3 に対して非常に低い RBO を観測し、k が大きくなるにつれてリターンを減少させる。 0.56
Based on this observation, we argue that there is wide variation in opinions and it is necessary to use sufficiently large k to capture the distribution. この観察に基づいて、意見の多様性は広く、分布を捉えるのに十分な大きさの k を用いる必要があると論じる。 0.80
D Model evaluation D.1 Ranking setting As opposed to the generative setting where systems must generate and rank substitute candidates, in the (easier) ranking setting, systems are given all substitute candidates from the benchmark (including those marked as inconceivable) and tasked with ranking them by their appropriateness. Dモデル評価 D.1ランキング設定 システムが代用候補を生成・ランク付けしなければならない生成的設定とは対照的に、(より簡単な)ランキング設定では、システムはベンチマークからすべての代用候補を付与し(非推奨とマークされたものを含む)、それらの適切さでランキング付けを行う。
訳抜け防止モード: d モデル評価 d.1 ランキング設定 システムが代替候補を生成しランク付けしなければならない生成的設定とは対照的である。 簡単に)ランキング設定では、システムはベンチマークから全ての代替候補を与えられる。 適度なランク付けをしました
0.76
D.2 Evaluation metrics To evaluate ranking models, we adopt standard practice and report generalized average precision (GAP) (Kishida, 2005). D.2 評価指標 ランキングモデルを評価するためには,標準プラクティスを採用し,一般化平均精度(GAP)を報告する(岸田,2005)。 0.76
GAP is similar to mean average precision, but assigns more credit for systems which produce substitutes that have higher scores in the reference list. GAPは平均精度と似ているが、基準リストにより高いスコアを持つ代替品を生成するシステムにより多くのクレジットを割り当てている。 0.70
Considering that our data collection procedure results in reference scores which correspond more to substitute appropriateness than ease-of-recollection , GAP is aligned with our high-level goals. 我々のデータ収集手順は、回収の容易さよりも適度に相応しい基準スコアをもたらすので、GAPは我々の高水準目標と一致している。 0.63
D.3 Baselines We evaluate contextual embeddings from BERT and word embeddings from GLOVE (Pennington et al , 2014), using cosine similarity of the target and substitute embeddings as the score. d.3 ベースラインでは,ターゲットのコサイン類似度と代用埋め込みをスコアとして,bert と glove (pennington et al , 2014) からの文脈埋め込みを評価した。 0.73
To compute the contextual embedding of a target or substitute with BERT, we mean pool contextual embeddings of its constituent word pieces. ターゲットの文脈埋め込みを計算したり、BERTで代用したりするために、その構成語片の文脈埋め込みをプールする。 0.60
Because GLOVE discards GLOVEが破棄されるから 0.56
contextual information, we expect it to perform worse than BERT, and is mainly used to assist interpretation of GAP scores. 文脈情報では、BERTよりもパフォーマンスが悪く、主にGAPスコアの解釈を支援するために使用される。
訳抜け防止モード: 文脈的な情報や BERTよりもパフォーマンスが悪く、主にGAPスコアの解釈を支援するために使用される。
0.61
In the ranking setting, we are unable to evaluate GPT-3 and WORDTUNE, as we interface with these systems via an API which provides limited access to the underlying models. ランキング設定では,下層モデルへの限定アクセスを提供するapiを介してこれらのシステムとインターフェースするので,gpt-3 と wordtune の評価ができない。 0.82
We report GAP scores in Table 6. 表6ではGAPスコアを報告します。 0.60
D.4 Results We posit that contextual word embedding models should be invariant to contextual synonymy—they should embed acceptable substitutes nearby to one another. D.4結果 私たちは、文脈的単語埋め込みモデルは文脈的同義語に不変であるべきだと仮定する。 0.61
Hence, the SWORDS ranking setting may offer a useful perspective for evaluating this aspect of such models. したがって、SWORDSランキング設定は、そのようなモデルのこの側面を評価するのに役立つ。 0.60
In the ranking setting, our best contextual embedding model (BERT) achieves a GAP score of 56.9. ランキング設定では,最高文脈埋め込みモデル(BERT)が56.9のGAPスコアを達成する。 0.75
While BERT outperforms a simple context-free baseline (GLOVE), it falls short of the 66.2 GAP score achieved by HUMANS. BERTは単純な文脈自由ベースライン(GLOVE)よりも優れているが、HUMANSが達成した66.2 GAPスコアには劣っている。 0.58
We interpret this as evidence that contextual embedding models have room to improve before attaining the aforementioned invariance. これを、上記の不変性を達成する前に、文脈埋め込みモデルが改善の余地があることの証拠として解釈する。 0.55
D.5 Lexical substitution as natural language D.5 自然言語としての語彙置換 0.61
generation GPT-3 is a language model which generates text in a left-to-right order, and is not designed specifically for the task of lexical substitution. 世代 GPT-3は、左から右にテキストを生成する言語モデルであり、語彙置換のタスクのために特別に設計されたものではない。
訳抜け防止モード: 世代 GPT-3は、左から右にテキストを生成する言語モデルである。 語彙置換のタスクに特化してはいません
0.76
To use GPT-3 to perform lexical substitution, we formulate the task in terms of natural language generation, and use in-context learning as described in (Brown et al , 2020). GPT-3を用いて語彙置換を行うため、自然言語生成の観点でタスクを定式化し、文脈内学習を用いる(Brown et al , 2020)。 0.73
Specifically, we draw examples at random from the SWORDS development set to construct triplets of text consisting of (context with target word indicated using asterisks, natural language query, comma-separated list of all substitutes with score > 0% in descending score order) as follows: 具体的には、SWORDS開発セットからランダムに、アスタリスク、自然言語クエリ、全ての代用詞のコンマ区切りリストを下記のスコア順で0%のスコアで作成する)からなるテキストの3つ組を構築した例を以下に示す。 0.73
Phone calls were monitored. An undercover force of Manhattan Project security agents **infiltrated** the base and bars in the little town of Wendover (population 103) to spy on airmen. 電話は監視された。 マンハッタン計画のセキュリティエージェントの潜入部隊***は、小さな町ウェンドーバー(人口103人)の基地とバーを飛行士をスパイするために*潜入した。 0.74
Karnes knew the 509th was preparing for a special bombing mission, but he had no idea what kind of bombs were involved. カーンズは509連隊が特別な爆撃任務の準備をしているのを知っていたが、どんな爆弾が関与しているかは知らなかった。
訳抜け防止モード: カーンズは509連隊が 特別爆撃の準備をしてるのを知ってた でも どんな爆弾が関係してるか 分からなかった
0.61
Q: What are appropriate substitutes for **infiltrated** in the above text? Q: 上記のテキストで**infiltrated**の適切な置換子は何ですか? 0.82
A: penetrate, swarm, break into, infest, overtake, encompass, raid, breach a: 侵入、swarm、break into、infest、overtake、encompass、raid、 breach 0.57
英語(論文から抽出)日本語訳スコア
We construct as many of these priming triplets as as can fit in GPT-3’s 2048-token context (roughly 12 examples on average), leaving enough room for a test example formatted the same way except without the list of answers. GPT-3の2048-tokenコンテキスト(おおよそ平均で12の例)に適合するように、これらプリミング三つ子を可能な限り多く構築します。
訳抜け防止モード: 私たちは、できる限り多くのプライミング三つ子を構築します。 GPT-3の2048-tokenコンテキストで (平均12例) テスト例の十分な余地は、答えのリストなしで同じ方法でフォーマットされた。
0.82
Then, we query the 175B-parameter davinci configuration of GPT3 to generate a text continuation with up to 128 tokens. 次に,gpt3の175bパラメータのdavinci設定をクエリし,最大128トークンのテキスト継続を生成する。 0.74
Finally, we parse the generated text from GPT-3, using its natural language ordering as the ordering for evaluation. 最後に、gpt-3から生成されたテキストを、その自然言語順序を評価の順序として解析する。 0.63
In an initial pilot 初期パイロットとして 0.89
study on a random set, we selected split of our development the sampling hyperparameters for GPT-3 as temperature 0, presence_penalty 0.5, and frequency_penalty 0, among possible candidates of {0, 1} and {0, 0.5, 1.0}, and {0, 0.5, 1.0}, respectively. 本研究では,0, 1, 0.5, 1.0, {0, 0.5, 1.0, {0, 0.5, 1.0の候補として, GPT-3 のサンプリングハイパーパラメータを温度0, presence_penalty 0.5, frequency_penalty 0 として選択した。 0.80
We used a grid search (18 runs) to select values based on highest F 10 c . グリッド検索(18ラン)を使用して、最高値のf10cに基づいて値を選択する。
訳抜け防止モード: グリッド検索(18回の実行)を使いました。 to select value based on the highest F 10 c
0.78
E Additional evaluation results We include additional results from our evaluation. e. 追加評価結果 評価結果には追加結果が含まれます。 0.73
In Table 7, we break down F 10 from Table 4 into P 10 and R10. 表7では、F10をテーブル4からP10とR10に分解します。 0.81
In Table 8, we report performance of all generative baselines on traditional metrics for lexical substitution. 表8では、語彙置換のための従来のメトリクスにおける全ての生成ベースラインのパフォーマンスを報告する。 0.68
英語(論文から抽出)日本語訳スコア
Lenient Strict Model HUMANS* COINCO THESAURUS† THESAURUS GPT-3 WORDTUNE† GPT-3† WORDTUNE BERT-K† BERT-LS BERT-K BERT-M BERT-M† レジェント 厳格 モデルヒト*Coincothesaurussthe saurus GPT-3WORDTUNEUORDTUN EGPT-3AWORDTUNEBERT- KKBERT-LSBERT-KBERT- MBERT-MM 0.57
F 10 P 10 R10 F 10 P10 R10 0.88
48.8 34.1 25.6 12.0 34.6 34.6 34.4 34.3 32.4 32.1 31.7 30.9 30.9 48.8 34.1 25.6 12.0 34.6 34.6 34.4 34.3 32.4 32.1 31.7 30.9 30.9 0.41
43.9 24.3 17.0 8.0 43.9 24.3 17.0 8.0 0.45
29.8 31.3 29.6 31.0 24.4 24.2 23.8 25.6 25.6 29.8 31.3 29.6 31.0 24.4 24.2 23.8 25.6 25.6 0.42
54.8 57.0 51.8 24.2 54.8 57.0 51.8 24.2 0.45
41.4 38.7 41.2 38.4 48.2 47.7 47.2 39.0 39.0 41.4 38.7 41.2 38.4 48.2 47.7 47.2 39.0 39.0 0.42
F 10 c 77.9 63.6 61.6 44.9 F 10 c 77.9 63.6 61.6 44.9 0.72
49.0 45.4 49.0 45.2 55.4 54.9 54.8 48.1 48.3 49.0 45.4 49.0 45.2 55.4 54.9 54.8 48.1 48.3 0.42
P 10 c 76.7 71.5 60.4 44.1 P10 c 76.7 71.5 60.4 44.1 0.69
76.0 76.5 76.1 76.2 68.7 68.2 67.9 70.3 70.6 76.0 76.5 76.1 76.2 68.7 68.2 67.9 70.3 70.6 0.42
R10 c 79.1 57.3 62.8 45.8 R10c 79.1 57.3 62.8 45.8 0.63
36.1 32.3 36.2 32.2 46.4 45.9 45.9 36.6 36.7 36.1 32.3 36.2 32.2 46.4 45.9 45.9 36.6 36.7 0.42
F 10 − − − − 22.7 23.5 22.3 22.8 19.2 17.2 15.7 10.7 16.2 F 10 − − − − 22.7 23.5 22.3 22.8 19.2 17.2 15.7 10.7 16.2 0.55
P 10 R10 − − − − − − − − 40.0 15.9 17.2 37.0 15.6 39.2 35.9 16.7 38.9 12.7 34.9 11.4 10.4 31.8 21.8 7.1 10.7 32.8 P 10 R10 − − − − − − − − 40.0 15.9 17.2 37.0 15.6 39.2 35.9 16.7 38.9 12.7 34.9 11.4 10.4 31.8 21.8 7.1 10.7 32.8 0.53
c F 10 − − − − 36.3 34.7 34.7 33.6 30.3 27.0 24.5 16.5 25.4 c F 10 − − − − 36.3 34.7 34.7 33.6 30.3 27.0 24.5 16.5 25.4 0.70
c P 10 − − − − 39.2 41.0 37.4 39.7 29.6 26.4 24.0 16.2 24.8 c P 10 − − − − 39.2 41.0 37.4 39.7 29.6 26.4 24.0 16.2 24.8 0.70
R10 c − − − − 33.8 30.1 32.3 29.1 30.9 27.6 25.0 16.9 25.9 R10 c − − − − 33.8 30.1 32.3 29.1 30.9 27.6 25.0 16.9 25.9 0.54
Table 7: Expansion on the results from Table 4, breaking down F-measures by precision and recall. 表7: 表4からの結果の拡張 精度とリコールによるf測定値の分解。 0.76
*Computed on a subset of the test data. * テストデータのサブセットで計算します。 0.65
†Reranked by our best ranking model (BERT). ベストランキングモデル(BERT)を参考にしてください。 0.46
英語(論文から抽出)日本語訳スコア
Model ORACLE HUMANS* COINCO THESAURUS† THESAURUS GPT-3 WORDTUNE† GPT-3† WORDTUNE BERT-K† BERT-LS BERT-K BERT-M BERT-M† モデル・オーラクル・ヒューマンズ*Coinco Thesauruss Thesaurus GPT-3WordTUne GPT-3EWordTUne BERT-KKL BERT-K BERT-M BERT-M 0.47
BEST BEST-M OOT OOT-M P 1 best-m oot-m p 1 0.73
6.7 3.4 5.5 2.1 2.1 6.7 3.4 5.5 2.1 2.1 0.44
2.5 2.7 2.5 2.7 0.7 0.7 0.7 0.5 0.5 2.5 2.7 2.5 2.7 0.7 0.7 0.7 0.5 0.5 0.42
96.9 29.4 26.3 18.8 7.9 22.4 20.8 18.7 15.7 16.8 17.8 15.7 7.9 18.0 96.9 29.4 26.3 18.8 7.9 22.4 20.8 18.7 15.7 16.8 17.8 15.7 7.9 18.0 0.41
71.5 54.0 39.2 37.7 24.1 22.8 20.2 21.9 19.6 22.4 20.0 18.3 12.7 18.6 71.5 54.0 39.2 37.7 24.1 22.8 20.2 21.9 19.6 22.4 20.0 18.3 12.7 18.6 0.41
99.4 92.2 67.9 52.8 24.6 99.4 92.2 67.9 52.8 24.6 0.44
45.5 41.4 44.3 40.6 46.4 42.2 40.0 25.9 37.7 45.5 41.4 44.3 40.6 46.4 42.2 40.0 25.9 37.7 0.42
100.0 87.6 88.2 80.4 63.0 100.0 87.6 88.2 80.4 63.0 0.44
70.9 73.5 61.4 61.4 60.0 54.3 48.3 29.3 58.0 70.9 73.5 61.4 61.4 60.0 54.3 48.3 29.3 58.0 0.42
Table 8: Evaluation of models on SWORD in the generative setting using traditional evaluation metrics. 表8:従来の評価指標を用いた生成環境におけるSWORDモデルの評価。 0.77
We also include numbers for an ORACLE, as (unlike for F 10 and GAP), the oracle does not achieve a score of 100. また、oracleの数値も含まれており、(f10とgapの場合とは異なり)oracleは100のスコアを達成していない。 0.72
*Computed on a subset of the test data. * テストデータのサブセットで計算します。 0.65
†Reranked by our best ranking model (BERT). ベストランキングモデル(BERT)を参考にしてください。 0.46
                                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。