論文の概要、ライセンス

# (参考訳) GEMベンチマーク:自然言語生成とその評価とメトリクス [全文訳有]

The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics ( http://arxiv.org/abs/2102.01672v1 )

ライセンス: CC BY 4.0
Sebastian Gehrmann, Tosin Adewumi, Karmanya Aggarwal, Pawan Sasanka Ammanamanchi, Aremu Anuoluwapo, Antoine Bosselut, Khyathi Raghavi Chandu, Miruna Clinciu, Dipanjan Das, Kaustubh D. Dhole, Wanyu Du, Esin Durmus, Ond\v{r}ej Du\v{s}ek, Chris Emezue, Varun Gangal, Cristina Garbacea, Tatsunori Hashimoto, Yufang Hou, Yacine Jernite, Harsh Jhamtani, Yangfeng Ji, Shailza Jolly, Dhruv Kumar, Faisal Ladhak, Aman Madaan, Mounica Maddela, Khyati Mahajan, Saad Mahamood, Bodhisattwa Prasad Majumder, Pedro Henrique Martins, Angelina McMillan-Major, Simon Mille, Emiel van Miltenburg, Moin Nadeem, Shashi Narayan, Vitaly Nikolaev, Rubungo Andre Niyongabo, Salomey Osei, Ankur Parikh, Laura Perez-Beltrachini, Niranjan Ramesh Rao, Vikas Raunak, Juan Diego Rodriguez, Sashank Santhanam, Jo\~ao Sedoc, Thibault Sellam, Samira Shaikh, Anastasia Shimorina, Marco Antonio Sobrevilla Cabezudo, Hendrik Strobelt, Nishant Subramani, Wei Xu, Diyi Yang, Akhila Yerukola, Jiawei Zhou(参考訳) 自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介します。 NLGの進捗測定は、自動メトリクス、データセット、および人間の評価基準の絶え間なく進化するエコシステムに依存しています。 しかし、この移動目標のため、新しいモデルは、よく確立されているが欠陥のあるメトリクスを持つ分散アングロ中心のコーパスで評価されることが多い。 この切断は、現在のモデルと進歩の機会の限界を特定するのを難しくする。 この制限に対処するため、GEMは幅広いコーポラにモデルを簡単に適用でき、評価戦略をテストすることができる環境を提供します。 ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。 この論文は、ACL 2021ワークショップで共有タスクを組織し、NLGコミュニティ全体を参加するよう招待する最初のリリースの説明として機能します。

We introduce GEM, a living benchmark for natural language Generation (NLG), its Evaluation, and Metrics. Measuring progress in NLG relies on a constantly evolving ecosystem of automated metrics, datasets, and human evaluation standards. However, due to this moving target, new models often still evaluate on divergent anglo-centric corpora with well-established, but flawed, metrics. This disconnect makes it challenging to identify the limitations of current models and opportunities for progress. Addressing this limitation, GEM provides an environment in which models can easily be applied to a wide set of corpora and evaluation strategies can be tested. Regular updates to the benchmark will help NLG research become more multilingual and evolve the challenge alongside models. This paper serves as the description of the initial release for which we are organizing a shared task at our ACL 2021 Workshop and to which we invite the entire NLG community to participate.
公開日: Tue, 2 Feb 2021 18:42:05 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Natural Language Generation, its Evaluation and Metrics 自然言語生成とその評価とメトリクス 0.67
The GEM Benchmark: GEMベンチマーク: 0.71
Sebastian Gehrmann,9,* Tosin Adewumi,20,21 Karmanya Aggarwal,14 Sebastian Gehrmann,9,* Tosin Adewumi,20,21 Karmanya Aggarwal,14 0.66
Pawan Sasanka Ammanamanchi,15 Aremu Anuoluwapo,21,38 Antoine Bosselut,28 Pawan Sasanka Ammanamanchi,15 Aremu Anuoluwapo,21,38 Antoine Bosselut,28 0.59
Khyathi Raghavi Chandu,2 Miruna Clinciu,7,11,35 Dipanjan Das,9 Kaustubh D. Dhole,1 Khyathi Raghavi Chandu,2 Miruna Clinciu,7,11,35 Dipanjan Das,9 Kaustubh D. Dhole,1 0.54
Wanyu Du,42 Esin Durmus,5 Ondˇrej Dušek,3 Chris Emezue,21,30 Varun Gangal,2 Wanyu Du,42 Esin Durmus,5 Ondérej Dušek,3 Chris Emezue,21,30 Varun Gangal,2 0.56
Cristina Garbacea,39 Tatsunori Hashimoto,28 Yufang Hou,13 Yacine Jernite,12 Harsh Jhamtani,2 Cristina Garbacea,39 Tatsunori Hashimoto,28 Yufang Hou,13 Yacine Jernite,12 Harsh Jhamtani,2 0.62
Yangfeng Ji,42 Shailza Jolly,6,29 Dhruv Kumar,44 Faisal Ladhak,4 Aman Madaan,2 Yangfeng Ji,42 Shailza Jolly,6,29 Dhruv Kumar,44 Faisal Ladhak,4 Aman Madaan,2 0.56
Mounica Maddela,8 Khyati Mahajan,34 Saad Mahamood,32 Bodhisattwa Prasad Majumder,37 Pedro Henrique Martins,16 Angelina McMillan-Major,43 Simon Mille,26 Emiel van Miltenburg,31 Mounica Maddela,8 Khyati Mahajan,34 Saad Mahamood,32 Bodhisattwa Prasad Majumder,37 Pedro Henrique Martins,16 Angelina McMillan-Major,43 Simon Mille,26 Emiel van Miltenburg,31 0.62
Moin Nadeem,22 Shashi Narayan,9 Vitaly Nikolaev,9 Rubungo Andre Niyongabo,21,36 Salomey Osei,19,21 Ankur Parikh,9 Laura Perez-Beltrachini,35 Niranjan Ramesh Rao,24 Moin Nadeem,22 Shashi Narayan,9 Vitaly Nikolaev,9 Rubungo Andre Niyongabo,21,36 Salomey Osei,19,21 Ankur Parikh,9 Laura Perez-Beltrachini,35 Niranjan Ramesh Rao,24 0.55
Vikas Raunak,23 Juan Diego Rodriguez,41 Sashank Santhanam,34 João Sedoc,25 Vikas Raunak,23 Juan Diego Rodriguez,41 Sashank Santhanam,34 João Sedoc,25 0.65
Thibault Sellam,9 Samira Shaikh,34 Anastasia Shimorina,33 Marco Thibault Sellam,9 Samira Shaikh,34 Anastasia Shimorina,33 Marco 0.67
Antonio Sobrevilla Cabezudo,40 Hendrik Strobelt,13 Nishant Subramani,17,21 Wei Xu,8 Antonio Sobrevilla Cabezudo,40 Hendrik Strobelt,13 Nishant Subramani,17,21 Wei Xu,8 0.59
Diyi Yang,8 Akhila Yerukola,27 Jiawei Zhou10 Diyi Yang,8 Akhila Yerukola,27 Jiawei Zhou10 0.69
1Amelia R&D, New York, 2Carnegie Mellon University, 3Charles University, Prague, 4Columbia University, 5Cornell University, 6DFKI, Germany 7Edinburgh Centre for Robotics, 8Georgia Tech, 9Google Research, 10Harvard University, 1Amelia R&D, New York, 2Carnegie Mellon University, 3Charles University, Prague, 4Columbia University, 5Cornell University, 6DFKI, Germany 7Edinburgh Centre for Robotics, 8Georgia Tech, 9Google Research, 10Harvard University 0.96
11Heriot-Watt University, 12Hugging Face, 13IBM Research, 14IIIT Delhi, 15IIIT Hyderabad, 16Instituto de Telecomunicações, 11Heriot-Watt University, 12Hugging Face, 13IBM Research, 14IIIT Delhi, 15IIIT Hyderabad, 16 Instituto de Telecomunicaç'es 0.79
17Intelligent Systems Lab, Intel, 18Johns-Hopkins University, 19Kwame Nkrumah University of Science and Technology 20Luleå University of Technology, 21Masakhane, Africa, 22Massachusetts Institute of Technology, 23Microsoft, 24National 17Intel, 18Johns-Hopkins University, 19Kwame Nkrumah University of Science and Technology 20Luleå University of Technology, 21Masakhane, Africa, 22Massachusetts Institute of Technology, 23Microsoft, 24National 0.98
Institute of Technology Karnataka India, 25New York University, 26Pompeu Fabra University, 27Samsung Research, 28Stanford Institute of Technology Karnataka India, 25 New York University, 26 Pompeu Fabra University, 27Samsung Research, 28Stanford 0.96
University, 29Technical University of Kaiserslautern, 30Technical University Munich, 31Tilburg University, 32trivago, ミュンヘン工科大学、31Tilburg大学、32trivago、29Technical University of Kaiserslautern、30Technical University。 0.79
33Université de Lorraine, 34University of North Carolina Charlotte, 35University of Edinburgh, 36University of Electronic 33Université de Lorraine, 34University of North Carolina Charlotte, 35University of Edinburgh, 36University of Electronic 0.96
Science and Technology of China, 37University of California San Diego, 38University of Lagos, 39University of Michigan Ann 中国科学技術、カリフォルニア・サンディエゴ37大学、ラゴス38大学、ミシガン・アン39大学
訳抜け防止モード: 中国・カリフォルニア・サンディエゴ37大学理工学部 38University of Lagos , 39University of Michigan Ann
0.78
Arbor, 40University of São Paulo, 41University of Texas at Austin, 42University of Virginia, 43University of Washington, Arbor, 40University of São Paulo, 41University of Texas at Austin, 42University of Virginia, 43University of Washington, 1.00
Abstract 1 Introduction 44University of Waterloo 概要 1 はじめに 44University of Waterloo 0.69
We introduce GEM, a living benchmark for natural language Generation (NLG), its Evaluation, and Metrics. 自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介します。 0.67
Measuring progress in NLG relies on a constantly evolving ecosystem of automated metrics, datasets, and human evaluation standards. NLGの進捗測定は、自動メトリクス、データセット、および人間の評価基準の絶え間なく進化するエコシステムに依存しています。 0.56
However, due to this moving target, new models often still evaluate on divergent anglo-centric corpora with well-established, but flawed, metrics. しかし、この移動目標のため、新しいモデルは、よく確立されているが欠陥のあるメトリクスを持つ分散アングロ中心のコーパスで評価されることが多い。 0.51
This disconnect makes it challenging to identify the limitations of current models and opportunities for progress. この切断は、現在のモデルと進歩の機会の限界を特定するのを難しくする。 0.67
Addressing this limitation, GEM provides an environment in which models can easily be applied to a wide set of corpora and evaluation strategies can be tested. この制限に対処するため、GEMは幅広いコーポラにモデルを簡単に適用でき、評価戦略をテストすることができる環境を提供します。 0.79
Regular updates to the benchmark will help NLG research become more multilingual and evolve the challenge alongside models. ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。 0.56
This paper serves as the description of the initial release for which we are organizing a shared task at our ACL 2021 Workshop and to which we invite the entire NLG community to participate. この論文は、ACL 2021ワークショップで共有タスクを組織し、NLGコミュニティ全体を参加するよう招待する最初のリリースの説明として機能します。 0.63
* Correspondence to gehrmann@google.com ※gehrmann@google.com対応 0.80
Natural language generation is the task to automatically generate understandable texts, typically using a non-linguistic or textual representation of information as input (Reiter and Dale, 2000). 自然言語生成は理解可能なテキストを自動的に生成するタスクであり、典型的には入力として情報の非言語的あるいはテキスト的表現を用いる(Reiter and Dale, 2000)。 0.74
These texts aim to fulfill an underlying communicative goal (e.g., to produce a summary of an article) while remaining faithful to the input information, fluent, grammatical, and natural-looking. これらのテキストは基礎となるコミュニケーション目標(例えば記事の要約を作成する)を達成し、インプット情報に忠実に、流れるような、文法的、そして自然に見えることを目指しています。 0.67
An NLG system needs to be robust to shifts in the data distribution and be able to produce text in many different languages. NLGシステムは、データ分散の変化に対して堅牢であり、多くの異なる言語でテキストを生成する必要がある。 0.80
Finally, it is often desired that repeated interactions with the model produce diverse outputs, for example, to explain concepts in multiple ways or to become a more interesting conversational agent. 最後に、モデルとの繰り返しの相互作用は、例えば、コンセプトを複数の方法で説明したり、より興味深い会話エージェントになるために、多様な出力を生成することが望まれます。 0.68
All these optimization objectives can often be conflicting (Hashimoto et al., 2019) and, as a result, evaluations that focus only on a single aspect may fail to recognize the drawbacks of a particular method. これらの最適化の目標は、しばしば矛盾する可能性がある(hashimoto et al., 2019)。その結果、単一のアスペクトのみに焦点を当てた評価では、特定のメソッドの欠点を認識できない可能性がある。 0.64
To demonstrate this trade-off, consider an improvement on the CNN-DM summarization dataset (Hermann et al., 2015; Nallapati et al., 2016) measured by the ROUGE-L met- このトレードオフを示すために、rouge-l met による cnn-dm summarization dataset (hermann et al., 2015; nallapati et al., 2016) の改善を考える。 0.78
1 2 0 2 b e F 3 1 2 0 2 b e F 3 0.85
] L C . s c [ ] L C。 sc [ 0.62
2 v 2 7 6 1 0 2 v 2 7 6 1 0 0.85
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
英語(論文から抽出)日本語訳スコア
ric (Lin, 2004). 愛称: ric (Lin, 2004)。 0.73
Since ROUGE only tests the extent to which a generated summary has a lexical overlap with a reference summary, it can erroneously produce high scores for fluent, yet meaningless and unfaithful outputs as long as many of the same words are used (Maynez et al., 2020; Gabriel et al., 2020). ROUGEは、生成された要約が参照の要約と語彙的に重複する程度しか検査しないため、同じ単語の多くの単語が使われている限り、浮き彫りで無意味で不誠実なアウトプットを誤って生成することができる(Maynez et al., 2020; Gabriel et al., 2020)。 0.73
Moreover, ROUGE tends to favor systems that produce longer summaries (Sun et al., 2019). さらにROUGEは、より長い要約を生成するシステムを好む傾向がある(Sun et al., 2019)。 0.66
It is thus crucial to carefully assess the progress of NLG toward all of its goals at the same time in ways that evolve alongside the models. したがって、モデルとともに進化していく方法で、NLGのすべての目標に向けた進捗を同時に慎重に評価することが重要である。 0.72
This is currently not the case; new models are evaluated on different datasets, most of which focus only on the English language (Bender, 2019), and using these flawed metrics. 新しいモデルは異なるデータセットで評価され、そのほとんどは英語(Bender, 2019)のみにフォーカスし、これらの欠陥のあるメトリクスを使用します。 0.66
Moreover, while human evaluations of generated texts can provide complementary insights to automatic evaluation (Manning et al., 2020), it can also lead to contradicting results since studies often omit crucial replication details and assume different definitions of the measured quantities (Howcroft et al., 2020). さらに、生成されたテキストの人間による評価は自動評価(manning et al., 2020)に補完的な洞察を与えるが、研究は重要な複製の詳細を省略し、測定された量の異なる定義を仮定することが多い(howcroft et al., 2020)ため、矛盾する結果につながる可能性がある。 0.68
We propose a living benchmark called GEM (Generation, Evaluation, and Metrics) that aims to enable research on a wide range of NLG challenges. GEM(Generation, Evaluation, Metrics)と呼ばれる生きたベンチマークを提案し、幅広いNLG課題の研究を可能にすることを目指しています。 0.65
To avoid the fallacy of encouraging hill climbing on a leaderboard (Linzen, 2020), GEM focuses on an in-depth evaluation of model outputs across human and automatic evaluation that aims to uncover shortcomings and opportunities for progress. GEMは、リーダーボード(Linzen, 2020)でのヒルクライミングの失敗を避けるために、人的および自動評価にわたるモデル出力の詳細な評価に焦点を当て、進歩の欠点と機会を明らかにすることを目指しています。 0.68
As datasets, metrics, and models improve, the benchmark environment will improve as well, replacing “solved” tasks with more challenging ones, incorporating newly developed metrics, and addressing discovered flaws in the experimental setup, as demonstrated in Figure 1. データセット、メトリクス、モデルが改善されると、ベンチマーク環境も改善され、"解決"タスクをより困難なタスクに置き換え、新しく開発されたメトリクスを取り入れ、図1に示すように、実験的なセットアップで発見された欠陥に対処する。 0.60
Making all model outputs available under an open-source license will support evaluation research and integrating new metrics will, in turn, help their adoption and increase the robustness of model evaluations. すべてのモデルアウトプットをオープンソースライセンス下で利用可能にすることで、評価研究を支援し、新しいメトリクスを統合することで、モデル評価の堅牢性を高めることができる。 0.76
The initial set of eleven included datasets is presented in Table 1. 11のデータセットの初期セットを表1に示します。 0.72
They measure specific generation challenges, such as content selection and planning, surface realization, paraphrasing, simplification, and others (Reiter and Dale, 2000; Gatt and Krahmer, 2018). 彼らは、コンテンツの選択と計画、表面実現、パラフレージング、簡略化などの特定の生成課題を測定します(Reiter and Dale、2000; Gatt and Krahmer、2018)。 0.71
In addition to those challenges, GEM datasets also differ in their communicative goals, languages, the noisiness of data, and resource availability, to evaluate the consistency of evaluation schemes. これらの課題に加えて、GEMデータセットは、評価スキームの一貫性を評価するために、通信目標、言語、データの雑音性、およびリソース可用性も異なります。 0.59
About half of the datasets have multiple references and more than half were post-processed to improve data quality. データセットの約半分は複数の参照を持ち、半分以上はデータ品質を改善するために後処理された。 0.65
The sizes range from 5k to サイズは5kからです。 0.64
Figure 1: The opportunities of living benchmarks and pitfalls of evaluation. 図1: 生きたベンチマークと評価の落とし穴の機会。 0.63
As models improve, we need consistent evaluations such that models can be compared to each other. モデルが向上するにつれて、モデルが互いに比較できるような一貫した評価が必要です。 0.66
This can only happen if we develop robust human evaluation standards and improve our automated metrics. これは、堅牢な人間評価標準を開発し、自動メトリクスを改善する場合にのみ起こります。 0.55
Otherwise, results are challenging to interpret and compare to each other. さもなくば、結果は互いに解釈し比較することが難しい。 0.66
Finally, as models improve and metrics saturate, we need to evaluate them on more challenging datasets instead of continuing to move sideways on old ones. 最後に、モデルが改善され、メトリクスが飽和するにつれて、古いデータセットを横に動かすのではなく、より難しいデータセットでそれらを評価する必要があります。 0.49
GEM aims to provide this environment for natural language generation. GEMは、自然言語生成のための環境を提供することを目指している。 0.59
500k data points. 500kのデータポイント。 0.72
GEM features seven languages across all tasks and two of the datasets do not include English at all. GEMには、すべてのタスクに7つの言語があり、データセットのうち2つは英語をまったく含まない。 0.67
To be able to properly assess the performance of models in a way robust to the shortcuts a model can take, we additionally introduce challenging test sets that probe for specific modeling aspects (Perez-Beltrachini and Gardent, 2017; Ribeiro et al., 2020). モデルが取り得るショートカットに堅牢な方法でモデルのパフォーマンスを適切に評価できるようにするため、特定のモデリング側面(Perez-Beltrachini and Gardent, 2017; Ribeiro et al., 2020)を調査する挑戦的なテストセットも導入しています。 0.84
To ensure that research with GEM is conducted responsibly, all the datasets are documented in an NLG-specific version of data cards (Bender and Friedman, 2018; Gebru et al., 2018) we developed and for which we release a template and guide. GEMによる調査を責任を持って行うために、すべてのデータセットはNLG固有のデータカード(Bender and Friedman, 2018; Gebru et al., 2018)で文書化され、テンプレートとガイドをリリースします。 0.70
Disclaimer: This paper currently describes the initial release of the GEM training and validation sets in support of the announcement of the shared task at ACL 2021. 本稿では, ACL 2021における共有タスクの発表を支持するため, GEMトレーニングおよび検証セットの初期リリースについて述べる。 0.78
Some aspects of GEM are deliberately omitted and will be publicized upon release of the test sets. GEMのいくつかの側面は意図的に省略され、テストセットのリリース時に公開される。 0.63
We will update this paper at that time to reflect the changes and extensions. 変更と拡張を反映して、この論文をその時点で更新します。 0.74
More information can be found on our website https://gem-benchmar k.com/. 詳細は、当社のウェブサイト https://gem-benchmar k.com/ をご覧ください。 0.65
2 Benchmarks in NLG NLGのベンチマーク2 0.76
In this section, we summarize common criticisms of benchmarks in NLP, discuss how they apply to NLG, and how we plan to address them. このセクションでは、NLPにおけるベンチマークの一般的な批判をまとめ、NLGへの適用方法、およびそれらに対処する計画について説明します。 0.62
Then, we describe opportunities that GEM can provide. そして、GEMが提供する機会について説明する。 0.62
NLP benchmarks such as GLUE (Wang et al., 2019b) are common for natural language understanding GLUE(Wang et al., 2019b)のようなNLPベンチマークは自然言語理解に共通である 0.80
Improving DataImprovingMetrics Improving ModelsConsistentHuma nEvalEvaluation on “solved” dataEvaluation withgameable metricsVaryingexperi mentalsetups Non-repeatablehuman evaluation dataimprovingmetrics improving models consistent humanevalevaluation on "solved" dataevaluation withgameable metricsvaryingexperi mentalsetups non-repeatable human evaluation 0.48
英語(論文から抽出)日本語訳スコア
Dataset CommonGEN (Lin et al., 2020) Czech Restaurant (Dušek and Jurˇcíˇcek, 2019) DART (Radev et al., 2020) E2E clean (Novikova et al., 2017) (Dušek et al., 2019) MLSum (Scialom et al., 2020) Schema-Guided Dialog (Rastogi et al., 2020) Dataset CommonGEN (Lin et al., 2020) Czech Restaurant (Dušek and Jur'cí'cek, 2019) DART (Radev et al., 2020) E2E clean (Novikova et al., 2017) (Dušek et al., 2019) MLSum (Scialom et al., 2020) Schema-Guided Dialog (Rastogi et al., 2020) 0.96
ToTTo (Parikh et al., 2020) ToTTo (Parikh et al., 2020) 0.85
XSum (Narayan et al., 2018) WebNLG (Gardent et al., 2017) WikiAuto + Turk/ASSET (Jiang et al., 2020) (Alva-Manchego et al., 2020) WikiLingua (Ladhak et al., 2020) XSum (Narayan et al., 2018) WebNLG (Gardent et al., 2017) WikiAuto + Turk/ASSET (Jiang et al., 2020) (Alva-Manchego et al., 2020) WikiLingua (Ladhak et al., 2020) 0.93
Communicative Goal Produce a likely sentence which mentions all of the source concepts. Communicative Goal Produce a likely sentence that mentions all the source concepts。 0.73
Produce a text expressing the given intent and covering the specified attributes. 与えられた意図を表現し、指定された属性をカバーするテキストを作成する。 0.60
Describe cells in a table, covering all information provided in triples. 表にセルを記述し、トリプルで提供されるすべての情報をカバーする。 0.62
Describe a restaurant, given all and only the attributes specified on the input. 入力で指定された属性のみを指定して、レストランを記述します。 0.71
Summarize relevant points within a news article Provide the surface realization for a virtual assistant Produce an English sentence that describes the highlighted cells in the context of the given table. ニュース記事内の関連点を要約する 仮想アシスタントの表面実現を提供する 指定されたテーブルのコンテキストでハイライトされたセルを記述する英文を生成する。 0.85
Highlight relevant points in a news article ニュース記事の関連点を強調する 0.76
Produce a text that verbalises the input triples in a grammatical and natural way. 文法的および自然な方法で入力トリプルを動詞化するテキストを生成します。 0.78
Communicate the same information as the source sentence using simpler words and grammar. より単純な単語と文法を用いて、原文と同じ情報を通信する。 0.70
Produce high quality summaries of an instructional article. 指導記事の高品質な要約を作成する。 0.72
Language(s) language (複数形 languages) 0.69
en cs en en エン cs エン エン 0.59
Size 67k Input Type サイズ 67k 入力型 0.76
Concept Set 5k コンセプトセット 5k 0.79
Meaning Representation 82k Triple Set 意味 代表 82k トリプルセット 0.72
42k Meaning Representation *de/es 42k 意味 代表 ※de/es 0.69
*520k Articles en ※520k 記事 エン 0.68
en en *165k エン エン ※165k 0.60
Dialog Act 136k Highlighted ダイアログ法 136k ハイライト 0.70
Table *25k Articles テーブル ※25k 記事 0.78
en/ru 50k RDF triple en/ru 50k RDF三重項 0.72
en 594k Sentence *en/es/ru/tr/vi *175k エン 594k 文 ※en/es/ru/tr/vi*175k 0.54
Article Table 1: A description of all the datasets included in GEM. 記事 表1: GEMに含まれるすべてのデータセットの説明。 0.76
The tasks vary in communicative goal, data size, and input type. タスクはコミュニケーション目標、データサイズ、入力タイプによって異なります。 0.68
* indicates changes from the originally published dataset made for GEM. ※は、GEM用に最初に公開されたデータセットからの変更を示している。 0.52
(NLU) tasks. They aggregate multiple tasks under a unified evaluation framework, which enables researchers to fairly compare their models to others. (NLU)タスク。 統合評価フレームワークの下で複数のタスクを集約することで、研究者がモデルを他のものと比較的比較することができる。 0.66
Due to the improved model comparability, benchmarks are critical in measuring modeling progress. モデルコンパビリティの改善により、ベンチマークはモデリングの進捗を測定する上で重要である。 0.62
However, they also pose a risk that progress is reduced to the single number shown in a benchmark’s leaderboard and thus may encourage blindly optimizing it without regard to other considerations like model size or fairness (Ethayarajh and Jurafsky, 2020). しかし、それらはまた、ベンチマークのリーダーボードに示されている単一の数に進捗が減少するリスクをもたらし、モデルサイズやフェアネスなど他の考慮なしに盲目的に最適化することを奨励する可能性がある(ethayarajh and jurafsky, 2020)。 0.68
This is especially challenging for benchmarks in NLG since, as discussed above, the performance cannot be described through a single metric and it is often not clear what metric to optimize for. これは、上述したように、パフォーマンスは単一のメトリックで記述できないし、最適化すべきメトリックが分からないことが多いため、nlgのベンチマークでは特に難しい。
訳抜け防止モード: これはNLGのベンチマークにとって特に困難です。 上述のとおり 性能は1つの指標では説明できません 最適化すべきメトリクスが明確でないことがよくあります
0.76
This shortfall can be seen in benchmarks like DecaNLP (McCann et al., 2018) and GLGE (Liu et al., 2020a) which include NLG tasks but focus only on a single metric and, as a result, may mischaracterize a system’s performance. この不足は、NLGタスクを含むDecaNLP(McCann et al., 2018)やGLGE(Liu et al., 2020a)のようなベンチマークで見られるが、単一のメトリックにのみ焦点をあてるだけで、結果としてシステムのパフォーマンスが悪くなる可能性がある。
訳抜け防止モード: この不足は、DecaNLP(McCann et al , 2018)のようなベンチマークで見ることができる。 NLGタスクを含むGLGE(Liu et al ., 2020a ) 1つのメートル法にのみ焦点を合わせ 結果として システムの性能を誤る可能性がある。
0.77
Moreover, an easy-to-use data infrastructure also さらに、使いやすいデータ基盤も提供します。 0.55
disincentivizes researchers from interacting with and conducting in-depth analyses of the data sets that models are trained on. モデルがトレーニングされているデータセットの詳細な分析と相互作用を研究者が行うのを防ぐ。 0.69
The limited analysis delegates the responsibility to ensure that all included datasets have been collected fairly to the creators of the benchmark (Denton et al., 2020). 限定分析は、すべてのデータセットがベンチマークの作成者に公平に収集されていることを保証する責任を負う(denton et al., 2020)。 0.68
The dataset and benchmark creators thus must provide in-depth statements that describe the data characteristics and surface potential issues and consider these issues when selecting datasets for a benchmark (Gebru et al., 2018; Bender and Friedman, 2018). したがって、データセットとベンチマークの作成者は、データの特徴を記述し潜在的な問題を表面化する詳細なステートメントを提供し、ベンチマーク用のデータセットを選択する際にこれらの問題を考慮しなければならない(Gebru et al., 2018; Bender and Friedman, 2018)。 0.58
These dangers emphasize selecting datasets for a benchmark needs to be carefully done, that the setup has to remain flexible to be able to address newly found limitations, and that the benchmark should focus on climbing a leaderboard. これらの危険性は、ベンチマークのためのデータセットの選択を慎重に行うこと、新しく発見された制限に対処するために設定を柔軟に保たなければならないこと、ベンチマークはリーダーボードの登頂に重点を置くべきであることを強調する。 0.54
Instead, a living benchmark that can adjust its datasets and specific evaluation metrics can be much more powerful and long-lived. 代わりに、データセットと特定の評価指標を調整できる生きたベンチマークは、はるかに強力で長寿命です。 0.61
This can, for example, be これは、例えば、できます。 0.77
英語(論文から抽出)日本語訳スコア
seen in Dynabench,1 (Potts et al., 2020) which has a static evaluation, but interactively adds more test data through a human-in-the-loop approach. dynabench,1 (potts et al., 2020) には静的な評価があるが、人間のループによるテストデータの追加は対話的に行われている。 0.65
Increasing multilingualism of NLG research. NLG研究の多言語化。 0.76
Another potentially harmful choice by benchmark creators is the choice of the languages of the included datasets. ベンチマーク作成者による潜在的に有害な選択は、含まれたデータセットの言語の選択である。 0.64
It is often assumed that work on English transfers to other languages (Bender, 2011). 英語の他の言語への移動に関する作業は、しばしば仮定される(Bender, 2011)。 0.77
However, this assumption does not consider differences between the languages that lead to higher modeling complexity, for example, a richer morphology or a flexible word-order. しかし、この仮定は、よりリッチな形態学や柔軟な単語順序など、より高いモデリングの複雑さにつながる言語間の差異を考慮に入れていない。 0.68
Still, the majority of work in NLP and almost all benchmarks exclusively focus on English (e.g., Wang et al., 2019b; Liu et al., 2020a; McCann et al., 2018). それでも、NLPやほとんどのベンチマークは英語のみに焦点を当てている(例えば、Wang et al., 2019b; Liu et al., 2020a; McCann et al., 2018)。 0.82
Even if multiple languages are considered, the availability of data in a language often does not represent the number of speakers of a language. たとえ複数の言語が考慮されたとしても、言語内のデータの可用性はしばしば言語の話し手の数を表すものではない。 0.80
This means that work on languages with little available data can potentially impact many more people than work on highly resourced languages (Joshi et al., 2020). つまり、利用可能なデータが少ない言語での作業は、非常にリソースの多い言語(Joshi et al., 2020)よりも多くの人に影響を及ぼす可能性がある。 0.72
As a result, many recent benchmarking and dataset creation efforts in NLU develop and focus on tasks that are inherently multilingual or which explore cross-lingual transfer. その結果、最近のNLUのベンチマークとデータセット作成の取り組みは、本質的に多言語であるタスクを開発および集中し、クロス言語の転送を探索します。 0.64
For example, XTREME (Hu et al., 2020) introduces a benchmark covering 40 languages across multiple NLU and retrieval tasks, XCOPA (Ponti et al., 2020) is a commonsense reasoning dataset for eleven languages, and MLQA (Lewis et al., 2020b) is a dataset for extractive question answering across seven languages. 例えば、XTREME(Hu et al., 2020)は、複数のNLUおよび検索タスクにわたる40の言語をカバーするベンチマークを導入し、XCOPA(Ponti et al., 2020)は11言語のための常識推論データセットであり、MLQA(Lewis et al., 2020b)は7言語にわたる抽出質問応答のためのデータセットである。 0.81
We can observe a similar recent trend in natural language generation, where MLSum (Scialom et al., 2020) and WikiLingua (Ladhak et al., 2020) were created as multilingual summarization datasets. MLSum (Scialom et al., 2020) と WikiLingua (Ladhak et al., 2020) が多言語の要約データセットとして作成された。
訳抜け防止モード: 自然言語生成における同様の最近の傾向を観察できます。 MLSum(Scialom et al , 2020 )とWikiLingua(Ladhak et al , 2020 )は多言語の要約データセットとして作成されました。
0.79
There also have been first steps toward including NLG tasks in multilingual NLU benchmarks. NLGタスクを多言語NLUベンチマークに含めるための最初のステップもある。 0.67
For example, XGLUE includes Question and News Title Generation (Liang et al., 2020). 例えば、XGLUEには質問とニュースのタイトル生成(Liang et al., 2020)が含まれます。 0.77
Unfortunately, XGLUE reduces the generation evaluation to BLEU-4, a metric that is inadequate for NLG (Reiter, 2018). 残念ながら、XGLUE は生成評価を NLG に不適切である BLEU-4 に還元する(Reiter, 2018)。 0.75
There have also been multiple shared tasks in NLG that focus on multilingualism, for instance, the shared task on multilingual surface realization which includes eleven languages (Mille et al., 2018, 2019, 2020). NLGには、例えば、11の言語を含む多言語表面認識に関する共有タスク(Mille et al.、2018年、2019年、2020年)など、多言語主義に焦点を当てた複数の共有タスクもあります。 0.72
The shared task on document-level generation and translation featured German and English generation challenges (Heafield et al., 2020). 文書レベルの生成と翻訳に関する共通のタスクは、ドイツ語と英語の世代チャレンジであった(heafield et al., 2020)。 0.68
The WebNLG+ shared task asked participants to WebNLG+共有タスクの参加者への質問 0.71
1https://dynabench.o rg/ 1https://dynabench.o rg/ 0.47
contribute models that can realize text in Russian and English (Ferreira et al., 2020). ロシア語と英語(Ferreira et al., 2020)でテキストを実現できるモデルを貢献。 0.78
A benchmark that focuses only on NLG can enable much richer evaluation (as described in the next sections), and promote non-English datasets. nlgのみに焦点を当てたベンチマークは、(次のセクションで述べたように)よりリッチな評価を可能にし、非英語データセットを促進することができる。
訳抜け防止モード: NLGのみに焦点を当てたベンチマークは、よりリッチな評価を可能にする (次項で詳述) 非英語のデータセットをプロモートする。
0.59
In addition, it can ensure that the datasets created for those shared tasks continue being evaluated. さらに、共有タスク用に作成されたデータセットが引き続き評価されることを保証することもできる。 0.68
Providing a testbed for automated evaluation. 自動評価のためのテストベッドの提供。 0.71
Most traditional automated metrics, such as ROUGE (Lin, 2004) and BLEU (Papineni et al., 2002), measure the n-gram overlap between a reference and the generated text. ROUGE (Lin, 2004) や BLEU (Papineni et al., 2002) のような伝統的な自動メトリクスは、参照と生成されたテキストの間のn-gramの重なりを測定する。 0.84
However, in most cases, there is more than one correct way to generate a text, especially in tasks with a latent content planning or selection step (Reiter and Dale, 2000). しかし、ほとんどの場合、特に潜在的なコンテンツ計画や選択ステップ(reiter and dale, 2000)を持つタスクにおいて、テキストを生成するには複数の正しい方法がある。 0.76
That means that a correct solution may score low on a metric. つまり、正しい解は計量で低い点数になる可能性がある。 0.63
While multiple references alleviate the issue somewhat, these metrics still have a low correlation with human judgments (Reiter, 2018; Fabbri et al., 2020). 複数の文献がこの問題を緩和しているが、これらの指標は人間の判断と相関が低い(Reiter, 2018; Fabbri et al., 2020)。 0.79
To address the issue, the machine translation community has been organizing yearly metrics shared tasks which produce metrics that achieve a high correlation (Stanojevi´c et al., 2015; Bojar et al., 2016, 2017; Ma et al., 2018, 2019; Mathur et al., 2020b). この問題に対処するため、機械翻訳コミュニティは毎年、高い相関性を達成するメトリクスを生成するメトリクス共有タスクを編成している(Stanojevi ́c et al., 2015; Bojar et al., 2016 2017; Ma et al., 2018, 2019; Mathur et al., 2020b)。 0.82
The latest metrics focus on semantic equivalence instead of lexical similarity, which improves the correlations drastically. 最新の指標は語彙的類似性ではなく意味的等価性に焦点を当てており、相関性を大幅に改善している。 0.54
However, recent work by Fabbri et al. しかし、Fabbriらによる最近の作品。 0.67
(2020) demonstrates that this may not hold in summarization, where the automated metric BERTScore (Zhang et al., 2020b) does not improve upon the correlation of ROUGE. (2020) では、これは要約では成り立たないが、自動計量 BERTScore (Zhang et al., 2020b) はROUGEの相関により改善されない。 0.70
Moreover, Mathur et al. さらに、Mathurらも。 0.60
(2020a) and Freitag et al. (2020a) と Freitag et al。 0.90
(2020) find that when comparing two high-quality systems, differences according to a metric may also stem from how references are written or flaws in the metric itself.2 (2020) 2つの高品質なシステムを比較すると、メトリクスによる違いは、メトリクス自体の参照の書き方や欠陥にも起因している可能性がある。
訳抜け防止モード: (2020年) 2つの高品質なシステムを比較し、メートル法による差異 また、参照の書き方やメートル法自体の欠陥から派生することもある。
0.68
Given that automated metrics perform differently across tasks, setups, and languages, a multi-task NLG benchmark has the opportunity to act as a testbed to evaluate how the latest advances in automated metrics perform on these different tasks. 自動メトリクスがタスク、セットアップ、言語間で異なるパフォーマンスを発揮することを考えると、マルチタスクNLGベンチマークはテストベッドとして動作し、自動メトリクスの最新の進歩がこれらの異なるタスクでどのように機能するかを評価する機会があります。 0.60
The benchmark can facilitate this research through the release of system outputs and associated human annotations, which is what we are planning to do with GEM. このベンチマークは、システム出力と関連するヒューマンアノテーションのリリースを通じて、この研究を容易にすることができます。
訳抜け防止モード: このベンチマークは、システム出力と関連する人間のアノテーションのリリースを通じて、この研究を促進することができる。 GEMでやろうとしていることです。
0.55
Moreover, we allow the integration of additional metrics into our living benchmark system, which enables a much faster adoption. さらに、リビングベンチマークシステムに追加のメトリクスを統合することで、より迅速な採用を可能にします。 0.60
2For a more complete description of recent developments in NLG evaluation, we refer to the survey by Çelikyilmaz et al. 2 nlg評価における最近の進展のより完全な説明については、çelikyilmazらによる調査を参照。 0.71
(2020). (2020). 0.85
英語(論文から抽出)日本語訳スコア
Developing reproducible human evaluation standards. 再現可能な人間評価基準の開発。 0.67
In recent work, Howcroft et al. 最近の仕事では、Howcroft et al。 0.84
(2020) investigated NLG papers from the last twenty years and the evaluation methodologies differ drastically across papers. (2020) は過去20年間のNLG論文を調査し, 評価手法は論文間で大きく異なっていた。 0.75
Moreover, in most cases, it is not even mentioned what the human evaluation aims to measure and that definitions of measures like “accuracy” or “fluency” are inconsistent. さらに、「正確性」や「流動性」といった尺度の定義が矛盾しているという人間の評価が何を測るかについても言及されていないことが多い。 0.66
They thus suggest reporting standards for criteria and methods, following a classification system proposed by Belz et al. したがって、ベルツらによって提案された分類体系に従って、基準と方法の報告基準を提案する。 0.68
(2020). In addition, regularly scheduled shared tasks like WMT have lead to standardization of human evaluation setups and enabled controlled experimentation with them. (2020). 加えて、WMTのような定期的な共有タスクは、人間の評価設定を標準化し、それらを制御した実験を可能にする。 0.70
GEM has the opportunity to develop reproducible standards for how human evaluation for NLG tasks beyond translation should be conducted while at the same time incorporating lessons from related work. GEMは、翻訳以外のNLGタスクに対する人間による評価の再現可能な標準を開発すると同時に、関連する作業からの教訓を取り入れる機会がある。 0.73
Acting on the same need, the recently proposed GENIE (Khashabi et al., 2021) system aims to automate and standardize the human evaluation of different NLG systems, however with the contrasting goal of reducing the evaluating to a leaderboard-like score. 同じニーズに対して、最近提案されたGENIE(Khashabi et al., 2021)システムは、異なるNLGシステムの人間評価の自動化と標準化を目指していますが、リーダーボードのようなスコアに評価を減らすという対照的な目標があります。 0.69
3 Dataset Selection 3 データセット選択 0.87
As highlighted in Figure 1, the selection of included datasets is an integral part of a benchmark. 図1で強調されているように、含まれたデータセットの選択は、ベンチマークの不可欠な部分です。 0.53
They should be challenging for models, but it should still be possible to evaluate models trained on them. 彼らはモデルにとって挑戦的であるべきですが、トレーニングを受けたモデルを評価することは可能です。 0.70
Moreover, the datasets should cover a wide range of relevant generation challenges that allow for findings to be as general as possible. さらに、データセットは、調査結果を可能な限り一般化することを可能にする、関連する幅広い生成課題をカバーするべきです。 0.59
Finally, the datasets should cover tasks that are interesting for contributors to work on to facilitate the wide adoption of the benchmark. 最後に、データセットは、コントリビュータがベンチマークの広範な採用を促進するために取り組むべき興味深いタスクをカバーするべきです。 0.61
To collect datasets with those desired properties, the selection methodology for GEM is composed of three steps. これらの特性を持つデータセットを収集するために、GEMの選択手法は3つのステップから構成される。
訳抜け防止モード: 望ましいプロパティを持つデータセットを収集する。 GEMの選択手法は3つのステップから構成される。
0.70
First, we elicited a set of proposals from everyone involved in the effort. まず、取り組みに携わるすべての人から、一連の提案を導き出しました。 0.67
Second, we identified criteria for the selection. 第2に,選択基準を特定した。 0.71
Third, all GEM members voted on individual dataset and criteria utilities. 第3に、すべてのGEMメンバーが個々のデータセットと基準ユーティリティに投票した。 0.54
The final selection maximizes the utility under constrained resources, similar to a knapsack solver.3 This can be seen as an extension of the selection process of SuperGLUE (Wang et al., 2019a) 最終選択は制限された資源の下でのユーティリティを最大化しており、knapsack solver.3と同様にスーパーグルーの選択プロセスの延長と見なすことができる(wang et al., 2019a)。 0.71
3Consider the criterion “We need equal representation of large and small datasets” under the constraint that only two datasets can be selected. 3「大小のデータセットを等しく表現する必要がある」という基準を、2つのデータセットしか選択できないという制約の下で検討する。 0.61
If we have two large datasets with utility 10, and one small one with utility 5, we may want to include the smaller dataset over the second large dataset to satisfy the criterion. ユーティリティ10の2つの大きなデータセットとユーティリティ5の小さなデータセットがある場合、基準を満たすために2番目の大きなデータセットに小さなデータセットを含めることができます。 0.81
that had similar first and second steps but made the final decision based on which were harder for a baseline model to solve after identifying a final set of candidate datasets. 同様の第1ステップと第2ステップがあったが、最終的な決定は、候補データセットの最終セットを特定した後、ベースラインモデルが解決することが困難だった。
訳抜け防止モード: 第1段階と第2段階は似ていますが 最終的な判断は 最終候補データセットを識別した後、ベースラインモデルが解決することが困難だった。
0.81
Since we are going to introduce challenge sets, the baseline performance of models on a dataset matters less. チャレンジセットを導入するつもりですので、データセット上のモデルのベースラインパフォーマンスは重要ではありません。 0.63
Dataset Elicitation. データセットのエリシテーション。 0.49
In the first step, all GEM participants were asked to suggest datasets following the schema provided in Appendix A. 最初のステップでは、すべてのGEM参加者が、Appendix Aで提供されるスキーマに従ってデータセットを提案するように求められた。 0.56
The categories included multiple brief categorizations, such as a description of the challenge that this dataset provides, its high-level task, and the communicative goal of an agent trained on the data. カテゴリには、このデータセットが提供する課題の説明、そのハイレベルなタスク、データでトレーニングされたエージェントのコミュニケーション目標など、複数の簡潔な分類が含まれている。 0.76
Following our goal to focus on non-English languages, we further asked for the languages included in the dataset, as well as the language locale. 英語以外の言語に焦点を合わせるという目標に続いて、データセットに含まれる言語と言語のロケールをさらに求めました。 0.80
This step yielded 35 proposed datasets, listed in Appendix B. Estimating Task+Criterion Utility. このステップでは35のデータセットが提供され、appendix bにリストされている。 0.54
The second step focused on the selection of criteria to inform the selection. 第2のステップは、選択を通知する基準の選択に焦点を当てた。 0.74
The initial set of criteria was selected through open discussion involving all members. 最初の一連の基準は、全メンバーによるオープンディスカッションを通じて選択された。 0.56
We split criteria into “hard” and “soft” ones – hard criteria would lead to the definite inclusion/exclusion of a task if (not) satisfied. 私たちは基準を「ハード」と「ソフト」に分割します – 厳しい基準は、(満たさなければ)タスクの明確な包含/排除につながります。 0.73
Soft criteria inform the utility of the remaining tasks. ソフト基準は、残りのタスクの有用性を通知します。 0.50
All GEM members filled out a survey asking them to rate, on a 5-point Likert scale, how much they wanted to see a task included in GEM. すべてのGEMメンバーは、5ポイントのLikertスケールで、GEMに含まれるタスクをどのくらい見たいか、評価するよう求めたアンケートに記入しました。 0.74
Additionally, we posed yes/no questions for all considered hard criteria and various questions about the soft criteria (e.g., “what percentage of the tasks should feature non-English language?”, or “do we prefer noisy or clean datasets?”). さらに、ハードな基準とソフトな基準に関する様々な質問(例えば、「タスクのどのパーセンテージが非英語を特徴とすべきか?」、あるいは「ノイズやクリーンなデータセットを好むか?」など)について、イエス/ノーの質問を行った。 0.64
Finally, the survey included open text fields that asked for (1) comments on any of the tasks, (2) comments or suggestions on hard exclusion criteria, and (3) suggestions of additional criterion/criteria. 最後に,(1)課題に対するコメント,(2)厳格な除外基準に対するコメントや提案,(3)追加の基準/内容の提案を求めるオープンテキストフィールドについて検討した。 0.65
The full list of questions is shown in Appendix C. 質問の全リストはAppendix Cで公開されている。 0.77
The survey received 28 responses, revealing that the initial version of GEM should include a median of 10 tasks or an average of 12. 調査では28の回答が得られ、GEMの初期バージョンには10のタスクまたは平均12の中央値を含めるべきであることが明らかになった。 0.63
Of those tasks, about a third should feature non-English language. これらのタスクのうち、約3分の1は英語以外の言語を特徴付けるべきです。 0.49
Selected Criteria. For the hard criteria, there was an agreement to focus only on open-access datasets and that concurrent or past shared tasks for the same datasets are not an issue. 選択基準。 厳しい基準では、オープンアクセスデータセットのみにフォーカスすることと、同じデータセットの同時あるいは過去の共有タスクが問題ではないことが合意された。 0.69
Overall, the sentiment determined the following selection principles: 全体として、感情は以下の選択原則を決定しました。 0.54
• We focus on diverse high-level tasks over a single high-level task evaluated in-depth. •1つのハイレベルタスクを詳細に評価し,多様なハイレベルタスクに焦点をあてる。 0.66
英語(論文から抽出)日本語訳スコア
However, each high-level task should include multiple datasets. しかし、各高レベルタスクには複数のデータセットを含めるべきです。 0.56
• We focus on clean datasets to avoid conflating •混ざりを避けるためにクリーンなデータセットに焦点を当てる 0.64
model mistakes and learned noise. モデルミスと学習ノイズ。 0.66
• We include a mix of high- and low-resource •高資源と低資源の混合を含む。 0.76
datasets. • We focus on data with interesting test sets. データセット。 •興味深いテストセットでデータに焦点を当てます。 0.71
• We should not focus on the quality of current ・電流の品質に焦点をあててはならない 0.75
evaluation strategies for a given dataset. 与えられたデータセットの評価戦略。 0.74
• We prefer multi-reference datasets since those have been shown to lead to more robust automatic evaluation. • より堅牢な自動評価につながることが示されているため,マルチ参照データセットが好まれる。 0.73
High-Level Tasks. Since these principles dictate that we should focus on a small set of high-level tasks, we used the free-text replies to evaluate the interest in different high-level tasks. 高レベルタスク。 これらの原則は、ハイレベルなタスクの小さなセットに集中するように指示するので、フリーテキストの返信を使って異なるハイレベルなタスクへの関心を評価しました。 0.62
Grouping the proposed tasks yielded the following candidates: Summarization, Dialog, Simplification/Compression, Question Answering, Creative Writing, Data-to-Text, and Question Generation.4 There was a preference to exclude image inputs and question answering because those tasks add complexity to the evaluation beyond the generated text. 提案するタスクをグループ化すると,要約,ダイアログ,単純化/圧縮,質問応答,創造的記述,データツーテキスト,質問生成などの候補が得られた。4 画像入力や質問応答を除外する傾向があった。 0.72
Moreover, since creative generation tasks like story generation and poetry generation suffer even more from inadequate evaluation approaches, there was a consensus to not include them. また、ストーリー生成や詩生成といった創造的な生成タスクは、不適切な評価アプローチによりさらに苦しむため、それらを含めないという合意があった。 0.60
There was, however, a strong preference for the high-level tasks Summarization, Data-to-text, and Dialog.5 しかし、高レベルのタスクの要約、データ・トゥ・テキスト、ダイアログ5に強い好みがあった。 0.64
Specific Datasets. 特定のデータセット。 0.62
The final selection is shown in Table 1. 最終選択は表1に示します。 0.75
To arrive at the selection, we first ranked all datasets by their average rating. 選択に到達するために、まずすべてのデータセットを平均評価でランク付けしました。 0.63
For this, we treated positive ratings as 1, negative ratings as -1, and neutral ratings as 0. そこで, 正の評価は1, 負の評価は-1, 中性評価は0。 0.68
The highestranked datasets were E2E with 0.577, XSum with 0.538, and ToTTo with 0.461. 最上位のデータセットは0.577のE2E、0.538のXSum、0.461のToTToである。 0.57
Unfortunately, nonEnglish datasets were ranked lower, with only WebNLG and MLSum among the top 15 datasets. 残念ながら、非英語データセットは下位にランクされ、上位15データセットのうち、WebNLGとMLSumのみである。 0.60
We grouped all datasets by their high-level tasks and selected a group that would not violate the selection principles (e.g., only high-resource tasks). すべてのデータセットを高レベルのタスクでグループ化し、選択原則に違反しないグループ(例えば、高リソースタスクのみ)を選びました。 0.73
If two datasets fit, we picked the one with a higher interest rating. 2つのデータセットが合えば、高い利率のデータセットを選びました。 0.56
Among the 11 datasets, we have seven different languages, and the dataset sizes 11のデータセットのうち、7つの異なる言語とデータセットサイズがあります。 0.69
4For a full overview of potential future expansions and challenges, we refer to the survey by Gatt and Krahmer (2018). 4 今後の拡張と課題の完全な概要については、gatt and krahmer (2018) による調査を参照。 0.62
5One may question the absence of Translation from this list. 5このリストから翻訳の不在を問うことができます。 0.74
While it is a generation task, we excluded it since Translation already has regular benchmarking efforts with WMT. これはジェネレーションタスクですが、translationはすでにwmtで定期的なベンチマーク作業を行っており、除外しました。 0.46
range from 5,000 examples to 1.5M, with most datasets between 50-150k examples. 5000の例から1.5Mの例まで、ほとんどのデータセットは50〜150kの例です。 0.55
Two of them do not include English at all, which we hope reduces the dependence of the modeling approaches on anglocentric pretraining (Anastasopoulos and Neubig, 2020). そのうちの2つは英語を全く含まないため、アングロセントリックな事前訓練(Anastasopoulos and Neubig, 2020)へのモデリングアプローチの依存を減らすことを願っている。 0.68
The high-level tasks include Dialog, Summarization, Data-to-Text, and Simplification. ハイレベルなタスクには、ダイアログ、要約、Data-to-Text、Simplificationなどがある。 0.51
About half of the datasets have multiple references and more than half had post-processing steps applied to them to ensure high data quality. データセットの約半分は複数の参照を持ち、半分以上は高いデータ品質を確保するために処理後ステップを適用しました。 0.70
3.1 GEMifying the data We produce data cards (Bender and Friedman, 2018; Gebru et al., 2018) for all data sets in GEM, for which we developed an NLG-specific template.6 In addition to describing the data itself, the cards acknowledge potential limitations of a dataset regarding its creation process and describe its real-world use cases to ensure that the research is conducted responsibly. 3.1 GEMifying the data we produce data card (Bender and Friedman, 2018; Gebru et al., 2018) for all data set in GEM, which which which we developed a NLG-specific template.6 データ自身を説明することに加えて、このカードはデータ作成プロセスに関するデータセットの潜在的な制限を認識し、その実際のユースケースを記述し、研究が責任を持って行われることを保証する。 0.81
These datasets are the base selection, and as part of GEM, we may change datasets and how they are used. これらのデータセットは基本選択であり、GEMの一部としてデータセットとそれらの使用方法を変更することがあります。 0.63
For example, we may improve the training sets, make the test sets more challenging, or probe for specific skills a model must exhibit with testonly datasets (Perez-Beltrachini and Gardent, 2017; Linzen, 2020; Ribeiro et al., 2020; Schlegel et al., 2020). 例えば、トレーニングセットを改善したり、テストセットをより困難にしたり、モデルがテスト専用データセット(Perez-Beltrachini and Gardent, 2017; Linzen, 2020; Ribeiro et al., 2020; Schlegel et al., 2020)で示さなければならない特定のスキルを調査したりすることがあります。 0.79
We may also ask to evaluate a single model on multiple test sets, following the design by Dua et al. また、Dua et alの設計に従って、複数のテストセットで単一のモデルを評価することも求められます。 0.73
(2019). For this release of the training sets, we are including modifications to several of the datasets: (1) MLSum: We excluded all languages besides Spanish and German since the sources for other languages disallow scraping content. (2019). トレーニングセットの今回のリリースには、いくつかのデータセットの変更が含まれている。(1) MLSum: 他の言語のソースがコンテンツをスクレイピングできないため、スペイン語とドイツ語以外のすべての言語は除外しました。 0.76
Additionally, we removed all duplicate items (i.e., items with the same input text) and we used langdetect7 to filter out examples that were in the wrong language. さらに、重複したアイテム(つまり同じ入力テキストを持つアイテム)をすべて削除し、langdetect7を使って間違った言語の例をフィルタしました。 0.81
In total, 147 examples were removed from the German portion (0.06%) and 7417 examples were removed from the Spanish portion (2.5%). 合計で147例がドイツ語部分から取り除かれ(0.06%)、7417例がスペイン語部分から取り除かれた(2.5%)。 0.71
(2) XSum: Summaries in this dataset often have divergence issues between the source and target texts since gold summaries are introductory sentences prefacing each article. 2)XSum:本データセットの要約は,各記事に先行するゴールド要約が序文であることから,ソーステキストとターゲットテキストの間にばらつきが生じることが多い。 0.69
Models agnostic to such noises are vulnerable to hallucinations (Wiseman et al., 2017; Dhingra et al., 2019). このようなノイズに非依存なモデルは幻覚に弱い(Wiseman et al., 2017; Dhingra et al., 2019)。 0.80
To combat this, we fine-tuned a BERT-based (Devlin et al., 2019) これに対抗するため、BERTベース(Devlin et al., 2019)を微調整した。 0.47
6Our template extends and restructures that from Hugging Face Datasets and along with a guide can be found at https: //gem-benchmark.com/ data_cards. https: //gem-benchmark.com/ data_cards.6Ourテンプレートは、Hugging Face Datasetsからガイドまでの拡張と再構築を行う。 0.70
7https://pypi.org/pr oject/langdetect/ 7https://pypi.org/pr oject/langdetect/ 0.34
英語(論文から抽出)日本語訳スコア
classifier on 500 document and gold summary pairs, manually annotated for faithfulness (Maynez et al., 2020) and excluded all document-summary pairs from the original XSum dataset where the classifier was not confident (p(faithful) > 0.8) whether the summary is faithful to the document or not. 500の文書と金の要約ペアの分類子 (maynez et al., 2020) を手作業で注釈付けし、分類子がドキュメントに忠実かどうかに関わらず(p(faithful) > 0.8)、元のxsumデータセットからすべての文書-要約ペアを除外した。 0.75
(3) Schema-Guided Dialog: We are focusing on the response-generation part of the dataset and thus reformatted the dataset to treat the service agent utterances as the targets to be generated and the previous customer utterance and the agent’s dialog act as the input. (3) スキーマガイドダイアログ: データセットの応答生成部分に重点を置いており、サービスエージェントの発話をターゲットとして扱い、前回の顧客発話とエージェントのダイアログを入力として扱うようにデータセットを再構築している。 0.80
We additionally reformat the dialog acts to directly conform to the format described in the paper (Kale and Rastogi, 2020). 我々はまた,ダイアログの動作を紙に記載された形式に直接適合するように再構築する(Kale and Rastogi, 2020)。 0.67
(4) WikiLingua: We focus on the same five languages that were benchmarked in its original release (en, es, ru, tr, vi). (4) WikiLingua: 最初のリリースでベンチマークされたのと同じ5つの言語(en, es, ru, tr, vi)に注目しています。 0.80
Specifically, we are focusing on assessing the cross-lingual alignment ability by varying the input language but always generating English. 具体的には、入力言語を変えながら常に英語を生成することで、言語間アライメント能力の評価に重点を置いている。
訳抜け防止モード: 特に私たちは 入力言語を変化させるが、常に英語を生成することで、クロス言語アライメント能力を評価すること。
0.69
The modifications to the remaining datasets will 残りのデータセットの変更は 0.74
affect only test sets and thus be released later. テストセットのみに影響し、後でリリースする。 0.80
4 Experimental Setup 4実験的セットアップ 0.90
Since the GEM test sets and final metrics selection have not been released yet, we describe an experimental setup that will ensure that participating models are trained correctly and evaluated on publicly available data with available metrics that will give a sufficient indication of a model’s performance. gemテストセットと最終的なメトリクス選択はまだリリースされていないので、参加するモデルが正しくトレーニングされ、利用可能なメトリクスと共に公開されているデータ上で評価されることを保証する実験的なセットアップについて説明する。 0.73
To do this, we are reporting the results of the baseline models on the validation sets. これを実現するため、私たちは検証セットのベースラインモデルの結果を報告しています。 0.74
4.1 Modeling Baselines Much of the recent modeling progress in NLP can be attributed to the rise of the pretrain-then-finetune paradigm which has led to consistently better results. 4.1 モデリングベースライン最近のNLPのモデリングの進歩の大部分は、常により良い結果をもたらすプリトレイン・タン・ファインチューンパラダイムの台頭によるものである。 0.74
This finding is consistent with human judgments for summarization, as shown by Fabbri et al. この発見は、Fabbriらが示すように、要約のための人間の判断と一致しています。 0.49
(2020), among others. (2020年)など。 0.59
However, many of the tasks included in GEM may not benefit from a language model encoder since their input is not natural language. しかし、GEMに含まれるタスクの多くは、入力が自然言語ではないため、言語モデルエンコーダの恩恵を受けない可能性がある。 0.68
We thus apply a variety of different architectures that vary in size, complexity, and training schema. したがって、サイズ、複雑さ、およびトレーニングスキーマが異なるさまざまなアーキテクチャを適用します。 0.67
Our main baselines are T5 with 60M parameters (Raffel et al., 2020) and BART with 139M parameters (Lewis et al., 2020a). 主なベースラインは60MパラメータのT5(Raffel et al., 2020)と139MパラメータのBART(Lewis et al., 2020a)である。 0.86
For nonEnglish datasets, we use their multilingual counterparts mT5 (Xue et al., 2020) and mBART (Liu et al., 2020b). 非英語データセットでは、多言語対応のmT5(Xue et al., 2020)とmBART(Liu et al., 2020b)を使用します。 0.74
We additionally train the following baselines on a subset of tasks: TGen (with added language model and lemma tags denoted さらに、タスクのサブセットに基づいて以下のベースラインをトレーニングします。 0.31
as TGen+/++) (Dušek and Jurˇcíˇcek, 2016b), an architecture for generation from dialog acts, an LSTM-based Sequence-to-sequence model with attention (Bahdanau et al., 2015), DialoGPT (Zhang et al., 2020c), a pretraining approach for conversational models, and PEGASUS (Zhang et al., 2020a), which uses a summarization-specific pretraining schema that masks and predicts entire sentences.For WikiLingua, we additionally report results on a setup proposed by Ladhak et al. TGen+/++ として (Dušek and Jur'cí'cek, 2016b) ダイアログから生成するアーキテクチャ、LSTMベースのSequence-to-Sequence モデルに注目(Bahdanau et al., 2015), DialoGPT (Zhang et al., 2020c), PEGASUS (Zhang et al., 2020a), 要約固有の事前トレーニングスキーマを使用して文全体をマスクし,予測する。WikiLingua では,Ladhak et al. によって提案されたセットアップについて,さらに報告する。 0.82
(2020) which includes first training a monolingual model followed by finetuning with the correct source language, coupled with synthetic data generated through translation (mBART+). 翻訳によって生成された合成データ(mBART+)と結合し、正しいソース言語で微調整するモノリンガルモデルの最初のトレーニングを含む(2020)。 0.78
Almost all baselines can be reproduced on a GPUbased colaboratory notebook within 2-3 hours. ほぼすべてのベースラインはGPUベースのコラボレーティブノートブック上で2~3時間で再現できる。 0.66
4.2 Automated Evaluation As mentioned above, GEM provides a testbed for automated metrics and can be used to popularize newly developed ones. 4.2 自動評価 前述したように、GEMは自動メトリクスのテストベッドを提供し、新しく開発されたメトリクスの普及に使用できる。 0.68
Thus, models are evaluated via a constantly expanding list of metrics and, to avoid overfitting to known metrics, we will use metrics on the test submissions that are not included in this initial writeup. したがって、モデルは絶えず拡大するメトリクスリストを通じて評価され、既知のメトリクスにオーバーフィットしないように、この初期書き込みに含まれていないテスト送信のメトリクスを使用します。 0.69
Consequentially, the baseline results are an incomplete list which will be expanded upon the announcement of the test metrics. 結果として、ベースラインの結果は、テストメトリクスの発表時に拡張される不完全なリストである。 0.73
The set of metrics can be computed via the framework described at https://gem-benchmar k. メトリクスのセットは、https://gem-benchmar k.com で記述されたフレームワークで計算できます。 0.53
com/shared_task which comprises metrics in the following categories: Lexical Similarity. lexical similarity.com/share d_taskは以下のカテゴリのメトリクスを含んでいる。 0.61
We include multiple “traditional” metrics as baseline metrics, notably BLEU (Papineni et al., 2002), ROUGE-1/2/L (Lin, 2004), and METEOR (Banerjee and Lavie, 2005). 例えば、BLEU (Papineni et al., 2002), ROUGE-1/2/L (Lin, 2004), METEOR (Banerjee and Lavie, 2005) などです。
訳抜け防止モード: 特にBLEU(Papineni et al , 2002 )では,ベースラインメトリクスとして“従来型”のメトリクスが多数含まれています。 ROUGE-1/2 / L (Lin, 2004 ) と METEOR (Banerjee and Lavie, 2005 )。
0.69
These metrics can often be gamed, for example, ROUGE can be improved by increased the output length of the model (Sun et al., 2019). 例えば、ROUGEはモデル(Sun et al., 2019)の出力長を増やすことで改善することができる。 0.52
Moreover, the reliability of these metrics depends on the quality and number of the references (Mathur et al., 2020a; Freitag et al., 2020). さらに、これらの指標の信頼性は基準の品質と数に依存する(Mathur et al., 2020a; Freitag et al., 2020)。 0.78
However, on a system-level, they still correlate well with human judgments for some tasks (Reiter, 2018). しかし、システムレベルでは、一部のタスクに対する人間の判断とよく相関している(Reiter, 2018)。 0.69
Semantic Equivalence. More recently, metrics that rely on pretrained language models have shown improved correlations with human judgments on the segment-level. 意味的等価性。 最近では、予め訓練された言語モデルに依存するメトリクスは、セグメントレベルでの人間の判断との相関を改善しました。 0.57
We thus include BERTScore (Zhang et al., 2020b), a metric based on the similarity of sentence embeddings, and BLEURT (Sellam et al., 2020), a metric that is fine-tuned on human ratings. 本研究では, 文章埋め込みの類似性に基づく尺度であるBERTScore (Zhang et al., 2020b) と, 人間の評価を微調整した指標であるBLEURT (Sellam et al., 2020b) を含む。 0.75
The reported baseline 報告されたベースライン 0.67
英語(論文から抽出)日本語訳スコア
Figure 2: A screenshot of the interactive result exploration tool. 図2: インタラクティブな結果探索ツールのスクリーンショット。 0.70
[Top Left] The selection of tasks, task-groups, or individual submissions. [トップ左]タスク、タスクグループ、または個別のサブミッションの選択。 0.70
[Top Right] The selection of metric-groups or metrics [Bottom] The parallel coordinates visualization of the selection. [Top right] メトリックグループまたはメトリクスの選択 [Bottom] 並列座標は、選択を視覚化する。 0.83
The selection here can be filtered by brushing over a section of an individual metric, as is shown here for BLEURT. ここでの選択は、BLEURTで示されているように、個々のメトリックのセクションをブラッシングすることでフィルタリングすることができる。 0.66
Hovering over a line presents detailed information of the particular submission. 行を乗っ取ると、特定の提出の詳細な情報が表示される。 0.49
results use RoBERTa-large (Liu et al., 2019) and mBERT (Devlin et al., 2019) for BERTScore and the English-only BLEURT-base-128 for BLEURT. BERTScoreはRoBERTa-large (Liu et al., 2019)、BERTScoreはmBERT (Devlin et al., 2019)、BLEURTはBLEURT-base-128である。 0.77
Probing for Faithfulness. While not included in this initial release, we want to note another approach that has shown promise in summarization. 信仰の証人。 この最初のリリースには含まれていないが、要約における約束を示す別のアプローチに注目したい。 0.59
The approach relies on the insight that a reader of a reference and generated summary should be able to answer the same question, regardless of how the summary is phrased. このアプローチは、参照と生成された要約の読者が要約のフレーズに関係なく、同じ質問に答えることができるべきであるという洞察に依存しています。 0.63
There has been much development toward these QA-based approaches (Eyal et al., 2019; Scialom et al., 2019; Durmus et al., 2020; Wang et al., 2020, among others) and they can provide an alternative angle to model evaluation that does not highly correlate with other evaluation approaches (Fabbri et al., 2020). これらのQAベースのアプローチ(Eyal et al., 2019; Scialom et al., 2019; Durmus et al., 2020; Wang et al., 2020)には多くの開発があり、他の評価アプローチと高い相関性を持たないモデル評価(Fabbri et al., 2020)に代わる角度を提供することができる。 0.85
In addition to faithfulness, there have also been related efforts to provide more fine-grained and interpretable metrics, for example to measure consistency in datato-text problems (Opitz and Frank, 2020; Dhingra et al., 2019) or to combine multiple measures such as entailment and similarity (Kané et al., 2020). 忠実性に加えて、データテキスト問題の一貫性を測定する(Opitz and Frank, 2020; Dhingra et al., 2019)、エンテーメントや類似性といった複数の指標を組み合わせる(Kané et al., 2020)といった、よりきめ細やかで解釈可能なメトリクスの提供にも、関連する取り組みがある。 0.73
Diversity. As argued by Hashimoto et al. 多様性。 橋本らによって主張された。 0.55
(2019) among many others, NLG models intrinsically trade off diversity and quality. (2019)など、NLGモデルは本質的に多様性と品質をトレードオフしている。 0.70
A model can produce more diverse outputs through sampling but at the cost of output quality. モデルはサンプリングによってより多様な出力を生成することができるが、出力品質のコストはかかる。 0.70
To account for this as- pect, we compute multiple diversity metrics, starting with those proposed for the analysis of the results of the E2E NLG challenge (Dusek et al., 2020) and by van Miltenburg et al. このことを考慮し、 pectは、E2E NLGチャレンジ(Dusek et al., 2020)とvan Miltenburgらによる結果の分析のために提案されたものから始まり、複数の多様性メトリックを計算します。 0.72
(2018). These include the Shannon Entropy (Shannon and Weaver, 1963) over unigrams and bigrams (H1, H2), the mean segmented type token ratio over segment lengths of 100 (MSTTR, Johnson, 1944), the ratio of distinct n-grams over the total number of n-grams (Distinct1,2), and the count of n-grams that only appear once across the entire test output (Unique1,2, Li et al., 2016). (2018). 例えば、shannon entropy (shannon and weaver, 1963) over unigrams and bigrams (h1, h2), the mean segmented type token ratio over segment lengths of 100 (msttr, johnson, 1944), the ratio of distinct n-grams over the total number of n-grams (distinct1,2), and count of n-grams only once across the test output (unique1,2, li et al., 2016)などである。 0.86
System Characterization. The final section of metrics will characterize the systems. システム特性。 メトリクスの最後のセクションは、システムを特徴づけます。 0.67
While the focus of this section will be on qualitative descriptions through model cards, we also gather quantitative information that is not necessarily associated with a judgment. この節の焦点は、モデルカードによる定性的な記述に焦点を当てる一方で、必ずしも判断に関連付けられない定量的情報も収集する。 0.66
As part of this, we collect the number of parameters of a system, as suggested by Ethayarajh and Jurafsky (2020). これの一部として、 ethayarajh と jurafsky (2020) が提案したように、システムのパラメータの数を収集する。 0.78
For each task, we additionally report the vocabulary size over the output (|V|) and the mean output length of a system (Sun et al., 2019). 各タスクについて、出力(|v|)上の語彙サイズとシステムの平均出力長(sun et al., 2019)を報告します。
訳抜け防止モード: 各タスクに対して、出力 ( |V| ) 上の語彙サイズも報告する。 そして,システムの平均出力長 (Sun et al , 2019 )。
0.78
5 Results One of the central aims of GEM is to measure the progress in NLG without misrepresenting the 5結果 GEMの中心的目的の1つは、NLGの進捗を誤解せずに測定することである。
訳抜け防止モード: 5結果 GEMの中心的目的の1つは NLGの進捗を誤認することなく測定する
0.76
英語(論文から抽出)日本語訳スコア
Dataset CommonGen データセット CommonGen 0.74
Czech Restaurant DART チェコのレストラン DART 0.75
E2E clean MLSum (de) MLSum (es) E2Eクリーニング MLSum (de) MLSum (es) 0.74
Schema-Guided ToTTo XSum スキーマガイド ToTTo XSum 0.69
WebNLG (en) WebNLG (en) 0.85
WebNLG (ru) WebNLG(ru) 0.84
Turk Model BART T5 TGen TGen+ TGen++ BART T5 BART LSTM T5 TGen mBART mBART BART T5 T5 PEGASUS mBART mT5 mBART mT5 BART T5 BART T5 トルコ モデル BART T5 TGen TGen+ TGen++ BART T5 BART LSTM T5 TGen mBART mBART BART T5 T5 PEGASUS mBART mT5 mBART mT5 BART T5 0.74
ASSET WikiLingua (es→en) mBART mBART+ WikiLingua (ru→en) mBART mBART+ WikiLingua (tr→en) mBART mBART+ WikiLingua (vi→en) mBART mBART+ ASSET WikiLingua (es→en) mBART mBART+ WikiLingua (ru→en) mBART mBART+ WikiLingua (tr→en) mBART mBART+ WikiLingua (vi→en) mBART mBART+ 0.80
Metrics (Lexical Similarity and Semantic Equivalence) Metrics (Lexical similarity and Semantic Equivalence) 0.84
METEOR ROUGE-1 ROUGE-2 ROUGE-L BLEU BERTScore BLEURT -0.400 -0.412 – – – -0.261 -0.091 0.190 0.252 0.384 0.412 – – -1.355 0.009 0.179 -0.186 0.458 -0.081 – – 0.358 0.495 0.407 0.468 -0.290 -0.248 -0.369 -0.303 -0.414 -0.252 -0.394 -0.284 METEOR ROUGE-1 ROUGE-2 ROUGE-L BLEU BERTScore BLEURT -0.400 -0.412 – – – -0.261 -0.091 0.190 0.252 0.384 0.412 – – -1.355 0.009 0.179 -0.186 0.458 -0.081 – – 0.358 0.495 0.407 0.468 -0.290 -0.248 -0.369 -0.303 -0.414 -0.252 -0.394 -0.284 0.42
0.301 0.291 0.152 0.151 0.167 0.107 0.115 0.373 0.394 0.369 0.391 0.437 0.210 0.089 0.331 0.363 0.216 0.462 0.287 0.613 0.180 0.556 0.649 0.560 0.581 0.178 0.196 0.153 0.174 0.164 0.204 0.150 0.183 0.301 0.291 0.152 0.151 0.167 0.107 0.115 0.373 0.394 0.369 0.391 0.437 0.210 0.089 0.331 0.363 0.216 0.462 0.287 0.613 0.180 0.556 0.649 0.560 0.581 0.178 0.196 0.153 0.174 0.164 0.204 0.150 0.183 0.40
0.943 0.942 0.650 0.651 0.648 0.862 0.901 0.948 0.950 0.945 0.949 0.888 0.836 0.691 0.874 0.914 0.918 0.967 0.922 0.888 0.917 0.967 0.974 0.982 0.984 0.853 0.858 0.839 0.851 0.837 0.866 0.836 0.853 0.943 0.942 0.650 0.651 0.648 0.862 0.901 0.948 0.950 0.945 0.949 0.888 0.836 0.691 0.874 0.914 0.918 0.967 0.922 0.888 0.917 0.967 0.974 0.982 0.984 0.853 0.858 0.839 0.851 0.837 0.866 0.836 0.853 0.40
55.1 54.5 13.6 13.8 9.7 7.1 8.4 57.8 58.9 56.4 58.4 39.8 22.4 11.3 52.6 60.1 38.1 70.3 53.6 33.0 18.2 89.9 95.5 89.6 92.6 32.4 34.1 27.8 31.9 28.1 37.9 26.4 32.5 55.1 54.5 13.6 13.8 9.7 7.1 8.4 57.8 58.9 56.4 58.4 39.8 22.4 11.3 52.6 60.1 38.1 70.3 53.6 33.0 18.2 89.9 95.5 89.6 92.6 32.4 34.1 27.8 31.9 28.1 37.9 26.4 32.5 0.40
27.5 26.4 0.03 0.03 0.03 0.02 0.02 43.5 46.9 43.0 46.0 28.2 7.4 2.7 33.4 42.2 17.0 66.1 34.1 47.0 17.8 88.3 95.1 92.4 93.4 12.2 14.3 9.3 12.0 11.7 17.5 9.2 13.3 27.5 26.4 0.03 0.03 0.03 0.02 0.02 43.5 46.9 43.0 46.0 28.2 7.4 2.7 33.4 42.2 17.0 66.1 34.1 47.0 17.8 88.3 95.1 92.4 93.4 12.2 14.3 9.3 12.0 11.7 17.5 9.2 13.3 0.40
63.5 64.0 13.6 13.8 9.7 7.1 8.4 73.6 75.0 72.6 74.7 43.8 28.4 13.6 58.2 70.1 46.5 83.4 63.0 34.8 18.9 90.3 95.7 90.1 92.1 38.3 40.7 33.1 37.3 34.4 43.7 32.0 38.1 63.5 64.0 13.6 13.8 9.7 7.1 8.4 73.6 75.0 72.6 74.7 43.8 28.4 13.6 58.2 70.1 46.5 83.4 63.0 34.8 18.9 90.3 95.7 90.1 92.1 38.3 40.7 33.1 37.3 34.4 43.7 32.0 38.1 0.40
32.5 29.4 0.0 0.0 0.0 0.0 0.0 48.5 50.3 47.5 49.6 33.1 10.9 4.4 36.8 48.3 23.2 63.1 41.3 13.4 3.9 86.1 92.9 82.3 92.3 15.4 16.9 11.9 14.9 13.0 20.8 11.1 15.4 32.5 29.4 0.0 0.0 0.0 0.0 0.0 48.5 50.3 47.5 49.6 33.1 10.9 4.4 36.8 48.3 23.2 63.1 41.3 13.4 3.9 86.1 92.9 82.3 92.3 15.4 16.9 11.9 14.9 13.0 20.8 11.1 15.4 0.40
Table 2: The set of baseline results we release alongside GEM with a focus on reference-based evaluation. 表2:基準ベースの評価に焦点を当てたGEMとともにリリースするベースライン結果のセット。 0.77
complex interactions between the sometimes contradicting measures. しばしば矛盾する尺度間の複雑な相互作用。 0.73
We thus will not distill the complex interplay of the data, metrics, and model outputs into a single number or statement, and we do not present results in a traditional leaderboard. したがって、データ、メトリクス、モデル出力の複雑な相互作用を単一の番号またはステートメントに蒸留することはなく、従来のリーダーボードで結果を提示することはありません。 0.69
Instead, we developed an interactive result exploration system that allows analyses of model results, and which we describe in this section. その代わりに、モデル結果の分析を可能にするインタラクティブな結果探索システムを開発し、このセクションで説明します。 0.77
To further motivate this change, consider the following conclusion someone may draw from looking at a leaderboard: この変更をさらに動機づけるには、リーダーボードを見て、次の結論を検討してください。 0.59
System Foo performs the best. System Fooがベストを尽くします。 0.82
Our interactive system aims to enable more nuanced statements such as: インタラクティブなシステムは、次のようなニュアンスの高いステートメントの実現を目指しています。 0.46
System Foo leads to consistent performance increases in Bar-type metrics on System FooはBarタイプのメトリクスで一貫したパフォーマンス向上をもたらす 0.74
challenges that measure Baz while maintaining equal performance on most metrics of type Qux. quxのほとんどのメトリクスで同等のパフォーマンスを維持しながら、bazを測定する課題。 0.54
A screenshot of our system is presented in Figure 2.8 In addition, our baseline results are presented in a tabular view in Tables 2 and 3. 図2.8にシステムのスクリーンショットが示され、さらに表2と表3の表3でベースラインの結果が示されています。 0.72
Our interactive system is centered around a parallel coordinates plot (Inselberg, 1985) which shows all results as lines through parallel axes. 我々のインタラクティブシステムは並列座標プロット(inselberg, 1985)を中心に,すべての結果を平行軸を通る線として表示する。 0.82
Every line intersects the axes at the corresponding mapped value. 各行は対応するマップされた値で軸を交わる。 0.77
For instance, see the red line representing the results for task “ToTTo” of baseline “t5-small”. 例えば、ベースライン “t5-small” のタスク “ToTTo” の結果を表す赤い行を参照してください。 0.78
Filters can be applied along axes (see BLEURT axis in Figure 2) and the filtered selection is highlighted through bold lines. フィルタは軸に沿って適用することができ(図2のブレルート軸を参照)、フィルターされた選択は大胆な線でハイライトされる。 0.66
A selection can be a set of metrics, systems, or tasks. 選択はメトリクス、システム、タスクのセットでもよい。 0.58
This style of presenta- 8An initial version showcasing our baseline results is de- この形式。 8 ベースライン結果を示す初期バージョンがde- 0.59
ployed on our website. 私達のウェブサイトでployed。 0.72
英語(論文から抽出)日本語訳スコア
Metrics (Diversity and System Characterization) メトリクス(多様性とシステム特性) 0.75
H2 Unique1 Unique2 H2 Unique1 Unique2 0.67
Dataset CommonGen データセット CommonGen 0.74
Czech Restaurant DART チェコのレストラン DART 0.75
E2E clean MLSum (de) MLSum (es) E2Eクリーニング MLSum (de) MLSum (es) 0.74
Schema-Guided ToTTo XSum WebNLG (en) スキーマガイド ToTTo XSum WebNLG (en) 0.69
WebNLG (ru) WebNLG(ru) 0.84
Turk ASSET WikiLingua (es→en) mBART mBART+ WikiLingua (ru→en) mBART mBART+ WikiLingua (tr→en) mBART mBART+ WikiLingua (vi→en) mBART mBART+ トルコ ASSET WikiLingua (es→en) mBART mBART+ WikiLingua (ru→en) mBART mBART+ WikiLingua (tr→en) mBART mBART+ WikiLingua (vi→en) mBART mBART+ 0.70
Model BART T5 TGen TGen+ TGen++ BART T5 BART LSTM T5 TGen mBART mBART BART T5 T5 PEGASUS mBART mT5 mBART mT5 BART T5 BART T5 モデル BART T5 TGen TGen+ TGen++ BART T5 BART LSTM T5 TGen mBART mBART BART T5 T5 PEGASUS mBART mT5 mBART mT5 BART T5 0.88
MSTTR Distinct1 Distinct2 H1 7.1 10.7 0.41 6.5 10.1 0.36 8.0 6.4 0.11 6.5 8.1 0.12 6.5 8.1 0.11 8.4 11.3 0.45 8.0 10.7 0.42 7.2 5.7 0.02 5.6 7.1 0.02 6.9 5.6 0.01 0.02 5.6 7.2 0.52 10.6 16.3 0.47 10.1 15.7 7.0 0.06 9.2 0.10 7.9 10.6 0.54 10.1 14.4 0.64 9.3 13.1 8.6 11.8 0.27 8.3 11.5 0.32 8.1 10.3 0.20 0.17 7.3 9.0 9.8 14.1 0.74 9.9 14.2 0.72 9.8 14.1 0.73 0.72 9.9 14.2 8.8 14.0 0.19 9.1 14.5 0.21 8.5 13.3 0.20 8.8 13.7 0.23 0.28 7.7 11.2 8.0 11.9 0.38 8.2 12.3 0.28 0.33 8.6 12.9 MSTTR Distinct1 Distinct2 H1 7.1 10.7 0.41 6.5 10.1 0.36 8.0 6.4 0.11 6.5 8.1 0.12 6.5 8.1 0.11 8.4 11.3 0.45 8.0 10.7 0.42 7.2 5.7 0.02 5.6 7.1 0.02 6.9 5.6 0.01 0.02 5.6 7.2 0.52 10.6 16.3 0.47 10.1 15.7 7.0 0.06 9.2 0.10 7.9 10.6 0.54 10.1 14.4 0.64 9.3 13.1 8.6 11.8 0.27 8.3 11.5 0.32 8.1 10.3 0.20 0.17 7.3 9.0 9.8 14.1 0.74 9.9 14.2 0.72 9.8 14.1 0.73 0.72 9.9 14.2 8.8 14.0 0.19 9.1 14.5 0.21 8.5 13.3 0.20 8.8 13.7 0.23 0.28 7.7 11.2 8.0 11.9 0.38 8.2 12.3 0.28 0.33 8.6 12.9 0.40
0.12 0.11 0.03 0.04 0.04 0.19 0.19 0.005 0.004 0.004 0.004 0.11 0.10 0.02 0.03 0.18 0.20 0.09 0.10 0.08 0.07 0.23 0.22 0.23 0.22 0.03 0.03 0.04 0.04 0.08 0.12 0.07 0.08 0.12 0.11 0.03 0.04 0.04 0.19 0.19 0.005 0.004 0.004 0.004 0.11 0.10 0.02 0.03 0.18 0.20 0.09 0.10 0.08 0.07 0.23 0.22 0.23 0.22 0.03 0.03 0.04 0.04 0.08 0.12 0.07 0.08 0.40
0.57 0.51 0.57 0.61 0.56 0.55 0.51 0.32 0.31 0.30 0.31 0.78 0.71 0.56 0.67 0.73 0.73 0.53 0.49 0.46 0.35 0.73 0.73 0.73 0.73 0.55 0.58 0.54 0.55 0.45 0.52 0.54 0.54 0.57 0.51 0.57 0.61 0.56 0.55 0.51 0.32 0.31 0.30 0.31 0.78 0.71 0.56 0.67 0.73 0.73 0.53 0.49 0.46 0.35 0.73 0.73 0.73 0.73 0.55 0.58 0.54 0.55 0.45 0.52 0.54 0.54 0.40
583 465 58 84 85 1.3k 1.2k 16 19 7 19 27k 19k 1.8k 1.6k 15k 3.0k 969 1.1k 334 250 5.5k 5.9k 5.9k 5.9k 4.7k 5.9k 2.8k 3.5k 743 1.2k 1.5k 2.1k 583 465 58 84 85 1.3k 1.2k 16 19 19 27k 19k 1.8k 1.6k 15k 3.0k 969 1.1k 334 250 5.5k 5.9k 5.9k 5.9k 4.7k 5.8k 3.5k 743 1.2k 1.5k 2.1k 0.48
2.7k 1.2k 2.0k 1.0k 245 239 290 305 280 297 3.6k 2.4k 3.1k 2.1k 149 104 106 139 125 60 140 116 46k 166k 120k 35k 6.2k 3.9k 5.8k 3.8k 60k 21k 13k 5k 4.0k 3.2k 4.8k 2.7k 1.1k 1.2k 797 747 23k 8.6k 25k 9.3k 24k 9.1k 26k 9.4k 15k 63k 83k 18k 28k 8.7k 35k 10k 4.1k 2.1k 6.1k 2.8k 9.3k 4.0k 13k 5.3k 2.7k 1.2k 2.0k 1.0k 245 239 290 305 280 297 3.6k 2.4k 3.1k 2.1k 149 104 106 139 125 60 140 116 46k 166k 120k 35k 3.2k 3.9k 3.8k 60k 21k 13k 4.0k 4.8k 4.1k 1.1k 1.2k 797 747 23k 8.6k 25k 9.3k 24k 9.1k 26k 9.4k 15k 63k 18k 8.7k 35k 4.1k 2.1k 2.8k 9.3k 13k 5.0k 5.3k 5.3k 5.3k 5.3k 0.46
|V| Output Len. 10.5 9.6 9.1 9.2 9.5 12.0 10.8 22.0 23.1 23.0 23.2 35.7 32.3 22.0 11.8 15.3 22.9 20.7 15.8 18.9 13.3 18.4 20.1 20.1 21.3 29.4 32.5 27.3 28.4 34.2 30.7 26.9 29.8 V| 出力レベル。 10.5 9.6 9.1 9.2 9.5 12.0 10.8 22.0 23.1 23.0 23.2 35.7 32.3 22.0 11.8 15.3 22.9 20.7 15.8 18.9 13.3 18.4 20.1 20.1 21.3 29.4 32.5 27.3 28.4 34.2 30.7 26.9 29.8 0.58
Table 3: Results of the baseline results we release with GEM, focusing on diversity of the outputs and neutral system characterizations. 表3:GEMでリリースしたベースライン結果の結果は、出力の多様性と中立システム特性に焦点を当てています。 0.77
tion has not been used before for a benchmark. tionは以前ベンチマークで使用されていなかった。 0.64
The closest prior work is by Fu et al. 最も近い先行作業は Fu et al である。 0.72
(2020) for namedentity recognition which allows similar filtering and sorting, but presents the results in a table. (2020) 類似のフィルタリングとソートを可能にするが、結果を表に示すnamedentity認識。
訳抜け防止モード: (2020年)も同様なフィルタリングとソートが可能な名前認識を行う。 結果をテーブルに表示します
0.80
However, the parallel coordinates approach can scale to a much greater number of metrics than a table. しかし、並列座標法はテーブルよりもはるかに多くのメトリクスにスケールすることができる。 0.73
Moreover, by using a parallel coordinates plot instead of a table, it is easy to spot patterns that span multiple metrics, systems, or tasks. さらに、テーブルの代わりに並列座標プロットを使用することで、複数のメトリクスやシステム、タスクにまたがるパターンを見つけることが簡単になります。 0.80
For example, the highlighted line in Figure 2 uncovers that, for the T5 baseline on ToTTo, the diversity metrics score higher than other systems while scoring lower on reference-based metrics. 例えば、図2の強調線は、ToTToのT5ベースラインでは、多様性の指標が他のシステムよりも高く、参照ベースの指標では低いことを明らかにしている。 0.63
Since we only have a single baseline for ToTTo, it is unclear whether this difference can be attributed to the dataset or the system but this relationship will be uncovered once we receive submissions. ToTToのベースラインは1つしかないため、この違いがデータセットやシステムに起因するかどうかは不明ですが、この関係は提出を受けると明らかになります。 0.68
The final system will additionally be able to 最終システムがさらに可能になります。 0.78
display the model cards and other related metainformation associated with submissions. モデルカードおよび提出に関連する他の関連メタ情報を表示する。 0.71
It will also be able to show (and compare) exemplary outputs for each test set. また、各テストセットの例の出力を表示(および比較)することもできます。 0.84
Those two features will improve the transparency of the results and systems to those who are not familiar with a task and provide necessary information to those who consider using a particular system. これら2つの機能は、タスクに精通していない人々に結果とシステムの透明性を向上し、特定のシステムの使用を検討する人々に必要な情報を提供する。 0.76
The combination of all components will enable analysis on quantitative, individual, and qualitative level which can support formulating new research hypotheses and gather in-depth insights about system performance. すべてのコンポーネントの組み合わせによって、定量的、個人的、質的レベルの分析が可能になり、新たな研究仮説の定式化を支援し、システムパフォーマンスに関する深い洞察を得ることができる。 0.57
For example, the functionality to compare human annotation and automatic measures could lead to a better understanding how fluency affect BERTScore. 例えば、人間のアノテーションと自動測定値を比較する機能は、bertscoreにフルーエンスがどのように影響するかをより理解させる可能性がある。 0.56
In addition to the interactive self-directed result exploration, our shared task features an evaluation and analysis part. 対話型自己指揮型結果探索に加えて,共有タスクは評価と分析部を特徴とする。 0.77
Instead of dictating the interpre- 通訳を指示する代わりに 0.57
英語(論文から抽出)日本語訳スコア
tation of the modeling shared task results, we will release all system outputs and metrics in this second part and participants of this part may run their own evaluation and conduct interesting analyses. 共有タスクの結果をモデル化し、このパートで全てのシステム出力とメトリクスを公開し、このパートの参加者は独自の評価を行い、興味深い分析を行うことができる。 0.79
6 Next Steps This section lists the currently active developments and the long-term steps we will take to ensure that GEM will continue to evolve and improve. 次の6ステップ この節では、現在活発な開発状況と、GEMの進化と改善を確実にするための長期的なステップをリストアップします。 0.71
6.1 Challenge Sets In addition to applying consistent metrics to existing test sets, mining specific model behavior, such as model generalization capabilities or performance under targeted cases, is also key for improvement. 6.1 チャレンジセット 既存のテストセットに一貫したメトリクスを適用することに加えて、モデル一般化機能やターゲットケースでのパフォーマンスといった特定のモデルの振る舞いをマイニングすることも改善の鍵となる。 0.76
This is difficult to assess through evaluations on i.i.d. これはi.i.dの評価によって評価することは困難である。 0.50
test splits. We will thus release specific challenge sets to evaluate data-to-text and text-to-text models. テストスプリット。 したがって、データ-テキストとテキスト-テキストモデルを評価するための特定のチャレンジセットをリリースします。 0.57
In addition to enabling a more specific breakdown of how a model performs in the presence of challenging inputs, the set of system outputs on these test sets also constitutes a rich corpus that enables further error analysis and research. 挑戦的な入力の存在下でモデルがどのように振る舞うかのより具体的な説明を可能にするだけでなく、これらのテストセット上のシステム出力のセットは、さらなるエラー分析と研究を可能にする豊富なコーパスを構成する。 0.72
We apply multiple strategies to create the special test sets, in particular (i) the alteration of the existing test sets (e.g., the introduction of distractors), (ii) the breaking down of the existing test sets into subsets with pre-established specificities (e.g., feature- or frequency-controlled subsets), and (iii) the compilation of new test sets (e.g., compile out-of-vocabulary inputs). 特別なテストセットを作成するために複数の戦略、特に(i)既存のテストセットの変更(例えば、注意注意点の導入)、(ii)既存のテストセットを予め確立された特異性(例えば、特徴量または周波数制御されたサブセット)のサブセットに分割すること、(iii)新しいテストセットのコンパイル(例えば、語彙外入力のコンパイル)を行う。 0.87
Some of the test sets will also not be evaluated, and are developed to produce a rich set of outputs for future (manual) error analyses. テストセットのいくつかは評価されず、将来の(手動)エラー解析のためのリッチなアウトプットを生成するために開発される。 0.76
The test sets will be released according to the schedule listed on our website https:// gem-benchmark.com/. テストセットは、当社のwebサイトhttps://gem-benchmar k.com/にあるスケジュールに従ってリリースされます。 0.67
6.2 Human Evaluation GEM can be used to develop reproducible and consistent human evaluation strategies for generated text. 6.2 人的評価GEMは、生成したテキストに対する再現性と一貫性のある人的評価戦略を開発するために使用できる。
訳抜け防止モード: 6.2 人間評価GEMを使用できます。 生成テキストの再現性と一貫した人間評価戦略を開発する。
0.68
This task involves selecting and defining which quantities of the generated text should be measured, developing annotation schemes and rater guidelines to capture these quantities accurately, and infrastructure to annotate system outputs. このタスクは、生成されたテキストのどの量を計測すべきかの選択と定義、これらの量を正確に捉えるためのアノテーションスキームとレートガイドラインの開発、システム出力を注釈化するインフラストラクチャーを含む。 0.64
This process is complicated by the fact that GEM includes different task setups such as summarization, dialogue, simplification, and data-to-text. このプロセスは、GEMが要約、対話、簡略化、およびデータ・トゥ・テキストなどの異なるタスク設定を含むという事実によって複雑です。
訳抜け防止モード: このプロセスは複雑です。 GEMには、要約、対話、簡略化、データ-to-テキストなどのさまざまなタスクセットアップが含まれます。
0.64
To approach this task, we will follow the recently proposed taxonomy of human evaluation measures この課題に取り組むため、最近提案された人間評価対策の分類法に従います。 0.69
by Belz et al. Belzらによって。 0.70
(2020) and follow the reporting strategies proposed by Howcroft et al. (2020)およびHowcroftらの提案した報告戦略に従う。 0.78
(2020). All shared task participants will be asked to provide gold annotations on system outputs, which we will then use to evaluate the consistency of crowdsourced annotations.9 (2020). すべての共有タスク参加者は、システム出力にゴールドアノテーションを提供するよう求められ、クラウドソースアノテーションの一貫性を評価するために使用します。
訳抜け防止モード: (2020). すべての共有タスク参加者は、システムアウトプットにゴールドアノテーションを提供するように求められます。 crowdsourcedannotati ons.9の一貫性を評価するために使用します
0.78
6.3 Collecting more multilingual data 6.3多言語データ収集 0.77
Many of the initial datasets in GEM are focused on (American or British) English; we see this release as a starting point for the collection of new datasets to improve the inclusiveness of other languages and cultures. GEMの初期データセットの多くは(米国または英国)英語に焦点を当てています。このリリースは、他の言語や文化の包含性を改善するための新しいデータセットの収集の出発点であると考えています。 0.72
From the task point of view, to ensure the longevity of the dataset, we want it to be practical and socially beneficial. タスクの観点から、データセットの寿命を確保するために、それを実用的で社会的に有益にしたいのです。 0.66
Through GEM, we have developed a set of desired criteria for NLG datasets and we aim to apply this knowledge to data collection and actively work toward reducing the disparity in data availability between languages (Joshi et al., 2020). GEMを通じて,NLGデータセットの望ましい基準のセットを開発し,この知識をデータ収集に適用し,言語間のデータ可用性の格差の低減に積極的に取り組むことを目的としている(Joshi et al., 2020)。 0.82
To this end, we are focusing on a task that requires content selection, planning, and surface realization along in a grounded scenario. この目的のために、我々は、地上シナリオに沿ってコンテンツ選択、計画、表面実現を必要とするタスクに焦点を合わせています。 0.71
The idea is in the prototyping stage with prospects broadly towards dialog response generation and topic summarization in multiple languages. このアイデアはプロトタイピングの段階にあり、対話応答生成と複数の言語でのトピック要約に向けて幅広い展望がある。 0.67
We plan to do so by collaborating with speakers of low-resourced languages through a participatory research approach, as suggested by (∀ et al., 2020). 我々は,2020年(平成20年)に提唱した参加型研究アプローチを通じて,低リソース言語話者とのコラボレーションを行うことにより,これを行う予定である。 0.67
Toward this goal, GEM welcomes anyone interested in collaborating on this effort. この目標に向けて、GEMは、この取り組みに協力することに関心のある人を歓迎します。 0.51
6.4 Personalizing NLG 6.4 パーソナライズ nlg 0.63
GEM currently focuses on tasks that deterministically transform an input into an output. GEMは現在、入力を出力に変換するタスクに焦点を当てています。 0.66
With the increasing use of NLG models in real-world applications, how to enable and evaluate personalized NLG systems (e.g., in dialect or formality) remains challenging. 現実世界のアプリケーションでNLGモデルの使用が増加する中、パーソナライズされたNLGシステム(例えば、方言や形式性)を有効におよび評価する方法は依然として困難である。 0.69
Several related tasks have been proposed, for example, the transfer of writing style from informal to formal (Rao and Tetreault, 2018), personalization of machine translation systems to align with particular personal traits (Mirkin and Meunier, 2015), or persona-guided response generation of dialogue systems (Zhang et al., 2018). 例えば、非公式から形式的への書き方(Rao and Tetreault, 2018)、特定の個人的特性に合わせた機械翻訳システムのパーソナライズ(Mirkin and Meunier, 2015)、対話システムのペルソナガイドによる応答生成(Zhang et al., 2018)など、いくつかの関連タスクが提案されている。 0.70
We envision our framework to be extended (e.g., dataset, evaluation) to incorporate this line of usercentric NLG. 我々は、このユーザ中心のNLGを組み込むために、我々のフレームワークを拡張する(例:データセット、評価)ことを想定する。 0.55
9This approach has been successfully used by WMT for many years. 9 このアプローチは、長年にわたってwmtでうまく使われてきた。 0.61
See, e.g., http://www.statmt.or g/ wmt20/translation-ta sk.html. http://www.statmt.or g/wmt20/translation- task.htmlを参照。 0.50
英語(論文から抽出)日本語訳スコア
6.5 Regular updates to the living benchmark To activate the benefits of a living benchmark that is focused on evaluation, we commit to regular updates for GEM. 6.5 ライブベンチマークの定期的な更新 評価に焦点を当てたライブベンチマークの利点を有効にするには、GEMの定期的な更新にコミットします。 0.62
We invite contributions in the form of model outputs, analyses, and metrics at any time and will automatically update the results presented on our website to incorporate them. 私たちは、いつでもモデル出力、分析、メトリクスの形で貢献を招待し、それらを組み込むために当社のウェブサイトで提示された結果を自動的に更新します。 0.62
For the updates to the dataset selection, we want to consider the input of the wider NLG research community. データセット選択の更新については、より広範なNLG研究コミュニティのインプットを検討したいと思います。 0.60
To do so, we will set up a yearly selection process similar to the one described in Section 3. そのためには、第3節で述べたものと同様の年1回の選定プロセスを設定します。 0.75
The first update process will be run after the GEM workshop at ACL 2021. 最初の更新プロセスは、ACL 2021のGEMワークショップの後に行われます。 0.85
To be able to have a robust comparison between different versions of GEM, we will only replace a small subset of datasets at a time. GEMの異なるバージョン間の堅牢な比較を可能にするためには、データセットの小さなサブセットを一度に置き換えるだけです。 0.75
7 Conclusion In this paper, we have introduced GEM, a living natural language generation benchmark with a focus on evaluation. 7 結論 本稿では,評価に焦点をあてた生きた自然言語生成ベンチマークであるGEMを紹介した。 0.75
While GEM does not claim to instantly solve all issues of benchmarks in NLG, we aim to provide an environment in which systems can be tested in a principled manner and which can elevate the prominence of interesting evaluation approaches. GEM は NLG におけるベンチマークのすべての問題を即座に解決するわけではないが,本研究の目的は,システムの原理的なテストが可能であるとともに,興味深い評価手法の優位性を高めることができる環境を提供することである。 0.65
By providing a testbed to easily conduct experiments across many datasets and evaluate in a repeatable, consistent, and more interpretable way, we will be able to track progress toward the goals in NLG research much more clearly. 多くのデータセットで実験を行い、繰り返し可能で一貫性があり、より解釈しやすい方法で評価するためのテストベッドを提供することで、NLG研究における目標の進捗状況をより明確に追跡できるようになります。 0.69
Moreover, we will be able to extend and shape GEM in the future to include more multilingual datasets, which will assist in their adoption across the wider research community. さらに、将来的にはGEMを拡張して形成し、より多言語のデータセットを含めることで、より広範な研究コミュニティでのGEMの採用を支援することができます。
訳抜け防止モード: さらに 将来的にgemを拡張し 形作ることができます より多くの多言語データセットを含めるため、より広い研究コミュニティで採用されるのに役立つだろう。
0.67
8 Contribution Statements 8 コントリビューションステートメント 0.60
GEM is a large effort with a decentralized organization that is split into different task-specific subgroups. GEMは、さまざまなタスク固有のサブグループに分割された分散組織による大きな取り組みである。 0.72
To acknowledge everyone’s contribution, we list the contribution statements below for all groups. 全員の貢献を認めるために、すべてのグループに対して下記のコントリビューションステートメントをリストアップします。 0.64
Steering Committee. Antoine Bosselut, Esin Durmus, Varun Prashant Gangal, Sebastian Gehrmann, Laura Perez-Beltrachini, Samira Shaikh, and Wei Xu make up the steering committee. 運営委員会。 Antoine Bosselut、Esin Durmus、Varun Prashant Gangal、Sebastian Gehrmann、Laura Perez-Beltrachini、Samira Shaikh、Wei Xuが運営委員会を構成している。 0.75
Sebastian Gehrmann coordinates and leads the GEM effort. Sebastian GehrmannはGEMの取り組みをコーディネートし、主導します。 0.62
All others provide feedback and discuss larger decisions regarding the direction of GEM and act as conference organizers for the ACL 2021 workshop. その他はすべてフィードバックを提供し、GEMの方向性に関するより大きな決定を議論し、ACL 2021ワークショップのカンファレンスオーガナイザとして活動します。 0.52
summarization summarization~ 0.67
Summarization. The group members are Chris Emezue, Esin Durmus, Faisal Ladhak, Jiawei Zhou, Juan Diego Rodriguez, Kaustubh Dhole, Khyathi Chandu, Laura Perez, Pawan Sasanka Ammanamanchi, Pedro Henrique Martins, Rubungo Andre Niyongabo, Shashi Narayan, Vikas Raunak, and Yufang Hou. 要約。 メンバーはChris Emezue, Esin Durmus, Faisal Ladhak, Jiawei Zhou, Juan Diego Rodriguez, Kaustubh Dhole, Khyathi Chandu, Laura Perez, Pawan Sasanka Ammanamanchi, Pedro Henrique Martins, Rubungo Andre Niyongabo, Shashi Narayan, Vikas Raunak, Yufang Houだ。 0.65
Pedro Henrique Martins organized the group and wrote the data statement for the MLSum dataset. Pedro Henrique Martins氏はこのグループを組織し、MLSumデータセットのデータステートメントを書いた。 0.78
Pawan Sasanka Ammanamanchi was responsible for the XSum data statement, while Vikas Raunak worked on the Wikilingua statement. Pawan Sasanka Ammanamanchi氏はXSumデータステートメントを担当し、Vikas Raunak氏はWikilinguaステートメントを担当した。 0.79
Shashi Narayan prepared the GEM version of the XSum dataset and trained its baseline models. Shashi NarayanはXSumデータセットのGEMバージョンを作成し、ベースラインモデルをトレーニングした。 0.79
Juan Diego Rodriguez was responsible for cleaning the MLSum dataset and trained its baseline models. Juan Diego Rodriguez氏はMLSumデータセットのクリーニングを担当し、ベースラインモデルをトレーニングした。 0.72
Faisal Ladhak was responsible for the Wikilingua baseline models. Faisal LadhakはWikilinguaのベースラインモデルを担当した。 0.87
Rubungo Andre Niyongabo participated in the discussions and added related papers to the planning document. Rubungo Andre Niyongabo氏は議論に参加し、計画文書に関連論文を追加した。 0.75
Dialog. Sashank Santhanam, Samira Shaikh, Bodhisattwa Prasad Majumder, Harsh Jhamtani, Yangfeng Ji, Tosin Adewumi, and Wanyu Du are part of this group. 対話。 Sashank Santhanam, Samira Shaikh, Bodhisatwa Prasad Majumder, Harsh Jhamtani, Yangfeng Ji, Tosin Adewumi, Wanyu Duなどがこのグループに属している。 0.69
Tosin Adewumi contributed code for DialoGPT, and Wanyu Du trained baselines for Schema-Guided Dialog. Tosin Adewumi は DialoGPT のコードを提供し、Wanyu Du は Schema-Guided Dialog のベースラインを訓練した。 0.69
Harsh Jhamtani wrote the data card for Wizards of Wikipedia. Harsh Jhamtani氏はウィザーズ・オブ・ウィキペディアのデータカードを書いた。 0.68
Data2Text. Data2Text。 0.67
Ondrej Dusek wrote the data cards for E2E NLG and Czech Restaurants data and a TF loader for Czech Restaurants. Ondrej Dusek氏はE2E NLGとチェコレストランのデータとチェコレストラン用のTFローダーのデータカードを書いた。 0.71
He also supplied baseline outputs for E2E, Czech Restaurants, and WebNLG. また、E2E、チェコ料理、WebNLGのベースラインアウトプットも提供した。 0.65
Sebastian Gehrmann supplied baseline outputs for E2E, WebNLG, and CommonGen. Sebastian GehrmannはE2E、WebNLG、CommonGenのベースライン出力を提供した。 0.73
Yacine Jernite wrote the data card for CommonGen and the Hugging Face loaders for Czech Restaurants and WebNLG. Yacine Jernite氏はチェコのレストランとWebNLG向けのCommonGenとHugging Faceローダのデータカードを書いた。 0.76
Teven Le Scao wrote the Hugging Face loader for E2E. Teven Le ScaoはE2E用のHugging Faceローダーを書いた。 0.69
Simon Mille and Anastasia Shimorina wrote the data card for WebNLG. Simon MilleとAnastasia ShimorinaはWebNLGのデータカードを書いた。 0.86
Table2Text. Table2Text。 0.68
Varun Gangal and Miruna Clinciu are part of this group. Varun Gangal と Miruna Clinciu はこのグループの一員である。 0.88
Miruna Clinciu was responsible primarily for DART and Varun Gangal for ToTTo while maintaining a close correspondence and understanding between them to ensure all steps, such as code structure, preprocessing primitives, baselines were as uniform as possible. Miruna Clinciuは、主にToTToのDARTとVarun Gangalを担当し、コード構造、プリ処理プリミティブ、ベースラインなど、すべてのステップを可能な限り均一にするために、密接な対応と理解を維持しました。 0.66
Simplification. Dhruv Kumar, Mounica Maddela, and Wei Xu contributed to the GEM Simplification task. 単純化。 Dhruv Kumar、Mounica Maddela、Wei XuはGEM単純化タスクに貢献しました。 0.62
Dhruv Kumar created the data cards for the datasets, added Wiki-Auto and Turk/ASSET Dhruv Kumar氏がデータセット用のデータカードを作成、Wiki-AutoとTurk/ASSETを追加 0.68
英語(論文から抽出)日本語訳スコア
datasets to TFDS, and integrated the SARI metric (Xu et al., 2016) into the GEM evaluation framework. データセットをTFDSに変換し、SARIメトリック(Xu et al., 2016)をGEM評価フレームワークに統合した。 0.76
Mounica Maddela created baselines for the task and added the Turk benchmark corpus to Hugging Face and TFDS. Mounica Maddelaはタスクのベースラインを作成し、Hugging FaceとTFDSにTurkベンチマークコーパスを追加した。 0.60
Wei Xu helped in the organization and planning of the task setup. Wei Xuは、タスクセットアップの組織と計画を支援しました。 0.81
Automated Evaluation. Ondrej Dusek wrote the base code and included BLEU, Meteor, ROUGE, and referenceless metrics (the latter based on code supplied by Emiel van Miltenburg). 自動評価。 ondrej dusek氏はベースコードを書き、bleu, meteor, rouge, referenceless metrics(後者はemiel van miltenburg氏によって提供されたコード)を含む。 0.71
He also prepared reference sets for E2E, Czech Restaurants and WebNLG. また、E2E、チェコ料理、WebNLGの参照セットも用意した。 0.67
Sebastian Gehrman included BLEURT and BERTScore and prepared the reference sets. Sebastian GehrmanはBLEURTとBERTScoreを含み、参照セットを準備した。 0.68
Dhruv Kumar included SARI and adapted the code for source-based metrics. Dhruv Kumar氏はSARIを含み、ソースベースのメトリクスにコードを適応した。 0.54
Nishant Subramani helped with code refactoring. Nishant Subramani氏がコードのリファクタリングを手伝った。 0.53
Miruna Clinciu , Emiel van Miltenburg and Thibault Sellam provided feedback and participated in discussions. Miruna Clinciu, Emiel van Miltenburg, Thibault Sellam両氏はフィードバックを提供し,議論に参加した。 0.69
Human Evaluation. Samira Shaikh was the point of contact for this working group. 人間の評価。 Samira Shaikhはこのワーキンググループとの接触点だった。 0.80
She led the discussions to make progress on the group goals. 彼女はグループゴールを進めるために議論を主導した。 0.76
She also worked with the group to select the general evaluation criteria as well as the criteria for dialogue and simplification tasks. 彼女はまた、グループと協力して、一般的な評価基準と対話と単純化タスクの基準を選択した。 0.63
Khyathi Chandu and Miruna Clinciu worked on selecting evaluation criteria for the summarization task and participated in the group discussions. Khyathi ChanduとMiruna Clinciuは、要約タスクの評価基準の選択に取り組み、グループディスカッションに参加しました。 0.75
Simon Mille provided support on using the criteria taxonomy and the annotated evaluation sheets for selecting and defining the criteria to use; worked on selecting the D2T criteria. Simon Mille氏は、基準分類と注釈付き評価シートの使用を、使用する基準の選択と定義にサポートし、D2T基準の選択に取り組んだ。 0.71
Vitaly Nikolaev and Sashank Santhanam worked on selecting evaluation criteria for dialog and simplification tasks. Vitaly Nikolaev氏とSashank Santhanam氏はダイアログと単純化タスクの評価基準の選択に取り組んだ。 0.61
João Sedoc worked with the group to select the evaluation criteria in general as well as the specific ones for dialog and simplification. João Sedoc氏はグループと協力して、一般的な評価基準と、ダイアログと簡略化のための特定の基準を選択しました。 0.66
He also helped to select among annotation interfaces. また、アノテーションインターフェースの選択も手伝った。 0.66
Anastasia Shimorina worked with the group to select the evaluation criteria and participated in the discussions. Anastasia Shimorinaはグループと協力して評価基準を選択し、議論に参加しました。 0.75
Chris Emezue, Sebastian Gehrmann, Khyati Mahajan, and Yufang Hou participated in discussions. Chris Emezue, Sebastian Gehrmann, Khyati Mahajan, Yufang Hou両氏が議論に参加した。 0.86
and Submission System. およびサブミッションシステム。 0.74
Aman Website Madaan, Moin Nadeem, Hendrik Strobelt, and Sebastian Gehrmann are part of this group. Aman Website Madaan, Moin Nadeem, Hendrik Strobelt, Sebastian Gehrmannなどがグループの一員である。 0.83
Sebastian Gehrmann developed the website. Sebastian Gehrmannがウェブサイトを開発した。 0.75
Aman Madaan wrote the initial version of the result presentation. Aman Madaan氏は結果のプレゼンテーションの初期バージョンを書いた。 0.71
Hendrik Strobelt leads the visualization effort for interactive exploration of results. Hendrik Strobelt氏は、インタラクティブな結果探索のための可視化作業をリードしている。 0.57
Model Infrastructure. モデルインフラストラクチャー。 0.64
Yacine Jernite wrote the initial script template for evaluating and fine-tuning Hugging Face models with the CommonGen example. Yacine Jernite氏はCommonGenの例でHugging Faceモデルの評価と微調整のための初期スクリプトテンプレートを書いた。 0.74
Sebastian Gehrmann generalized the script to work with other datasets. Sebastian Gehrmann氏は、他のデータセットで動作するようにスクリプトを一般化した。 0.54
Tosin Adewumi wrote a script for fine-tuning the DialoGPT model for dialogue datasets. tosin adewumi氏は対話データセットのダイアログプットモデルを微調整するスクリプトを書いた。 0.62
Juan Diego Rodriguez worked on the infrastructure to fine-tune mBART on MLSum. フアン・ディエゴ・ロドリゲス(Juan Diego Rodriguez)はMLSumでmBARTを微調整するためのインフラに取り組んでいた。 0.45
Data Sheets and Statements. データシートとステートメント。 0.67
Salomey Osei, Pawan Sasanka Ammanamanchi, Juan Diego Rodriguez, Sebastian Gehrmann, Yacine Jernite, and Angelina McMillan-Major are part of this group. Salomey Osei、Pawan Sasanka Ammanamanchi、Juan Diego Rodriguez、Sebastian Gehrmann、Yacine Jernite、Angelina McMillan-Majorがこのグループの一部です。 0.79
The Data Sheet structure was adapted from a combination of designs created for the Hugging Face Datasets library by Angelina McMillan-Major and Yacine Jernite and one written by Sebastian Gehrmann. Data Sheet の構造は、Angelina McMillan-Major と Yacine Jernite の Hugging Face Datasets ライブラリ用に作成された設計と、Sebastian Gehrmann の書いた設計を組み合わせたものである。 0.80
Juan Diego Rodriguez and Yacine Jernite wrote initial statements for ASSET and CommonGen respectively. Juan Diego Rodriguez と Yacine Jernite はそれぞれ ASSET と CommonGen の初期声明を書いた。 0.88
The feedback on those was used to improve the structure of the final template. これらに対するフィードバックは、最終テンプレートの構造を改善するために使用されました。 0.67
Challenge Sets. Simon Mille, Emiel van Miltenburg, Kaustubh Dhole, Varun Prashant Gangal, Saad Mahamood, and Laura Perez-Beltrachini proposed and discussed ideas of interest for the datato-text and the text-to-text tasks. チャレンジセット。 Simon Mille氏、Emiel van Miltenburg氏、Kaustubh Dhole氏、Varun Prashant Gangal氏、Saad Mahamood氏、Laura Perez-Beltrachini氏が、データとテキストとテキストのタスクに関心を持つアイデアを提案し、議論した。
訳抜け防止モード: チャレンジセット。 Simon Mille, Emiel van Miltenburg, Kaustubh Dhole, Varun Prashant Gangal Saad Mahamood と Laura Perez - Beltrachini が提案し、データート-テキストに対する関心の考えについて議論した。 そして、テキスト - to - テキストタスク。
0.67
Emiel van Miltenburg, Saad Mahamood, and Simon Mille work on the creation of the data-to-text datasets, while Varun Prashant Gangal, Kaustubh Dhole and Laura Perez-Beltrachini work on the text-to-text datasets. Emiel van Miltenburg、Saad Mahamood、Simon Mille はデータ・トゥ・テキスト・データセットの作成に取り組んでいるが、Varun Prashant Gangal、Kaustubh Dhole、Laura Perez-Beltrachini はテキスト・トゥ・テキスト・データセットの開発を行っている。 0.70
Crowdsourcing New Data. 新しいデータをクラウドソーシング。 0.57
Chris Emezue, Rubungo Andre Niyongabo, Aremu Anuoluwapo, Khyathi Chandu, Yufang Hou, Samira Shaikh, Varun Prashant Gangal, and Dimitra Gkatzia are members of this group. Chris Emezue, Rubungo Andre Niyongabo, Aremu Anuoluwapo, Khyathi Chandu, Yufang Hou, Samira Shaikh, Varun Prashant Gangal, Dimitra Gkatziaなどがこのグループのメンバーである。 0.83
Khyathi Chandu worked on identifying where the current datasets fall short to motivate the crowdsourcing of data for a new task. Khyathi Chandu氏は、現在のデータセットが不足している場所を特定して、新たなタスクのためにデータのクラウドソーシングを動機付けている。 0.51
Based on the suggestions from collaborators, she wrote two task proposals in the domains of longform text, conversations, and data-to-text that address an array of challenges in generation and easily scale to multiple languages. 共同研究者の提案に基づいて、彼女は長いテキスト、会話、データ・ツー・テキストというドメインで2つのタスク提案を書き、生成時のさまざまな課題に対処し、複数の言語に簡単に拡張できるようにしました。
訳抜け防止モード: 協力者の提案に基づき、彼女は長文、会話、データ-to-テキストの領域で2つのタスク提案を書いた。 生成の一連の課題に対処し、容易に複数の言語に拡張できます。
0.66
Samira Shaikh participated in the discussions and gave feedback on the task proposals in the pilot study phase. Samira Shaikh氏はこの議論に参加し、パイロット研究フェーズでタスク提案についてフィードバックした。 0.72
Dimitra Gkatzia looked into potential resources for crowdsourcing. Dimitra Gkatzia氏はクラウドソーシングの潜在的なリソースを調べた。 0.54
Chris Emezue and Rubungo Andre Niyongabo explored potential low-resource African languages for crowdsourcing. Chris Emezue氏とRubungo Andre Niyongabo氏は、クラウドソーシングのための低リソースのアフリカ言語を探求した。 0.52
We are in the process of piloting the tasks internally. 私たちは社内でタスクのパイロット作業を行っています。 0.57
The authors of this paper not named in the groups この論文の著者はグループに名前を付けていません。 0.67
英語(論文から抽出)日本語訳スコア
participated in initial discussions, participated in the surveys, and provided regular feedback and guidance. 最初の議論に参加し、調査に参加し、定期的にフィードバックとガイダンスを提供した。 0.57
Many participants commented on and helped write this paper. 多くの参加者がこの論文の執筆を手伝った。 0.69
We additionally thank all participants of INLG 2019, the Generation Birdsof-a-Feather meeting at ACL 2020, the EvalNLGEval Workshop at INLG 2020, and members of the generation challenge mailing list of SIGGEN for their participation in the discussions that inspired and influenced the creation of GEM. さらに、INLG 2019の参加者全員、ACL 2020のGeneration Birdsof-a-Featherミーティング、INLG 2020のEvalNLGEvalワークショップ、そして、GEMの作成にインスピレーションを与え、影響を与えた議論に参加したSIGGENの世代チャレンジメーリングリストのメンバーに感謝します。 0.69
References Fernando Alva-Manchego, Louis Martin, Antoine Bordes, Carolina Scarton, Benoît Sagot, and Lucia Specia. 参照 フェルナンド・アルヴァ・マンチェゴ、ルイ・マーティン、アントワーヌ・ボルデス、カロライナ・スカートン、ベノシュト・サゴ、ルシア・スペリア。 0.53
2020. ASSET: A dataset for tuning and evaluation of sentence simplification models with multiple rewriting transformations. 2020. ASSET: 複数の書き換え変換による文簡略化モデルのチューニングと評価のためのデータセット。 0.81
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4668–4679, Online. The 58th Annual Meeting of the Association for Computational Linguistics, page 4668–4679, Online. 0.83
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Antonios Anastasopoulos and Graham Neubig. Antonios AnastasopoulosとGraham Neubig。 0.79
2020. Should all cross-lingual embeddings In Proceedings of the 58th speak English? 2020. すべての言語間の埋め込み 58番目の紀要は英語を話すべきか? 0.76
Annual Meeting of the Association for Computational Linguistics, pages 8658–8679, Online. The Association for Computational Linguistics, page 8658–8679, Online 0.60
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Dzmitry Bahdanau、Kyunghyun Cho、Yoshua Bengio。 0.61
2015. Neural machine translation by jointly learning to align and translate. 2015. 整列と翻訳を共同で学習することで、ニューラルマシン翻訳を行う。 0.72
In 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings. 第3回International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015 Conference Track Proceedings。 0.85
Satanjeev Banerjee and Alon Lavie. Satanjeev BanerjeeとAlon Lavie。 0.80
2005. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments. 2005. METEOR: 人的判断との相関性を改善したMT評価のための自動指標。 0.82
In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization@ACL 2005, Ann Arbor, Michigan, USA, June 29, 2005, pages 65–72. Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization@ACL 2005, Ann Arbor, Michigan, USA, June 29, 2005, page 65–72。 0.89
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Anja Belz, Mike White, Dominic Espinosa, Eric Kow, Deirdre Hogan, and Amanda Stent. Anja Belz、Mike White、Dominic Espinosa、Eric Kow、Deirdre Hogan、Amanda Stent。 0.72
2011. The first surface realisation shared task: Overview and evaluation results. 2011. 最初の表面実現共有タスク:概要と評価結果。 0.78
In Proceedings of the 13th European Workshop on Natural Language Generation, pages 217–226, Nancy, The 13th European Workshop on Natural Language Generation, page 217-226, Nancy 0.72
France. Association for Computational Linguistics. フランス。 計算言語学協会(Association for Computational Linguistics)。 0.64
Anya Belz, Simon Mille, and David M. Howcroft. Anya Belz、Simon Mille、David M. Howcroft。 0.77
2020. Disentangling the properties of human evaluation methods: A classification system to support comparability, meta-evaluation and reproducibility testing. 2020. ヒト評価法の性質の解明: 比較可能性、メタ評価、再現性テストを支援する分類システム。 0.83
In Proceedings of the 13th International Conference on Natural Language Generation, pages 183–194, Dublin, Ireland. 第13回自然言語生成に関する国際会議の進行(183-194ページ、アイルランドのダブリン)。 0.76
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Emily Bender. エミリー・ベンダー。 0.49
2019. The #benderrule: On naming the languages we study and why it matters. 2019. benderrule: 私たちが研究している言語の名前と、それが重要な理由についてです。 0.74
The Gradient. Emily M. Bender. グラデーション。 エミリー・M・ベンダー 0.44
2011. On achieving and evaluating language-independenc e in NLP. 2011. NLPにおける言語独立性の実現と評価について 0.72
Linguistic Issues in Language Technology, 6. 言語工学の諸問題, 6。 0.63
Emily M. Bender and Batya Friedman. エミリー・M・ベンダーとバティヤ・フリードマン。 0.54
2018. Data statements for natural language processing: Toward mitigating system bias and enabling better science. 2018. 自然言語処理のためのデータステートメント:システムのバイアス軽減とより良い科学の実現に向けて。 0.79
Transactions of the Association for Computational Linguistics, 6:587–604. 計算言語協会の取引、6:587–604。 0.73
Ondˇrej Bojar, Yvette Graham, and Amir Kamran. オンダレー・ボジャル、イヴェット・グラハム、アミール・カムラン。 0.37
2017. Results of the WMT17 metrics shared task. 2017. WMT17のメトリクス共有タスクの結果。 0.77
In Proceedings of the Second Conference on Machine Translation, pages 489–513, Copenhagen, Denmark. Proceedings of the Second Conference on Machine Translation, page 489–513, Copenhagen, Denmark. 0.88
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ondˇrej Bojar, Yvette Graham, Amir Kamran, and Miloš Stanojevi´c. オンダレー・ボジャル、イヴェット・グラハム、アミール・カムラン、ミロシュ・スタノエヴィ(Miloš Stanojevi)。 0.43
2016. Results of the WMT16 metrics shared task. 2016. WMT16メトリクス共有タスクの結果。 0.74
In Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers, pages 199–231, Berlin, Germany. In Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers, page 199–231, Berlin, Germany 0.82
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Asli Çelikyilmaz, Elizabeth Clark, and Jianfeng Gao. Asli selikyilmaz、Elizabeth Clark、Jianfeng Gao。 0.59
2020. Evaluation of text generation: A survey. 2020. テキスト生成の評価:調査。 0.74
CoRR, abs/2006.14799. CoRR, abs/2006.14799。 0.59
Arman Cohan, Franck Dernoncourt, Doo Soon Kim, Trung Bui, Seokhwan Kim, Walter Chang, and Nazli Goharian. Arman Cohan, Franck Dernoncourt, Doo Soon Kim, Trung Bui, Seokhwan Kim, Walter Chang, Nazli Goharian。 0.76
2018. A discourse-aware attention model for abstractive summarization In Proceedings of the of long documents. 2018. 長い文書の進行における抽象的要約のための談話認識型注意モデル。 0.82
2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 615–621, New Orleans, 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), Page 615–621, New Orleans, (英語) 0.94
英語(論文から抽出)日本語訳スコア
Louisiana. Association for Computational Linguistics. ルイジアナ州。 計算言語学協会(Association for Computational Linguistics)。 0.56
Emily Denton, Alex Hanna, Razvan Amironesei, Andrew Smart, Hilary Nicole, and Morgan Klaus Scheuerman. Emily Denton、Alex Hanna、Razvan Amironesei、Andrew Smart、Hilary Nicole、Morgan Klaus Scheuerman。 0.75
2020. Bringing the people back in: Contesting benchmark machine learning datasets. 2020. 人々を巻き戻す: ベンチマーク機械学習データセットのコンテスト。 0.79
CoRR, abs/2007.07399. CoRR, abs/2007.07399。 0.56
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.78
2019. BERT: Pre-training of deep bidirectional transformers for language understanding. 2019. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.81
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Bhuwan Dhingra, Manaal Faruqui, Ankur Parikh, Ming-Wei Chang, Dipanjan Das, and William Cohen. Bhuwan Dhingra、Manaal Faruqui、Ankur Parikh、Ming-Wei Chang、Dipanjan Das、William Cohen。 0.74
2019. Handling divergent reference texts when evaluating table-to-text generation. 2019. テーブル・ツー・テキスト生成の評価における異種参照テキストの処理 0.68
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4884–4895, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 4884–4895, イタリア・フィレンツェ。 0.71
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Justin Dieter, Tian Wang, Arun Tejasvi Chaganty, Gabor Angeli, and Angel X. Chang. Justin Dieter、Tian Wang、Arun Tejasvi Chaganty、Gabor Angeli、Angel X. Chang。 0.75
2019. Mimic and rephrase: Reflective listening in openIn Proceedings of the 23rd ended dialogue. 2019. Mimic and Rehrase: openIn Proceedings of the 23th end dialogue でのリフレクションリスニング。 0.78
Conference on Computational Natural Language Learning (CoNLL), pages 393–403, Hong Kong, China. conference on computational natural language learning (conll), pages 393-403, hong kong, china (英語) 0.85
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, and Jason Weston. Emily Dinan、Stephen Roller、Kurt Shuster、Angela Fan、Michael Auli、Jason Weston。 0.73
2019. Wizard of wikipedia: Knowledge-powered conversational agents. 2019. ウィキペディアの魔法:知識を駆使した会話エージェント。 0.77
In 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. 第7回International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019。 0.92
OpenReview.net. OpenReview.net 0.83
Xinya Du, Junru Shao, and Claire Cardie. Xinya Du、Junru Shao、Claire Cardie。 0.57
2017. Learning to ask: Neural question generation for reading comprehension. 2017. learning to ask: 読解のためのニューラル・クエスチョン生成。 0.77
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1342–1352, Vancouver, Canada. 第55回計算言語学会年次大会 (Volume 1: Long Papers) において, 1342-1352頁, カナダのバンクーバー。 0.63
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Dheeru Dua, Ananth Gottumukkala, Alon Talmor, Sameer Singh, and Matt Gardner. Dheeru Dua, Ananth Gottumukkala, Alon Talmor, Sameer Singh, Matt Gardner 0.68
2019. ORB: An open reading benchmark for comprehensive evaluation of machine reading comprehension. 2019. ORB:機械読解の包括的な評価のためのオープンな読解ベンチマーク。 0.78
In EMNLP 2019 MRQA Workshop, page 147. EMNLP 2019 MRQA Workshopで、147ページ。 0.76
Esin Durmus, He He, and Mona Diab. Esin Durmus, He He, and Mona Diab 0.70
2020. FEQA: A question answering evaluation framework for faithfulness assessment in abstractive summarization. 2020. FEQA:抽象要約における忠実度評価のための質問応答評価フレームワーク。 0.82
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 5055–5070, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 5055–5070, Online 0.69
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ondˇrej Dušek, David M. Howcroft, and Verena Rieser. オンデレー・デュシェク、デイヴィッド・m・ハウクロフト、ヴェレナ・リースア。 0.27
2019. Semantic noise matters for neural natural language generation. 2019. ニューラル自然言語生成のためのセマンティックノイズ問題。 0.80
In Proceedings of the 12th International Conference on Natural Language Generation, pages 421–426, Tokyo, Japan. 第12回国際自然言語生成会議の報告, 421-426頁, 東京
訳抜け防止モード: 第12回自然言語生成国際会議の開催にあたって ページ 421–426、東京、日本。
0.76
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ondrej Dušek and Filip Jurcıcek. Ondrej DušekとFilip Jurcıcek。 0.77
2016. A contextaware natural language generation dataset for dialogue systems. 2016. 対話システムのための文脈対応自然言語生成データセット 0.84
In RE-WOCHAT: Workshop on Collecting and Generating Resources for Chatbots and Conversational Agents-Development and Evaluation Workshop Programme (May 28 th, 2016), page 6. RE-WOCHAT: Workshop on Collecting and Generating Resources for Chatbots and Conversational Agents-Development and Evaluation Workshop Programme (2016年5月28日閲覧) 6ページ。 0.88
Ondˇrej Dušek and Filip Jurˇcíˇcek. デヴィッド・デュシェクとフィリップ・ユルシチェク。 0.51
2016a. A contextaware natural language generator for dialogue In Proceedings of the 17th Annual systems. 2016年。 第17回年次システム議事録における対話のための文脈対応自然言語生成装置 0.75
Meeting of the Special Interest Group on Discourse and Dialogue, pages 185–190, Los Angeles. The Special Interest Group on Discourse and Dialogue, page 185–190, Los Angeles 0.70
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ondˇrej Dušek and Filip Jurˇcíˇcek. デヴィッド・デュシェクとフィリップ・ユルシチェク。 0.51
2016b. Sequenceto-sequence generation for spoken dialogue via deep syntax trees and strings. 2016年。 深層構文木と文字列による音声対話のシーケンス生成。 0.76
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 45–51, Berlin, Germany. 第54回計算言語学会年次大会(第2巻:短い論文)の議事録において、ドイツのベルリンで45-51頁。 0.67
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ondˇrej Dušek and Filip Jurˇcíˇcek. デヴィッド・デュシェクとフィリップ・ユルシチェク。 0.51
2019. Neural generation for Czech: Data and baselines. 2019. チェコにおけるニューラルジェネレーション:データとベースライン。 0.76
In Proceedings of the 12th International Conference on Natural Language Generation, pages 563–574, Tokyo, Japan. 第12回国際自然言語生成会議報告, 563-574頁, 東京
訳抜け防止モード: 第12回自然言語生成国際会議の開催にあたって 563-574頁、東京、日本。
0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ondrej Dusek, Jekaterina Novikova, and Verena Rieser. Ondrej Dusek、Jekaterina Novikova、Verena Rieser。 0.66
2020. Evaluating the state-of-the-art of 2020. 最先端の評価 0.67
英語(論文から抽出)日本語訳スコア
end-to-end natural language generation: The E2E NLG challenge. エンドツーエンドの自然言語生成: E2E NLGチャレンジ。 0.77
Comput. Speech Lang., 59:123–156. Comput Speech Lang., 59:123–156。 0.58
Kawin Ethayarajh and Dan Jurafsky. Kawin EthayarajhとDan Jurafsky。 0.78
2020. Utility is in the eye of the user: A critique of NLP leaderboards. 2020. 実用性はユーザの目の中にある: NLPリーダーボードの批判。 0.81
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4846–4853, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 4846–4853, Online. 0.88
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Matan Eyal, Tal Baumel, and Michael Elhadad. Matan Eyal、Tal Baumel、Michael Elhadad。 0.63
2019. Question answering as an automatic evaluation metric for news article summarization. 2019. ニュース記事要約の自動評価指標としての質問回答。 0.80
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 3938–3948, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 3938–3948, Minneapolis, Minnesota 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Alexander R. Fabbri, Wojciech Kryscinski, Bryan McCann, Caiming Xiong, Richard Socher, and Dragomir R. Radev. Alexander R. Fabbri, Wojciech Kryscinski, Bryan McCann, Caiming Xiong, Richard Socher, Dragomir R. Radev 0.82
2020. SummEval: Reevaluating summarization evaluation. 2020. SummEval: 要約評価の再評価。 0.78
CoRR, abs/2007.12626. CoRR, abs/2007.12626。 0.58
Angela Fan, Yacine Jernite, Ethan Perez, David Grangier, Jason Weston, and Michael Auli. Angela Fan, Yacine Jernite, Ethan Perez, David Grangier, Jason Weston, Michael Auli 0.73
2019. ELI5: Long form question answering. 2019. ELI5: 長い形式の質問応答。 0.86
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3558–3567, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 3558–3567, イタリア・フィレンツェ。 0.72
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Angela Fan, Mike Lewis, and Yann Dauphin. アンジェラ・ファン、マイク・ルイス、ヤン・ドーフィン。 0.58
2018. In ProHierarchical neural story generation. 2018. ProHierarchical Neural Story Generation の略。 0.78
ceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 889–898, Melbourne, Australia. 第56回計算言語学会年次総会(Volume 1: Long Papers)の開催、889-898ページ、メルボルン、オーストラリア。 0.64
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Thiago Castro Ferreira, Claire Gardent, Chris van der Lee, Nikolai Ilinykh, Simon Mille, Diego Moussalem, and Anastasia Shimorina. Thiago Castro Ferreira, Claire Gardent, Chris van der Lee, Nikolai Ilinykh, Simon Mille, Diego Moussalem, Anastasia Shimorina 0.73
2020. The 2020 bilingual, bi-directional webnlg+ shared task overview and evaluation results In Proceedings of the 3rd (webnlg+ 2020). 2020. 2020年のバイリンガル、双方向のwebnlg+共有タスクの概要と評価の結果は、3rd(webnlg+ 2020)の進行です。 0.75
WebNLG Workshop on Natural Language Generation from the Semantic Web (WebNLG+ 2020), Dublin, Ireland (Virtual). WebNLG Workshop on Natural Language Generation from the Semantic Web (WebNLG+ 2020), Dublin, Ireland (Virtual) 0.78
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Julia Kreutzer, Julia Kreutzer 0.57
∀, Wilhelmina Nekoto, Vukosi Marivate, Tshinondiwa Matsila, Timi Fasubaa, Taiwo Fagbohungbe, Solomon Oluwole Akinola, Shamsuddeen Muhammad, Salomon Kabongo Kabenamualu, Salomey Osei, Freshia Sackey, Rubungo Andre Niyongabo, Ricky Macharm, Perez Ogayo, Orevaoghene Ahia, Musie Meressa Berhe, Mofetoluwa Adeyemi, Masabata Mokgesi-Selinga, Lawrence Okegbemi, Laura Martinus, Kolawole Tajudeen, Kevin Degila, Kelechi Ogueji, Kathleen Siminyu, Jason Webster, Jamiil Toure Ali, Jade Abbott, Iroro Orife, Ignatius Ezeani, Idris Abdulkadir Dangana, Herman Kamper, Hady Elsahar, Goodness Duru, Ghollah Kioko, Murhabazi Espoir, Elan van Biljon, Daniel Whitenack, Christopher Onyefuluchi, Chris Chinenye Emezue, Bonaventure F. P. Dossou, Blessing Sibanda, Blessing Bassey, Ayodele Olabiyi, Arshath Ramkilowan, Alp Öktem, Adewale Akinfaderin, and Abdallah Bashir. ∀, Wilhelmina Nekoto, Vukosi Marivate, Tshinondiwa Matsila, Timi Fasubaa, Taiwo Fagbohungbe, Solomon Oluwole Akinola, Shamsuddeen Muhammad, Salomon Kabongo Kabenamualu, Salomey Osei, Freshia Sackey, Rubungo Andre Niyongabo, Ricky Macharm, Perez Ogayo, Orevaoghene Ahia, Musie Meressa Berhe, Mofetoluwa Adeyemi, Masabata Mokgesi-Selinga, Lawrence Okegbemi, Laura Martinus, Kolawole Tajudeen, Kevin Degila, Kelechi Ogueji, Kathleen Siminyu, Jason Webster, Jamiil Toure Ali, Jade Abbott, Iroro Orife, Ignatius Ezeani, Idris Abdulkadir Dangana, Herman Kamper, Hady Elsahar, Goodness Duru, Ghollah Kioko, Murhabazi Espoir, Elan van Biljon, Daniel Whitenack, Christopher Onyefuluchi, Chris Chinenye Emezue, Bonaventure F. P. Dossou, Blessing Sibanda, Blessing Bassey, Ayodele Olabiyi, Arshath Ramkilowan, Alp Öktem, Adewale Akinfaderin, and Abdallah Bashir. 0.87
2020. Participatory research for low-resourced machine translation: A case study in African languages. 2020. 低リソース機械翻訳への参加研究:アフリカ語を事例として 0.80
In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 2144–2160, Online. In Findings of the Association for Computational Linguistics: EMNLP 2020, page 2144–2160, Online. 英語) 0.91
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Markus Freitag, David Grangier, and Isaac Caswell. Markus Freitag、David Grangier、Isaac Caswell。 0.68
2020. BLEU might be guilty but references are not innocent. 2020. BLEUは有罪かもしれないが、参照は無罪ではない。 0.70
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 61–71, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 61–71, Online. 0.88
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Jinlan Fu, Pengfei Liu, and Graham Neubig. Jinlan Fu、Pengfei Liu、Graham Neubig。 0.63
2020. Interpretable multi-dataset evaluation for named entity recognition. 2020. 名前付きエンティティ認識のための解釈可能なマルチデータセット評価 0.72
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6058– 6069, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 6058–6069, Online 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Saadia Gabriel, Asli Çelikyilmaz, Rahul Jha, Yejin Choi, and Jianfeng Gao. Saadia Gabriel、Asli selikyilmaz、Rahul Jha、Yejin Choi、Jianfeng Gao。 0.67
2020. Go figure! 2020. フィギュアに行け! 0.67
A meta evaluation of factuality in summarization. 要約における事実性のメタ評価。 0.72
CoRR, abs/2010.12834. CoRR, abs/2010.12834。 0.59
Claire Gardent, Anastasia Shimorina, Shashi Narayan, and Laura Perez-Beltrachini. Claire Gardent、Anastasia Shimorina、Shashi Narayan、Laura Perez-Beltrachini。 0.77
2017. The WebNLG challenge: Generating text from RDF data. 2017. WebNLGチャレンジ:RDFデータからテキストを生成する。 0.81
In Proceedings of the 10th International Conference on Natural Language Gener- 第10回自然言語ジェネラ国際会議に参加して- 0.87
英語(論文から抽出)日本語訳スコア
ation, pages 124–133, Santiago de Compostela, Spain. ation, page 124–133, サンティアゴ・デ・コンポステーラ, スペイン。 0.66
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Albert Gatt and Emiel Krahmer. アルベルト・ガットとエミエル・クラマー 0.45
2018. Survey of the state of the art in natural language generation: Core tasks, applications and evaluation. 2018. 自然言語生成における最先端技術に関する調査 : コアタスク,応用,評価 0.75
J. Artif. Intell. J. Artif インテル。 0.66
Res., 61:65–170. 61:65-170。 0.63
Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé III, and Kate Crawford. Timnit Gebru、Jamie Morgenstern、Briana Vecchione、Jennifer Wortman Vaughan、Hanna Wallach、Hal Daumé III、Kate Crawford。 0.71
2018. Datasheets for datasets. 2018. データセットのデータシート。 0.76
In Proceedings of the Fifth Workshop on Fairness, Accountability, and Transparency in Machine Learning, Stockholm, Sweden. スウェーデンのストックホルムにおける機械学習の公正性、説明責任、透明性に関する第5回ワークショップの開催報告 0.72
Tatsunori Hashimoto, Hugh Zhang, and Percy Liang. 橋本達則、Hugh Zhang、Percy Liang。 0.53
2019. Unifying human and statistical evaluation for natural language generation. 2019. 自然言語生成のための人間と統計的評価の統一化 0.80
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 1689–1701, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 1689–1701, Minneapolis, Minnesota 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Kenneth Heafield, Hiroaki Hayashi, Yusuke Oda, Ioannis Konstas, Andrew Finch, Graham Neubig, Xian Li, and Alexandra Birch. Kenneth Heafield, Hayashi Hiroaki, Oda Yusuke, Ioannis Konstas, Andrew Finch, Graham Neubig, Xian Li, Alexandra Birch 0.73
2020. Findings of the fourth workshop on neural generation and translation. 2020. ニューラルジェネレーションと翻訳に関する第4回ワークショップの開催。 0.78
In Proceedings of the Fourth Workshop on Neural Generation and Translation, pages 1–9, Online. Proceedings of the Fourth Workshop on Neural Generation and Translation, page 1–9, Online 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Karl Moritz Hermann, Tomás Kociský, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. カール・モーリッツ・ヘルマン、トマース・コシスキー、エドワード・グレフェンテ、ラセ・エスペホルト、ウィル・ケイ、ムスタファ・スレイマン、フィル・ブランサム。
訳抜け防止モード: Karl Moritz Hermann, Tomás Kocisk', Edward Grefenstette, Lasse Espeholt Will Kay、Mustafa Suleyman、Phil Blunsom。
0.71
2015. Teaching machines to read and comprehend. 2015. 読み、理解する機械を教える。 0.78
In Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015, December 7-12, 2015, Montreal, Quebec, Canada, pages 1693–1701. In Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015年12月7日-12日, 2015年モントリオール, ケベック, カナダ, 1693–1701頁。 0.90
David M. Howcroft, Anya Belz, Miruna-Adriana Clinciu, Dimitra Gkatzia, Sadid A. Hasan, Saad Mahamood, Simon Mille, Emiel van Miltenburg, Sashank Santhanam, and Verena Rieser. David M. Howcroft, Anya Belz, Miruna-Adriana Clinciu, Dimitra Gkatzia, Sadid A. Hasan, Saad Mahamood, Simon Mille, Emiel van Miltenburg, Sashank Santhanam, Verena Rieser 0.86
2020. Twenty years of confusion in human evaluation: NLG needs evaluation sheets and standardised definitions. 2020. 20年間の人間評価の混乱:NLGは評価シートと標準化された定義を必要とします。 0.74
In Proceedings of the 13th International Conference on Natural Language Genera- 第13回自然言語関連国際会議に参加して- 0.86
tion, pages 169–182, Dublin, Ireland. 169-182頁、アイルランド、ダブリン。 0.60
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Baotian Hu, Qingcai Chen, and Fangze Zhu. Baotian Hu、Qingcai Chen、Fangze Zhu。 0.63
2015. LCSTS: A large scale Chinese short text summarization dataset. 2015. LCSTS: 大規模な中国の短いテキスト要約データセット。 0.83
In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1967–1972, Lisbon, Portugal. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1967–1972, Lisbon, Portugal 0.85
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, and Melvin Johnson. Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, Melvin Johnson 0.70
2020. XTREME: A massively multilingual multi-task benchmark for evaluating cross-lingual generalisation. 2020. XTREME: 言語間一般化を評価するための多言語マルチタスクベンチマーク。 0.76
In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, volume 119 of Proceedings of Machine Learning Research, pages 4411–4421. 第37回In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, Volume 119 of Proceedings of Machine Learning Research, page 4411–4421。 0.89
PMLR. Alfred Inselberg. PMLR。 アルフレッド・インセルベルク。 0.65
1985. The plane with parallel 1985. 平行した飛行機 0.81
coordinates. Vis. Comput., 1(2):69–91. 座標 Vis 1(2):69-91。 0.51
Chao Jiang, Mounica Maddela, Wuwei Lan, Yang Zhong, and Wei Xu. Chao Jiang、Mounica Maddela、Wuwei Lan、Yang Zhong、およびWei Xu。 0.70
2020. Neural CRF model for sentence alignment in text simplification. 2020. テキスト単純化における文アライメントのためのニューラルCRFモデル 0.75
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7943–7960, Online. 第58回計算言語学会年次総会の進行において、7943-7960ページ、オンライン。 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Md. Asifuzzaman Jishan, Khan Raqib Mahmud, and Abul Kalam Al Azad. Md。 Asifuzzaman Jishan、Khan Raqib Mahmud、Abul Kalam Al Azad。 0.74
2019. Bangla Natural Language Image to Text (BNLIT). 2019. Bangla Natural Language Image to Text (BNLIT)。 0.83
Wendell Johnson. ウェンデル・ジョンソン。 0.62
1944. Studies in language behavior: A program of research. 1944. 言語行動の研究:研究のプログラム。 0.78
Psychological Monographs, 56(2):1–15. 心理的モノグラフ、56(2):1–15。 0.64
Pratik Joshi, Sebastin Santy, Amar Budhiraja, Kalika Bali, and Monojit Choudhury. Pratik Joshi、Sebastin Santy、Amar Budhiraja、Kalika Bali、Monojit Choudhury。 0.64
2020. The state and fate of linguistic diversity and inclusion in the NLP world. 2020. NLPの世界における言語の多様性と包含の状態と運命。 0.84
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 6282–6293, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 6282–6293, Online 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Mihir Kale and Abhinav Rastogi. Mihir KaleとAbhinav Rastogi。 0.77
2020. Few-shot natural language generation by rewriting templates. 2020. テンプレートの書き換えによる自然言語生成。 0.81
arXiv preprint arXiv:2004.15006. arXiv preprint arXiv:2004.15006。 0.63
Hassan Kané, Muhammed Yusuf Kocyigit, Ali Abdalla, Pelkins Ajanoh, and Mohamed Coulibali. Hassan Kané、Muhammed Yusuf Kocyigit、Ali Abdalla、Pelkins Ajanoh、およびMohamed Coulibali。 0.72
2020. NUBIA: neural based interchangeability 2020. NUBIA: ニューラルベースの互換性 0.78
英語(論文から抽出)日本語訳スコア
assessor for text generation. テキスト生成のための評価者。 0.55
"Proceedings of the 1st Workshop on Evaluating Natural Language Generation Evaluation". 「第1回自然言語生成評価ワークショップの成果」 0.56
Chris Kedzie, Kathleen McKeown, and Hal Daumé III. Chris Kedzie、Kathleen McKeown、Hal Daumé III。 0.63
2018. Content selection in deep In Prolearning models of summarization. 2018. 要約の深いIn Prolearningモデルにおけるコンテンツ選択。 0.84
ceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 1818–1828, Brussels, Belgium. 2018 Conference on Empirical Methods in Natural Language Processing, Page 1818–1828, Brussels, Belgiumのセッション。 0.84
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Daniel Khashabi, Gabriel Stanovsky, Jonathan Bragg, Nicholas Lourie, Jungo Kasai, Yejin Choi, Noah A. Smith, and Daniel S. Weld. Daniel Khashabi, Gabriel Stanovsky, Jonathan Bragg, Nicholas Lourie, Jungo Kasai, Yejin Choi, Noah A. Smith, Daniel S. Weld 0.83
2021. GENIE: A leaderboard for human-inthe-loop evaluation of text generation. 2021. GENIE: テキスト生成のヒューマンインザループ評価のためのリーダーボード。 0.80
CoRR, abs/2101.06561. CoRR, abs/2101.06561。 0.60
Tomáš Koˇcisk`y, Jonathan Schwarz, Phil Blunsom, Chris Dyer, Karl Moritz Hermann, Gábor Melis, and Edward Grefenstette. トム・コシスク、ジョナサン・シュワルツ、フィル・ブランソム、クリス・ダイア、カール・モリッツ・ハーマン、ガーボル・メリス、エドワード・グレフェンステット。
訳抜け防止モード: トム・コシスク、ジョナサン・シュワルツ、フィル・ブランソム、クリス・ダイアー。 Karl Moritz Hermann、Gábor Melis、Edward Grefenstette。
0.64
2018. The narrativeQA reading comprehension challenge. 2018. 物語QAの読み解きの挑戦。 0.74
Transactions of the Association for Computational Linguistics, 6:317–328. 計算言語学協会の取引、6:317–328。 0.70
Faisal Ladhak, Esin Durmus, Claire Cardie, and Kathleen McKeown. Faisal Ladhak, Esin Durmus, Claire Cardie, Kathleen McKeown 0.66
2020. WikiLingua: A new benchmark dataset for cross-lingual abstractive summarization. 2020. WikiLingua: 多言語抽象的要約のための新しいベンチマークデータセット。 0.80
In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 4034–4048, Online. In Findings of the Association for Computational Linguistics: EMNLP 2020, page 4034–4048, Online 0.84
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Rémi Lebret, David Grangier, and Michael Auli. Rémi Lebret、David Grangier、Michael Auli。 0.71
2016. Neural text generation from structured data with application to the biography domain. 2016. 構造化データからのニューラルテキスト生成とバイオグラフィー領域への応用 0.75
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1203–1213, Austin, Texas. 2016年の自然言語処理における経験的方法に関する会議の進行において、テキサス州オースティンの1203-1213ページ。
訳抜け防止モード: 自然言語処理における経験的手法に関する2016年会議のまとめ 1203-1213頁、テキサス州オースティン。
0.78
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer。 0.78
2020a. BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. 2020a BART:自然言語生成、翻訳、理解のためのシーケンス・トゥ・シークエンス・プレトレーニング。 0.70
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7871–7880, Online. 第58回計算言語学会年次総会の進行において、7871-7880ページ、オンライン。 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Patrick Lewis, Barlas Oguz, Ruty Rinott, Sebastian Riedel, and Holger Schwenk. Patrick Lewis、Barlas Oguz、Ruty Rinott、Sebastian Riedel、Holger Schwenk。 0.69
2020b. MLQA: 2020年。 mlqa: 0.66
Evaluating cross-lingual extractive question anIn Proceedings of the 58th Annual swering. 第58回年次大会における言語横断的抽出質問の評価 0.67
Meeting of the Association for Computational Linguistics, pages 7315–7330, Online. The Association for Computational Linguistics, page 7315–7330, Online. 0.81
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and Bill Dolan. Jiwei Li、Michel Galley、Chris Brockett、Jianfeng Gao、Bill Dolan。 0.73
2016. A diversitypromoting objective function for neural conversation models. 2016. ニューラル会話モデルのための多様性促進目的関数 0.83
In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 110–119, San Diego, California. 2016年アメリカ計算言語協会(Association for Computational Linguistics: Human Language Technologies, Page 110–119, San Diego, California)は、アメリカ合衆国カリフォルニア州サンディエゴにある言語学会。 0.75
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Yikang Li, Nan Duan, Bolei Zhou, Xiao Chu, Wanli Ouyang, Xiaogang Wang, and Ming Zhou. Yikang Li, Nan Duan, Bolei Zhou, Xiao Chu, Wanli Ouyang, Xiaogang Wang, Ming Zhou 0.70
2018. Visual question generation as dual task of visual question answering. 2018. 視覚質問応答の二重課題としての視覚質問生成 0.76
In 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, June 18-22, 2018, pages 6116–6124. 2018年IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, June 18-22, 2018, page 6116–6124。 0.91
IEEE Computer Society. IEEE Computer Society所属。 0.90
Yaobo Liang, Nan Duan, Yeyun Gong, Ning Wu, Fenfei Guo, Weizhen Qi, Ming Gong, Linjun Shou, Daxin Jiang, Guihong Cao, Xiaodong Fan, Bruce Zhang, Rahul Agrawal, Edward Cui, Sining Wei, Taroon Bharti, Ying Qiao, JiunHung Chen, Winnie Wu, Shuguang Liu, Fan Yang, Rangan Majumder, and Ming Zhou. Yaobo Liang, Nan Duan, Yeyun Gong, Ning Wu, Fenfei Guo, Weizhen Qi, Ming Gong, Linjun Shou, Daxin Jiang, Guihong Cao, Xiaodong Fan, Bruce Zhang, Rahul Agrawal, Edward Cui, Sining Wei, Taroon Bharti, Ying Qiao, Jiun Hung Chen, Winnie Wu, Shuguang Liu, Fan Yang, Rangan Majumder, Ming Zhou 0.82
2020. XGLUE: A new benchmark dataset for crosslingual pre-training, understanding and generation. 2020. xglue: 言語間事前トレーニング、理解、生成のための新しいベンチマークデータセット。 0.78
CoRR, abs/2004.01401. CoRR, abs/2004.01401。 0.61
Bill Yuchen Lin, Wangchunshu Zhou, Ming Shen, Pei Zhou, Chandra Bhagavatula, Yejin Choi, and Xiang Ren. Bill Yuchen Lin, Wangchunshu Zhou, Ming Shen, Pei Zhou, Chandra Bhagavatula, Yejin Choi, Xiang Ren 0.70
2020. CommonGen: A constrained text generation challenge for generative commonsense reasoning. 2020. CommonGen: 生成コモンセンス推論のための制約付きテキスト生成チャレンジ。 0.82
In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1823–1840, Online. In Findings of the Association for Computational Linguistics: EMNLP 2020, page 1823–1840, Online 0.84
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Chin-Yew Lin. 2004. ちんゆうりん。 2004. 0.59
ROUGE: A package for automatic evaluation of summaries. ROUGE:要約の自動評価のためのパッケージ。 0.78
In Text Summarization Branches Out, pages 74–81, Barcelona, Spain. 英語) Text Summarization Branches Out, page 74–81, Barcelona, Spain. 0.89
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Tal Linzen. Tal Linzen 0.57
2020. How can we accelerate progress towards human-like linguistic generalization? 2020. 人間ライクな言語一般化への進歩をいかに加速するか? 0.71
In Proceedings of the 58th Annual Meeting of 第58回年次大会の開催にあたって 0.75
英語(論文から抽出)日本語訳スコア
the Association for Computational Linguistics, pages 5210–5217, Online. The Association for Computational Linguistics, page 5210–5217, Online. 0.98
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Dayiheng Liu, Yu Yan, Yeyun Gong, Weizhen Qi, Hang Zhang, Jian Jiao, Weizhu Chen, Jie Fu, Linjun Shou, Ming Gong, Pengcheng Wang, Jiusheng Chen, Daxin Jiang, Jiancheng Lv, Ruofei Zhang, Winnie Wu, Ming Zhou, and Nan Duan. Dayiheng Liu, Yu Yan, Yeyun Gong, Weizhen Qi, Hang Zhang, Jian Jiao, Weizhu Chen, Jie Fu, Linjun Shou, Ming Gong, Pengcheng Wang, Jiusheng Chen, Daxin Jiang, Jiancheng Lv, Ruofei Zhang, Winnie Wu, Ming Zhou, Nan Duan 0.79
2020a. GLGE: A new general language generation evaluation benchmark. 2020a GLGE: 新しい汎用言語生成評価ベンチマーク。 0.74
CoRR, abs/2011.11928. CoRR, abs/2011.11928。 0.60
Peter J. Liu, Mohammad Saleh, Etienne Pot, Ben Goodrich, Ryan Sepassi, Lukasz Kaiser, and Noam Shazeer. Peter J. Liu, Mohammad Saleh, Etienne Pot, Ben Goodrich, Ryan Sepassi, Lukasz Kaiser, Noam Shazeer 0.76
2018. Generating wikipedia by In 6th Internasummarizing long sequences. 2018. In 6th Internasummarizing long sequences によるwikipediaの生成 0.89
tional Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. 英語) tional conference on learning representations, iclr 2018, vancouver, bc, canada, april 30 - may 3, 2018, conference track proceedings (英語) 0.79
OpenReview.net. OpenReview.net 0.83
Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. Yinhan Liu、Jiatao Gu、Naman Goyal、Xian Li、Sergey Edunov、Marjan Ghazvininejad、Mike Lewis、そしてLuke Zettlemoyer。 0.73
2020b. Multilingual denoising pre-training for neural machine translation. 2020年。 ニューラルマシン翻訳のためのマルチリンガルdenoising pre-training 0.70
Trans. Assoc. トランス。 Assoc 0.58
Comput. Linguistics, 8:726–742. Comput 言語学 8:726–742。 0.51
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019. Roberta: A robustly optimized BERT pretraining approach. 2019. Roberta: 堅牢に最適化されたBERTプリトレーニングアプローチです。 0.73
CoRR, abs/1907.11692. CORR, abs/1907.11692。 0.60
Ryan Lowe, Nissan Pow, Iulian Serban, and Joelle Pineau. Ryan Lowe、Nissan Pow、Iulian Serban、Joelle Pineau。 0.70
2015. The Ubuntu dialogue corpus: A large dataset for research in unstructured multiturn dialogue systems. 2015. Ubuntuダイアログコーパス:非構造化マルチターン対話システムの研究のための大規模なデータセット。 0.78
In Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 285– 294, Prague, Czech Republic. 第16回対話と対話に関する特別関心グループの年次総会の進行において、ページ285–294、プラハ、チェコ共和国。 0.69
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Qingsong Ma, Ondˇrej Bojar, and Yvette Graham. Qingsong Ma、Ond'rej Bojar、Yvette Graham。 0.77
2018. Results of the WMT18 metrics shared task: Both characters and embeddings achieve good performance. 2018. WMT18メトリクス共有タスクの結果: 文字と埋め込みの両方が優れたパフォーマンスを達成する。 0.80
In Proceedings of the Third Conference on Machine Translation: Shared Task Papers, pages 671–688, Belgium, Brussels. In Proceedings of the Third Conference on Machine Translation: Shared Task Papers, pages 671-688, Belgium, Brussels 0.83
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Qingsong Ma, Johnny Wei, Ondˇrej Bojar, and Yvette Graham. チョン・マ、ジョニー・ウェイ、オンデレジュ・ボジャル、イヴェット・グラハム。 0.42
2019. Results of the WMT19 2019. WMT19の結果 0.82
metrics shared task: Segment-level and strong MT systems pose big challenges. メトリクス共有タスク:セグメントレベルと強力なMTシステムは大きな課題を引き起こします。 0.67
In Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1), pages 62–90, Florence, Italy. 第4回機械翻訳会議(Volume 2: Shared Task Papers, Day 1, page 62–90, イタリア・フィレンツェ)に参加して 0.76
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Emma Manning, Shira Wein, and Nathan Schneider. Emma Manning、Shira Wein、Nathan Schneider。 0.71
2020. A human evaluation of amr-to-english generation systems. 2020. amr-to- english 生成系の人間評価 0.81
In Proceedings of the 28th International Conference on Computational Linguistics, COLING 2020, Barcelona, Spain (Online), December 8-13, 2020, pages 4773–4786. 第28回計算言語学国際会議(coling 2020, barcelona, spain (online), december 8-13, 2020, pages 4773-4786)の議事録。 0.83
International Committee on Computational Linguistics. 計算言語学国際委員会委員。 0.69
Nitika Mathur, Timothy Baldwin, and Trevor Cohn. Nitika Mathur、Timothy Baldwin、Trevor Cohn。 0.65
2020a. Tangled up in BLEU: Reevaluating the evaluation of automatic machine translation evaluation metrics. 2020a BLEUでのTangled up: 自動機械翻訳評価指標の評価を再評価する。 0.79
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4984–4997, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 4984–4997, Online 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Nitika Mathur, Johnny Wei, Markus Freitag, Qingsong Ma, and Ondˇrej Bojar. Nitika Mathur, Johnny Wei, Markus Freitag, Qingsong Ma, Ond'rej Bojar 0.77
2020b. Results of the WMT20 metrics shared task. 2020年。 WMT20メトリクス共有タスクの結果。 0.69
In Proceedings of the Fifth Conference on Machine Translation, pages 688–725, Online. 第5回機械翻訳会議の進行で、688-725ページ、オンライン。 0.80
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Joshua Maynez, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. Joshua Maynez、Shashi Narayan、Bernd Bohnet、Ryan McDonald。 0.66
2020. On faithfulness and factuality in abstractive summarization. 2020. 抽象要約における忠実性と事実性について 0.70
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1906–1919, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 1906–1919, Online 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Bryan McCann, Nitish Shirish Keskar, Caiming Xiong, and Richard Socher. Bryan McCann、Nitish Shirish Keskar、Caiming Xiong、Richard Socher。 0.74
2018. The natural language decathlon: Multitask learning as question answering. 2018. 自然言語decathlon: 質問応答としてのマルチタスク学習。 0.86
CoRR, abs/1806.08730. CoRR, abs/1806.08730。 0.60
Simon Mille, Anja Belz, Bernd Bohnet, Yvette Graham, Emily Pitler, and Leo Wanner. Simon Mille、Anja Belz、Bernd Bohnet、Yvette Graham、Emily Pitler、Leo Wanner。 0.69
2018. The first multilingual surface realisation shared task (SR’18): Overview and evaluation results. 2018. 最初の多言語表面実現共有タスク(SR’18):概要と評価結果。 0.81
In Proceedings of the First Workshop on Multilingual Surface Realisation, pages 1–12, Melbourne, Australia. In Proceedings of the First Workshop on Multilingual Surface Realisation, page 1–12, Melbourne, Australia 0.82
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
英語(論文から抽出)日本語訳スコア
Simon Mille, Anja Belz, Bernd Bohnet, Yvette Graham, and Leo Wanner, editors. Simon Mille、Anja Belz、Bernd Bohnet、Yvette Graham、Leo Wanner、編集者。 0.70
2019. Proceedings of the 2nd Workshop on Multilingual Surface Realisation (MSR 2019). 2019. 第2回多言語表面実現ワークショップ(MSR 2019)の開催。 0.79
Association for Computational Linguistics, Hong Kong, China. 香港、中国、香港の計算言語協会。 0.59
Simon Mille, Anya Belz, Bernd Bohnet, Thiago Castro Ferreira, Yvette Graham, and Leo Wanner. Simon Mille, Anya Belz, Bernd Bohnet, Thiago Castro Ferreira, Yvette Graham, Leo Wanner 0.71
2020. The third multilingual surface realisation shared task (SR’20): Overview and evaluation results. 2020. 第3の多言語表面実現共有タスク(SR’20):概要と評価結果。 0.81
In Proceedings of the Third Workshop on Multilingual Surface Realisation, pages 1–20, Barcelona, Spain (Online). In Proceedings of the Third Workshop on Multilingual Surface Realisation, page 1–20, Barcelona, Spain (Online)。 0.88
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Emiel van Miltenburg, Desmond Elliott, and Piek Vossen. Emiel van Miltenburg、Desmond Elliott、Piek Vossen。 0.64
2018. Measuring the diversity of automatic image descriptions. 2018. 自動画像記述の多様性を測定する。 0.82
In Proceedings of the 27th International Conference on Computational Linguistics, pages 1730–1741, Santa Fe, New Mexico, USA. 第27回計算言語に関する国際会議の進行において、1730-1741ページ、サンタフェ、ニューメキシコ、米国。 0.76
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Sewon Min, Julian Michael, Hannaneh Hajishirzi, and Luke Zettlemoyer. Sewon Min、Julian Michael、Hannaneh Hajishirzi、そしてLuke Zettlemoyer。 0.73
2020. AmbigQA: Answering ambiguous open-domain questions. 2020. AmbigQA: あいまいなオープンドメインの質問に答える。 0.72
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 5783–5797, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 5783-5797, Online. 0.86
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Shachar Mirkin and Jean-Luc Meunier. Shachar MirkinとJean-Luc Meunier。 0.87
2015. Personalized machine translation: Predicting translational preferences. 2015. パーソナライズされた機械翻訳: 翻訳の好みを予測する。 0.69
In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 2019–2025, Lisbon, Portugal. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, page 2019–2025, Lisbon, Portugal 0.85
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ramesh Nallapati, Bowen Zhou, Cicero dos Santos, Ça˘glar Gu̇lçehre, and Bing Xiang. ラメシュ・ナラパティ、ボーエン・周、キケロ・ドス・サントス、チャ・シグラール・グルセール、ビン・シアン。 0.38
2016. Abstractive text summarization using sequenceto-sequence RNNs and beyond. 2016. sequenceto-sequence rnn と beyond を用いた要約テキスト要約 0.77
In Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, pages 280– 290, Berlin, Germany. The 20th SIGNLL Conference on Computational Natural Language Learning, page 280–290, Berlin, Germany (ドイツ語) 0.80
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Shashi Narayan, Shay B. Cohen, and Mirella Lapata. Shashi Narayan、Shay B. Cohen、Mirrella Lapata。 0.64
2018. Don’t give me the details, just the summary! 2018. 私に詳細、ちょうど要約を与えないでください! 0.76
topic-aware convolutional neural networks for extreme summarization. 極端要約のための話題認識畳み込みニューラルネットワーク 0.69
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 自然言語処理における実証的手法に関する2018年会議の開催にあたって 0.71
1797–1807, Brussels, Belgium. 1797–1807 - ベルギーのブリュッセル。 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Jekaterina Novikova, Ondˇrej Dušek, and Verena Rieser. ジェカテリーナ・ノヴィコヴァ(Jekaterina Novikova)、オンデレー・ドゥシェク(Ond'rej Dušek)、ヴェレナ・リース(Verena Rieser)。 0.45
2017. The E2E dataset: New challenges In Proceedings of for end-to-end generation. 2017. E2Eデータセット: エンドツーエンド世代における新たな課題 0.82
the 18th Annual SIGdial Meeting on Discourse and Dialogue, pages 201–206, Saarbrücken, Germany. 第18回SIGdial Meeting on Discourse and Dialogue, Page 201–206, Saarbrücken, Germany。 0.82
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Juri Opitz and Anette Frank. Juri OpitzとAnette Frank。 0.81
2020. Towards a decomposable metric for explainable evaluation of text generation from amr. 2020. amrからテキスト生成を説明可能な評価のための分解性指標に向けて 0.77
arXiv preprint arXiv:2008.08896. arXiv preprint arXiv:2008.08896。 0.63
Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Kishore Papineni、Salim Roukos、Todd Ward、Wei-Jing Zhu。 0.68
2002. Bleu: a method for automatic evaluation of machine translation. 2002. Bleu:機械翻訳の自動評価方法。 0.74
In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pages 311–318, Philadelphia, Pennsylvania, USA. 第40回コンピュータ言語学会年次総会の進行において、アメリカ合衆国ペンシルベニア州フィラデルフィアの311-318ページ。 0.67
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ankur Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, and Dipanjan Das. Ankur Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das。 0.72
2020. ToTTo: A controlled table-to-text generation dataset. 2020. totto: コントロールされたテーブルツーテキスト生成データセット。 0.73
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1173–1186, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 1173–1186, Online 0.81
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Laura Perez-Beltrachini and Claire Gardent. Laura Perez-Beltrachini and Claire Gardent 0.91
2017. Analysing data-to-text generation benchmarks. 2017. データ-テキスト生成ベンチマークの分析。 0.69
In Proceedings of the 10th International Conference on Natural Language Generation, pages 238–242, Santiago de Compostela, Spain. 第10回自然言語生成に関する国際会議の進行において、スペイン・サンティアゴ・デ・コンポステーラの238-242ページ。 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Edoardo Maria Ponti, Goran Glavaš, Olga Majewska, Qianchu Liu, Ivan Vuli´c, and Anna Korhonen. Edardo Maria Ponti、Goran Glavaš、Olga Majewska、Qianchu Liu、Ivan Vuli ́c、Anna Korhonen。 0.70
2020. XCOPA: A multilingual dataset for causal commonsense reasoning. 2020. XCOPA: 因果コモンセンス推論のための多言語データセット。 0.79
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2362–2376, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 2362–2376, Online 0.80
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Christopher Potts, Zhengxuan Wu, Atticus Geiger, and Douwe Kiela. Christopher Potts, Zhengxuan Wu, Atticus Geiger, Douwe Kiela。 0.72
2020. Dynasent: A dynamic benchmark for sentiment analysis. 2020. Dynasent: 感情分析のための動的ベンチマーク。 0.81
CoRR, abs/2012.15349. CoRR, abs/2012.15349。 0.61
英語(論文から抽出)日本語訳スコア
Ratish Puduppully, Li Dong, and Mirella Lapata. Ratish Puduppully、Li Dong、Mirella Lapata。 0.51
2019. Data-to-text generation with entity modeling. 2019. エンティティモデリングによるデータ-テキスト生成。 0.77
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 2023–2035, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 2023–2035, イタリア・フィレンツェ。 0.71
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Sivaprasad, Dragomir R. Radev, Rui Zhang, Amrit Rau, Chiachun Hsieh, Abhinand Nazneen Fatema Rajani, Xiangru Tang, Aadit Vyas, Neha Verma, Pranav Krishna, Yangxiaokang Liu, Nadia Irwanto, Jessica Pan, Faiaz Rahman, Ahmad Zaidi, Murori Mutuma, Yasin Tarabar, Ankit Gupta, Tao Yu, Yi Chern Tan, Xi Victoria Lin, Caiming Xiong, and Richard Socher. シヴァプラサド Dragomir R. Radev, Rui Zhang, Amrit Rau, Chiachun Hsieh, Abhinand Nazneen Fatema Rajani, Xiangru Tang, Aadit Vyas, Neha Verma, Pranav Krishna, Yangxiaokang Liu, Nadia Irwanto, Jessica Pan, Faiaz Rahman, Ahmad Zaidi, Murori Mutuma, Yasin Tarabar, Ankit Gupta, Tao Yu, Yi Chern Tan, Xi Victoria Lin, Caiming Xiong, and Richard Socher。 0.66
2020. DART: open-domain structured data record to text generation. 2020. DART: オープンドメイン構造化データレコードからテキスト生成。 0.86
CoRR, abs/2007.02871. CoRR, abs/2007.02871。 0.59
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu
訳抜け防止モード: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リュー(Peter J. Liu)。
0.92
2020. Exploring the limits of transfer learning with a unified text-to-text transformer. 2020. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.83
J. Mach. Learn. J. Mach 学ぶ。 0.72
Res., 21:140:1–140:67. 21:140:1–140:67。 0.46
Sudha Rao and Joel Tetreault. Sudha RaoとJoel Tetreault。 0.76
2018. Dear sir or madam, may I introduce the GYAFC dataset: Corpus, benchmarks and metrics for formality style transfer. 2018. dear sir or madam, i introduce the gyafc dataset: corpus, benchmarks and metrics for formality style transfer (英語) 0.78
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 129–140, New Orleans, Louisiana. 2018年の北米言語協会(Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), Page 129–140, New Orleans, Louisiana)の会議の進行。 0.79
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, and Pranav Khaitan. Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, Pranav Khaitan。 0.72
2020. Towards scalable multi-domain conversational agents: The schema-guided dialogue dataset. 2020. スケーラブルなマルチドメイン会話エージェントを目指して:スキーマ誘導対話データセット。 0.72
In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 8689–8696. The Thir-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, page 8689–8696。 0.93
AAAI Press. Ehud Reiter. AAAIプレス。 Ehud Reiter 0.66
2018. A structured review of the validity of BLEU. 2018. BLEUの有効性に関する構造化されたレビュー。 0.76
Comput. Linguistics, 44(3). Comput 言語学、44(3)。 0.62
Ehud Reiter and Robert Dale. Ehud ReiterとRobert Dale。 0.80
2000. Building natural language generation systems. 2000. 自然言語生成システムの構築。 0.85
Cambridge university press. ケンブリッジ大学出版局。 0.67
Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, and Sameer Singh. Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, Sameer Singh 0.66
2020. Beyond accuracy: Behavioral testing of NLP models with CheckList. 2020. 精度を超えて:CheckListによるNLPモデルの振る舞いテスト。 0.80
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4902–4912, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 4902–4912, Online 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Viktor Schlegel, Goran Nenadic, and Riza BatistaNavarro. Viktor Schlegel、Goran Nenadic、Riza BatistaNavarro。 0.64
2020. Beyond leaderboards: A survey of methods for revealing weaknesses in natural language inference data and models. 2020. リーダーボードを超えて: 自然言語の推論データとモデルに弱点を明らかにする方法の調査。 0.79
CoRR, abs/2005.14709. CoRR, abs/2005.14709。 0.59
Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. Thomas Scialom、Paul-Alexis Dray、Sylvain Lamprier、Benjamin Piwowarski、Jacopo Staiano。 0.73
2020. MLSUM: The multilingual summarization corpus. 2020. MLSUM:多言語の要約コーパス。 0.78
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 8051–8067, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 8051–8067, Online. 0.88
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Thomas Scialom, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. Thomas Scialom、Sylvain Lamprier、Benjamin Piwowarski、Jacopo Staiano。 0.62
2019. Answers unite! 2019. 答えは団結! 0.73
unsupervised metrics for reinforced summarization models. 強化要約モデルのための監視されていないメトリクス。 0.46
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3246–3256, Hong Kong, China. 自然言語処理における実証的方法に関する2019会議および第9回自然言語処理に関する国際合同会議(EMNLP-IJCNLP)の進行において、ページ3246-3256、香港、中国。 0.78
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Thibault Sellam, Dipanjan Das, and Ankur Parikh. Thibault Sellam、Dipanjan Das、Ankur Parikh。 0.63
2020. BLEURT: Learning robust metrics for text generation. 2020. BLEURT: テキスト生成のための堅牢なメトリクスを学ぶ。 0.75
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7881–7892, Online. 第58回計算言語学会年次総会の進行において、7881-7892ページ、オンライン。 0.65
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Claude E Shannon and Warren Weaver. クロード・e・シャノンとウォーレン・ウィーバー 0.40
1963. A mathematical theory of communication. 1963. A 通信の数学的理論。 0.86
Siva Reddy, Danqi Chen, and Christopher D. Manning. Siva Reddy、Danqi Chen、Christopher D. Manning。 0.78
2019. CoQA: A conversational question answering challenge. 2019. CoQA: 対話型質問回答の課題。 0.83
Transactions of the Association for Computational Linguistics, 7:249–266. 計算言語協会の取引、7:249–266。 0.75
Eva Sharma, Chen Li, and Lu Wang. Eva Sharma、Chen Li、Lu Wang。 0.64
2019. BIGPATENT: A large-scale dataset for abstractive and coherent summarization. 2019. bigpatent: 抽象化とコヒーレントな要約のための大規模データセット。 0.72
In Proceedings of the 57th Annual Meeting of the Association for 第57回研究発表会に参加して 0.50
英語(論文から抽出)日本語訳スコア
Computational Linguistics, pages 2204–2213, Florence, Italy. 計算言語学、ページ2204-2213、フィレンツェ、イタリア。 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Pushkar Shukla, Carlos Elmadjian, Richika Sharan, Vivek Kulkarni, Matthew Turk, and William Yang Wang. Pushkar Shukla、Carlos Elmadjian、Richika Sharan、Vivek Kulkarni、Matthew Turk、William Yang Wang。 0.71
2019. What should I ask? 2019. 何を聞くべきか? 0.76
using conversationally informative rewards for goal-oriented visual dialog. ゴール指向のビジュアルダイアログに会話に有益な報酬を使うこと。 0.53
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 6442–6451, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics』6442-6451頁、イタリアのフィレンツェ。 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Miloš Stanojevi´c, Amir Kamran, Philipp Koehn, and Ondˇrej Bojar. Miloš Stanojevi ́c、Amir Kamran、Philipp Koehn、Ondérej Bojar。 0.71
2015. Results of the WMT15 metrics shared task. 2015. WMT15のメトリクス共有タスクの結果。 0.77
In Proceedings of the Tenth Workshop on Statistical Machine Translation, pages 256–273, Lisbon, Portugal. Proceedings of the Tenth Workshop on Statistical Machine Translation, page 256–273, Lisbon, Portugal 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Simeng Sun, Ori Shapira, Ido Dagan, and Ani Nenkova. Simeng Sun、Ori Shapira、Ido Dagan、Ani Nenkova。 0.62
2019. How to compare summarizers without target length? 2019. ターゲット長のない要約器の比較方法 0.73
pitfalls, solutions and re-examination of the neural summarization literature. 落とし穴、解決策、神経要約文献の再検討。 0.55
In Proceedings of the Workshop on Methods for Optimizing and Evaluating Neural Language Generation, pages 21–29, Minneapolis, Minnesota. In Proceedings of the Workshop on Methods for Optimizing and Evaluating Neural Language Generation, pages 21–29, Minneapolis, Minnesota 0.85
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Kristina Toutanova, Chris Brockett, Ke M. Tran, and Saleema Amershi. Kristina Toutanova、Chris Brockett、Ke M. Tran、Saleema Amershi。 0.76
2016. A dataset and evaluation metrics for abstractive compression of sentences and short paragraphs. 2016. 文と短い段落の抽象圧縮のためのデータセットと評価メトリクス。 0.81
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 340–350, Austin, Texas. 2016年の自然言語処理における経験的方法に関する会議の進行において、テキサス州オースティンの340-350ページ。
訳抜け防止モード: 自然言語処理における経験的手法に関する2016年会議のまとめ 340-350頁、テキサス州オースティン。
0.76
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Alex Wang, Kyunghyun Cho, and Mike Lewis. Alex Wang、Kyunghyun Cho、Mike Lewis。 0.72
2020. Asking and answering questions to evaluate the factual consistency of summaries. 2020. 要約の事実整合性を評価するための質問と回答。 0.76
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 5008–5020, Online. 第58回計算言語学会年次総会の進行において、5008–5020ページ、オンライン。 0.70
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R. Bowman. Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman 0.79
2019a. Superglue: A stickier benchmark for generalpurpose language understanding systems. 2019年。 Superglue: 汎用言語理解システムのためのステッカーベンチマーク。 0.74
In Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pages 3261–3275. 内 Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pages 3261–3275. 2019年12月8日閲覧。 0.75
Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R. Bowman. Alex Wang、Amanpreet Singh、Julian Michael、Felix Hill、Omer Levy、Samuel R. Bowman。 0.77
2019b. GLUE: A multi-task benchmark and analysis platform for natural language understanding. 2019年。 GLUE: 自然言語理解のためのマルチタスクベンチマークと分析プラットフォーム。 0.72
In International Conference on Learning Representations. International Conference on Learning Representationsに参加。 0.87
Sam Wiseman, Stuart Shieber, and Alexander Rush. サム・ワイズマン、スチュアート・シーバー、アレクサンダー・ラッシュ。 0.57
2017. Challenges in data-to-document generation. 2017. データ・ツー・ドキュメント生成の課題 0.69
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2253–2263, Copenhagen, Denmark. 2017年の自然言語処理の実証的方法に関する会議の進行において、デンマークのコペンハーゲン2253-2263ページ。 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Wei Xu, Courtney Napoles, Ellie Pavlick, Quanze Chen, and Chris Callison-Burch. Wei Xu、Courtney Napoles、Ellie Pavlick、Quanze Chen、Chris Callison-Burch。 0.72
2016. Optimizing statistical machine translation for text simplification. 2016. テキスト簡易化のための統計的機械翻訳の最適化 0.75
Transactions of the Association for Computational Linguistics, 4:401–415. association for computational linguistics, 4:401–415を参照。 0.74
Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, and Colin Raffel. Linting Xue、Noah Constant、Adam Roberts、Mihir Kale、Rami Al-Rfou、Aditya Siddhant、Aditya Barua、Colin Raffel。 0.76
2020. mt5: A massively multilingual pre-trained text-to-text transformer. 2020.mt5: 多言語で事前学習されたテキスト-テキスト変換器。 0.46
CoRR, abs/2010.11934. CoRR, abs/2010.11934。 0.60
Xiaoxue Zang, Abhinav Rastogi, Srinivas Sunkara, Raghav Gupta, Jianguo Zhang, and Jindong Chen. Xiaoxue Zang, Abhinav Rastogi, Srinivas Sunkara, Raghav Gupta, Jianguo Zhang, Jindong Chen 0.69
2020. MultiWOZ 2.2 : A dialogue dataset with additional annotation corrections and state tracking baselines. 2020. MultiWOZ 2.2 : 追加のアノテーション補正と状態追跡ベースラインを備えた対話データセット。 0.81
In Proceedings of the 2nd Workshop on Natural Language Processing for Conversational AI, pages 109–117, Online. 2nd workshop on natural language processing for conversational ai, pages 109–117, online (英語) 0.74
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Jingqing Zhang, Yao Zhao, Mohammad Saleh, and Peter J. Liu. Jingqing Zhang、Yao Zhao、Mohammad Saleh、Peter J. Liu。 0.73
2020a. PEGASUS: pre-training with extracted gap-sentences for abstractive summarization. 2020a PEGASUS:抽象的な要約のための抽出されたギャップ文による事前学習。 0.63
In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, volume 119 of Proceedings of Machine Learning Research, pages 11328–11339. 第37回In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, Volume 119 of Proceedings of Machine Learning Research, page 11328–11339。 0.89
PMLR. Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. PMLR。 Saizheng Zhang、Emily Dinan、Jack Urbanek、Arthur Szlam、Douwe Kiela、Jason Weston。 0.75
2018. Personalizing dialogue agents: I have a 2018. 対話エージェントをパーソナライズします。 0.68
英語(論文から抽出)日本語訳スコア
dog, do you have pets too? In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2204–2213, Melbourne, Australia. 犬も飼ってますか? 第56回計算言語学会年次総会(Volume 1: Long Papers)の進行(204-2213ページ、メルボルン、オーストラリア)。 0.63
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, and Yoav Artzi. Tianyi Zhang、Varsha Kishore、Felix Wu、Kilian Q. Weinberger、Yoav Artzi。 0.70
2020b. Bertscore: Evaluating text generation with BERT. 2020年。 Bertscore: BERTによるテキスト生成の評価。 0.79
In 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. 第8回International Conference on Learning Representations, ICLR 2020, Addis Ababa, エチオピア, 2020年4月26-30日。 0.87
OpenReview.net. OpenReview.net 0.83
Xingxing Zhang and Mirella Lapata. Xingxing ZhangとMirella Lapata。 0.67
2014. Chinese poetry generation with recurrent neural networks. 2014. 繰り返しニューラルネットワークを用いた中国語詩生成 0.82
In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 670–680, Doha, Qatar. 2014年のEmpirical Methods in Natural Language Processing (EMNLP)の進行において、670–680ページ、ドーハ、カタール。 0.76
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill Dolan. Yizhe Zhang、Siqi Sun、Michel Galley、Yen-Chun Chen、Chris Brockett、Xiang Gao、Jianfeng Gao、Jingjing Liu、Bill Dolan。 0.77
2020c. DIALOGPT : Large-scale generative pre-training for conversational response generation. 2020年。 DIALOGPT : 対話応答生成のための大規模生成前訓練 0.75
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 270–278, Online. The 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, page 270-278, Online 0.75
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
A Task Suggestion Categories Participants were required to provide information for the following categories when suggesting a dataset for GEM. タスク提案カテゴリの参加者は、GEMのデータセットを提案する際に、以下のカテゴリに関する情報を提供する必要がある。 0.67
1. Dataset Name 2. 1. データセット名2。 0.80
Reference 3. High-level Task, e.g., data-to-text, or summa- 参照3。 data-to-textやsummaといったハイレベルなタスク 0.65
rization 4. Short Description 5. ライジング 4. 短い記述5。 0.69
Challenges, e.g., entity tracking/generation, referring expression generation, surface realization, content selection エンティティトラッキング/ジェネレーション、参照表現生成、表面実現、コンテンツ選択などの課題 0.70
6. Communicative goal, e.g., provide specific information, or entertainment, or accomplish a task 6. 例えば、特定の情報やエンターテイメントを提供する、またはタスクを達成するといったコミュニケーション上の目標 0.76
7. Dataset Domain, e.g., Wikipedia, or news arti- 7. Dataset Domain, 例えばWikipedia, あるいは news arti- 0.82
cles, Reddit chat, etc) cles、Redditチャットなど) 0.60
8. Language(s) 9. Language locale (if known), e.g., en-US, es- 8. 言語は9。 言語ロケール(知られている場合)、例えば、en-US、es- 0.67
MX 10. Input modality, e.g., text, graph, table, images 11. MX 10. テキスト、グラフ、テーブル、画像11などのモダリティを入力します。 0.81
Input length 12. Output length 13. 入力長さ12。 出力長13。 0.79
Output form, e.g., monologue, dialog 14. 出力形式、例えば、モノローグ、ダイアログ14。 0.67
# Examples in dataset Test split, e.g., i.i.d., or # データセットテストスプリットの例、例えば、i.i.d.、または 0.74
non-overlap dimension 非オーバーラップ次元 0.72
15. # References per example 16. 15. #例16あたりの参照。 0.83
Data Quality / potential データ品質/ポテンシャル 0.78
e.g., noisy, clean, biased, code-mixing (different (over)normalization 例えば、騒々しく、きれいで、偏りがあり、コードミキシング(過度な)正規化 0.60
languages/writing systems), 言語/書記システム) 0.76
Issues, 17. License 18. 問題 17. ライセンス番号18。 0.66
Evaluation strategies (in original paper / pa- 評価戦略(オリジナルペーパー/PA-)。 0.66
pers that use dataset) dataset (複数形 datasets) 0.72
19. Why should we use this dataset? 19. なぜこのデータセットを使うべきか? 0.83
B Considered datasets The following datasets were proposed to be included in GEM. b データセット 以下のデータセットはGEMに含めることが提案された。 0.64
1. Alex Context NLG (Dušek and Jurcıcek, 1. Alex Context NLG (Dušek and Jurcıcek) 0.83
2016; Dušek and Jurˇcíˇcek, 2016a) 2016年、デュシェクとユルシチェク、2016a)。 0.70
2. AmbigQA/AmbigNQ (Min et al., 2020) 3. 2. AmbigQA/AmbigNQ (Min et al., 2020) 3。 0.91
Bangla Natural Language Image to Text (Jis- Bangla Natural Language Image to Text (Jis- 0.94
han et al., 2019) han et al., 2019)。 0.92
4. Big Patent (Sharma et al., 2019) 5. 4. Big Patent (Sharma et al., 2019) 5。 0.84
Chinese Poetry (Zhang and Lapata, 2014) 6. 中国詩集 (Zhang and Lapata, 2014)。 0.64
CommonGen (Lin et al., 2020) 7. CommonGen (Lin et al., 2020) 7。 0.83
CoQA (Reddy et al., 2019) 8. CoQA (Reddy et al., 2019) 8。 0.81
Czech Restaurant Data (Dušek and Jurˇcíˇcek, チェコのレストランデータ(ドゥシェクとユルシチェク)。 0.65
2019) 9. DART (Radev et al., 2020) 10. 2019) 9. DART (Radev et al., 2020) 10。 0.84
E2E (cleaned) (Novikova et al., 2017; Dušek E2E (cleaned) (Novikova et al., 2017; Dušek 0.98
et al., 2019) 11. など、2019年。 11. 0.68
ELI5 (Fan et al., 2019) 12. ELI5 (Fan et al., 2019) 12。 0.91
Hindi Poetry 10 13. ヒンディー語詩1013番。 0.69
LCSTS (Hu et al., 2015) 14. LCSTS (Hu et al., 2015) 14。 0.81
Mimic and Rephrase (Dieter et al., 2019) 15. Mimic and Rephrase (Dieter et al., 2019) 15。 0.82
MLSUM (Scialom et al., 2020) 16. MLSUM (Scialom et al., 2020) 16。 0.83
MSR Text Abstractive MSRテキスト 抽象 0.76
Compres- sion (Toutanova et al., 2016) コンプレックス sion (Toutanova et al., 2016) 0.57
10https://www.kaggle .com/shishu1421/hind i-poetry- 10https://www.kaggle .com/shishu1421/hind i-poetry- 0.25
dataset データセット 0.62
英語(論文から抽出)日本語訳スコア
• We should exclude datasets that require paid- •有料のデータセットを除外すべき 0.73
for licenses (e.g., LDC or ELRA). ライセンス(例えば ldc や elra)については。 0.73
[yes/no] • We should exclude datasets that are not freely [yes/no] •自由にないデータセットを除外すべき 0.80
available for download. [yes/no] ダウンロード可能。 [yes/no] 0.65
• We should exclude tasks that require encoding anything but text (e.g., images or graphs). • テキスト(画像やグラフなど)以外のエンコードを必要とするタスクは除外する必要があります。 0.75
[yes/no] • We should include # tasks in GEM. [yes/no] • GEMに#タスクを含めるべきです。 0.76
[10 points ranging from 2 to 20] [10点] 2から20まで] 0.69
• X% of the tasks should feature non-English language(s). • タスクのx%は、非英語言語を特徴とすべきである。 0.76
[10 points ranging from 10 to 100%] 【10から100%の10点】 0.67
• Diversity of tasks is more important than focus on an NLG task (by including multiple datasets for the same task). • タスクの多様性は、nlgタスクにフォーカスするよりも重要です(同じタスクに複数のデータセットを含めます)。 0.82
[10 points from Diversity is more important to Focus is more important] [多様性から10ポイントがより重要であり、フォーカスがより重要である] 0.75
• We should include noisy and clean datasets. • ノイズやクリーンなデータセットを含めるべきです。 0.73
[10 points from only noisy to only clean] [うるさいものから清潔なものまで10点] 0.60
• We should include low- and high-resource datasets. • 低リソースと高リソースのデータセットを含めるべきです。 0.60
[10 points from only low-resource to only high-resource] [低資源のみから高資源のみまでの10点] 0.78
• We should prefer tasks with non-iid test sets or specific challenge sets. • iidでないテストセットや特定のチャレンジセットを持つタスクを優先すべきです。 0.65
[5-Likert scale from not important to very important] [5-Likert scale from not important to very important] 1.00
• We should prefer tasks with test sets with multiple references. • 複数の参照を持つテストセットを持つタスクを好むべきです。 0.73
[5-Likert scale from not important to very important] [5-Likert scale from not important to very important] 1.00
• If we include an NLG task (e.g., simplification or data2text), we need multiple datasets for that task. • NLG タスク(simplification や data2text など)を含む場合、そのタスクには複数のデータセットが必要です。 0.82
[5-Likert scale from not important to very important] [5-Likert scale from not important to very important] 1.00
• We should include a set of tasks with no clear evaluation strategy. •明確な評価戦略を持たない一連のタスクを含めるべきである。 0.82
[5-Likert scale from not important to very important] [5-Likert scale from not important to very important] 1.00
• We should focus on tasks with reliable automatic metrics. • 信頼性の高い自動メトリクスによるタスクに集中すべきです。 0.67
[5-Likert scale from not important to very important] [5-Likert scale from not important to very important] 1.00
17. MultiWOZ 2.2 (Zang et al., 2020) 18. 17. MultiWOZ 2.2 (Zang et al., 2020) 18。 0.90
NarrativeQA (Koˇcisk`y et al., 2018) 19. NarrativeQA (Koécisk`y et al., 2018) 19。 0.77
PersonaChat (Zhang et al., 2018) 20. PersonaChat (Zhang et al., 2018) 20頁。 0.80
PubMed, Arxiv (Kedzie et al., 2018; Cohan PubMed, Arxiv (Kedzie et al., 2018; Cohan 0.85
et al., 2018) 21. 2018年など)。 21. 0.57
ROTOWIRE/MLB (Wiseman et al., 2017; ROTOWIRE/MLB (Wiseman et al., 2017) 0.71
Puduppully et al., 2019) puduppully et al., 2019)。 0.85
22. Schema-Guided Dialogue (Rastogi et al., 22. Schema-Guided Dialogue (Rastogi et al.) 0.83
2020) 23. SQUAD Question Generation (Du et al., 2020) 23. SQUAD Question Generation (Du et al.) 0.86
2017) 24. SR’11, SR’18, SR’19 (Belz et al., 2011; Mille 2017) 24. SR’11, SR’18, SR’19 (Belz et al., 2011; Mille 0.85
et al., 2018, 2019) 2018年、2019年)。 0.51
25. ToTTo (Parikh et al., 2020) 26. 25. ToTTo (Parikh et al., 2020) 26。 0.84
Ubuntu Dialogue Generation (Lowe et al., Ubuntuダイアログ生成(Lowe et al.) 0.80
2015) 27. Visual Question Generation (Shukla et al., 2015) 27. 視覚的質問生成(Shukla et al.) 0.79
2019; Li et al., 2018) 2019年、Liら、2018年) 0.70
28. WebNLG (Gardent et al., 2017) 29. 28. WebNLG (Gardent et al., 2017) 29。 0.83
WikiAuto + Turk/ASSET (Jiang et al., 2020; Xu et al., 2016; Alva-Manchego et al., 2020) WikiAuto + Turk/ASSET (Jiang et al., 2020; Xu et al., 2016; Alva-Manchego et al., 2020) 1.00
30. WikiBio (Lebret et al., 2016) 31. 30. WikiBio (Lebret et al., 2016) 31頁。 0.87
WikiSum (Liu et al., 2018) 32. WikiSum (Liu et al., 2018) 32頁。 0.82
Wizard of Wikipedia (Dinan et al., 2019) 33. Wizard of Wikipedia (Dinan et al., 2019) 33頁。 0.86
Writing Prompts (Fan et al., 2018) 34. Write Prompts (Fan et al., 2018) 34。 0.76
XSum (Narayan et al., 2018) 35. XSum (Narayan et al., 2018) 35。 0.82
WikiLingua (Ladhak et al., 2020) WikiLingua (Ladhak et al., 2020) 0.85
C Task and Criteria Selection Survey Cタスクと基準選択調査 0.76
As part of our selection process, we queried all GEM members about the utility of tasks and selection criteria. 選択プロセスの一環として、タスクと選択基準の有用性についてすべてのGEMメンバーに問い合わせました。 0.66
The questions below were included in the survey. 以下の質問は調査に含まれている。 0.72
• For each suggested task, “Should this task be included in GEM?” on a 5-point Likert scale (1 being strongly against, and 5 strongly in favor). • 提案された各タスクに対して,5点のLikertスケールで“このタスクをGEMに含めるか?”(1つは強く反対し,5は強く賛成する)。 0.80
• We should exclude tasks that are the focus of •焦点となるタスクを除外すべきである。 0.73
a shared task in 2021. 2021年の共有タスクです 0.68
[yes/no] • We should exclude tasks that were the focus [yes/no] ・焦点となるタスクを除外すべきである 0.75
of a shared task since 2020. 2020年以来の共有タスクです。 0.71
[yes/no] • We should exclude tasks that were ever part [yes/no] • それまでのタスクを除外すべき 0.70
of a shared task. 共有されたタスクです 0.72
[yes/no] [yes/no] 0.78
                                                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。