論文の概要、ライセンス

# (参考訳) スタイル伝達のための人的評価のレビュー [全文訳有]

A Review of Human Evaluation for Style Transfer ( http://arxiv.org/abs/2106.04747v1 )

ライセンス: CC BY 4.0
Eleftheria Briakou, Sweta Agrawal, Ke Zhang, Joel Tetreault and Marine Carpuat(参考訳) 本稿では,97 スタイルの伝達論文に記述されている人的評価の実践を,スタイルの伝達,保存,流布の3つの主要な評価側面についてレビューし,要約する。 原則として、人間による評価が最も信頼性が高い。 しかし, スタイル伝達論文では, ヒト評価のためのプロトコルが過小評価され, 標準化されていないことが判明し, この分野の研究の再現性を阻害し, よりよい人間的, 自動的評価手法への進歩がみられた。

This paper reviews and summarizes human evaluation practices described in 97 style transfer papers with respect to three main evaluation aspects: style transfer, meaning preservation, and fluency. In principle, evaluations by human raters should be the most reliable. However, in style transfer papers, we find that protocols for human evaluations are often underspecified and not standardized, which hampers the reproducibility of research in this field and progress toward better human and automatic evaluation methods.
公開日: Wed, 9 Jun 2021 00:29:42 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
A Review of Human Evaluation for Style Transfer スタイル伝達のための人的評価のレビュー 0.78
Eleftheria Briakou1 Sweta Agrawal1 Ke Zhang2 Joel Tetreault2 Marine Carpuat1 Eleftheria Briakou1 Sweta Agrawal1 Ke Zhang2 Joel Tetreault2 Marine Carpuat1 0.81
1University of Maryland, 2Dataminr, Inc. メリーランド大学2Dataminr, Inc. 0.57
ebriakou@cs.umd.edu, sweagraw@cs.umd.edu, kzhang@dataminr.com, ebriakou@cs.umd.edu, sweagraw@cs.umd.edu, kzhang@dataminr.com 0.69
jtetreault@dataminr. com, marine@cs.umd.edu jtetreault@dataminr. com, marine@cs.umd.edu 0.67
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] L C . s c [ 9 ]LC。 sc [ 0.60
1 v 7 4 7 4 0 1 v 7 4 7 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract This paper reviews and summarizes human evaluation practices described in 97 style transfer papers with respect to three main evaluation aspects: style transfer, meaning preservation, and fluency. 概要 本稿では,97 スタイルの伝達論文に記述されている人的評価の実践を,スタイルの伝達,保存,流布の3つの主要な評価側面についてレビューし,要約する。 0.56
In principle, evaluations by human raters should be the most reliable. 原則として、人間による評価が最も信頼性が高い。 0.70
However, in style transfer papers, we find that protocols for human evaluations are often underspecified and not standardized, which hampers the reproducibility of research in this field and progress toward better human and automatic evaluation methods. しかし, スタイル伝達論文では, ヒト評価のためのプロトコルが過小評価され, 標準化されていないことが判明し, この分野の研究の再現性を阻害し, よりよい人間的, 自動的評価手法への進歩がみられた。 0.70
1 Introduction Style Transfer (ST) in NLP refers to a broad spectrum of text generation tasks that aim to rewrite a sentence to change a specific attribute of language use in context while preserving others (e g , make an informal request formal, Table 1). 1 はじめに nlpのスタイルトランスファー(st)は、テキスト生成タスクの幅広い範囲を指しており、文を書き換えて、文脈における言語使用の特定の属性を変更することを目的としている(例えば、非公式の要求を形式化する、テーブル1)。 0.69
With the success of deep sequence-to-sequence models and the relative ease of collecting data covering various stylistic attributes, neural ST is a popular generation task with more than 100 papers published in this area over the last 10 years. ディープシーケンス・ツー・シーケンスモデルの成功と、様々なスタイリスティック属性をカバーするデータ収集の比較的容易さにより、ニューラルSTは、過去10年間に100以上の論文が発行された一般的な生成タスクである。
訳抜け防止モード: ディープシークエンス-to-シークエンスモデルの成功について 様々なスタイルの属性をカバーする データの収集が比較的簡単です ニューラルSTは、この10年間に100以上の論文が発行された一般的な生成タスクである。
0.66
Despite the growing interest that ST receives from the NLP community, progress is hampered by the lack of standardized evaluation practices. STがNLPコミュニティから受ける関心が高まっているにもかかわらず、標準化された評価プラクティスの欠如によって進歩が妨げられている。 0.57
One practical aspect that contributes to this problem is the conceptualization and formalization of styles in natural language. この問題に寄与する実践的な側面は、自然言語におけるスタイルの概念化と形式化である。 0.76
According to a survey of neural style transfer by Jin et al (2021), in the context of NLP, ST is used to refer to tasks where styles follow a linguistically motivated dimension of language variation (e g , formality), and also to tasks where the distinction between style and content is implicitly defined by data (e g , positive or negative sentiment). Jin et al (2021) によるニューラル・スタイル・トランスファー(英語版)の調査によると、ST は言語学的に動機付けられた言語変化(例えば形式性)の次元に従うタスクや、スタイルと内容の区別が暗黙的にデータ(例えば、ポジティブまたはネガティブな感情)によって定義されるタスクを指す。 0.67
Across these tasks, ST quality is usually evaluated across three dimensions: style transfer (has the desired attributed been changed これらのタスク全体で、ST品質は通常3次元にわたって評価される:スタイル転送(望ましい属性は変更されている)。 0.62
Figure 1: Number of papers employing human evaluations for style transfer (S), meaning preservation (M), fluency (F), all of them (S∪M∪F), at least one of them (S∩M∩F), or another aspect (OTHER). 図1:人為的な様式伝達(S)、保存(M)、流布(F)、これら全て(S)、少なくとも1つ(S)、その他の側面(OTHER)について評価する論文の数。
訳抜け防止モード: 図1:人的評価を用いたスタイル伝達用紙の数(S) 意味は保存(M)、流布(F)、これら全てを意味する。 それらのうちの少なくとも1つ(S)、または別の側面(OTHER)である。
0.74
Gotta see both sides of the story. ゴッタは物語の両側を見る。 0.60
(informal) You have to consider both sides of the story. (形式的) ストーリーの両側を考慮する必要があります。 0.77
(formal) FORMALITY The screen is just the right size. (正式) 形式 スクリーンは、ちょうどそのサイズだ。 0.65
(positive) The screen is too small. (正の)画面が小さすぎる。 0.71
(negative) SENTIMENT AUTHOR IMITATION (否定) 感想 著者の模倣 0.49
Bring her out to me. 彼女を連れてきなさい。 0.64
(modern) Call her forth to me. (現代)彼女を私に呼びなさい。 0.70
(shakespearean) (シェークスピア語) 0.59
Table 1: Examples of three ST attributes: formality, sentiment and Shakespearean transfer. 表1: 3つのST属性の例:形式性、感情、シェークスピア移動。 0.74
as intended? ), meaning preservation (are the other attributes preserved? 意図通り? )の意味(他の属性は保存されているか? 0.56
), and fluency (is the output well-formed?) )と、(出力は良好か? 0.51
(Pang and Gimpel, 2019; Mir et al , 2019). (Pang and Gimpel, 2019; Mir et al , 2019)。 0.83
Given the large spectrum of stylistic attributes studied and the lack of naturally occurring references for the associated ST tasks, prior work emphasizes the limitations of automatic evaluation. 研究された多くの様式的属性と関連するstタスクの自然発生参照の欠如を考えると、先行研究は自動評価の限界を強調している。 0.66
As a result, progress in this growing field relies heavily on human evaluations to quantify progress among the three evaluation aspects. その結果, この成長分野の進展は, 人間の評価に大きく依存し, 3つの評価側面の進捗を定量化する。 0.75
英語(論文から抽出)日本語訳スコア
Inspired by recent critiques of human evaluations of Natural Language Generation (NLG) systems (Howcroft et al , 2020; Lee, 2020; Belz et al , 2020, 2021; Shimorina and Belz, 2021), we conduct a structured review of human evaluation for neural style transfer systems as their evaluation is primarily based on human judgments. 近年の自然言語生成システム(howcroft et al , 2020; lee, 2020; belz et al , 2020, 2021; shimorina and belz, 2021)の人間評価批判に触発されて,主に人間の判断に基づくニューラルスタイル伝達システムに対するヒューマン評価の構造化レビューを行った。
訳抜け防止モード: 自然言語生成(NLG)システムの人間評価に関する最近の批判に触発された(Howcroft et al,) 2020 ; Lee, 2020 ; Belz et al, 2020, 2021 ; belowrina and Belz, 2021 ) ニューラルスタイルの伝達システムに対する人的評価は,主に人的判断に基づくため,構造化された評価を行う。
0.86
Concretely, out of the 97 papers we reviewed, 69 of them resort to human evaluation (Figure 1), where it is treated either as a substitute for automatic metrics or as a more reliable evaluation. 具体的には、レビューした97件のうち69件は人的評価に頼っており(第1図)、自動測定の代用として扱われるか、より信頼性の高い評価として扱われる。 0.57
This paper summarizes the findings of the review and raises the following concerns on current human evaluation practices: 本稿は、レビューの結果を要約し、現在の人的評価の実践について、以下の懸念を提起する。 0.57
1. Underspecification We find that many attributes of the human annotation design (e g , annotation framework, annotators’ details) are underspecified in paper descriptions, which hampers reproducibility and replicability; 1. 仕様の不明確さ 人間のアノテーション設計の多くの属性(例えば、アノテーションフレームワーク、アノテーションの詳細)が、再現性と複製性を損なう紙の記述に不明確であることが分かりました。 0.73
2. Availability & Reliability The vast majority of papers do not release the human ratings and do not give details that can help assess their quality (e g , agreement statistics, quality control), which hurts research on evaluation; 2. 可用性と信頼性 ほとんどの論文は、人間の評価を公開せず、その品質(例えば、合意統計、品質管理)を評価するのに役立つ詳細を公表していません。
訳抜け防止モード: 2. 可用性と信頼性 ほとんどの論文は人間の評価を公表していない 詳細を述べてはいけません 評価の研究を損なう品質(例えば、合意統計、品質管理など)を評価すること。
0.78
3. Lack of standardization The annotation protocols are inconsistent across papers which hampers comparisons across systems (e g , due to possible bias in annotation frameworks). 3. 標準化の欠如 アノテーションプロトコルは、システム間の比較を阻害する論文間で一貫性がない(例えば、アノテーションフレームワークのバイアスがある)。 0.79
The paper is organized as follows. 論文は以下の通り整理される。 0.65
In Section 2, we describe our procedure for analyzing the 97 papers and summarizing their evaluations. 第2節では、97論文を分析し、それらの評価を要約する手順について述べる。 0.59
In Section 3, we present and analyze our findings. 第3節では、その結果を提示し、分析する。 0.57
Finally, in Section 4, we conclude with a discussion of where the field of style transfer fares with respect to human evaluation today and outline improvements for future work in this area. 最後に,第4節では,現代における人的評価に関して,スタイル伝達の分野がどのような方向にあるのかを議論し,今後の課題について概説する。 0.64
2 Reviewing ST Human Evaluation stヒューマンアセスメントのレビュー2 0.67
Paper Selection We select papers for this study from the list compiled by Jin et al (2021) who conduct a comprehensive review of ST that covers the task formulation; evaluation metrics; opinion papers and deep-learning based textual ST methods. 論文選択では,タスクの定式化,評価指標,意見書,深層学習に基づくテキストST手法を網羅的に検討したJin et al(2021)のリストから,本研究のための論文を選定する。 0.79
The paper list contains more than 100 papers and is publicly available (https://github.com/ fuzhenxin/Style-Tran sfer-in-Text). ペーパーリストには100以上の論文が含まれており、公開されている(https://github.com/ fuzhenxin/style-tran sfer-in-text)。 0.44
We reviewed all papers in this list to determine whether このリストにある全ての論文をレビューして 0.63
they conduct either human or automatic evaluation on system outputs for ST, and therefore should be included in our structured review. それらはstのシステム出力を人間または自動で評価するので、構造化されたレビューに含めるべきです。 0.64
We did not review papers for text simplification, as it has been studied separately (Alva-Manchego et al , 2020; Sikka et al , 2020) and metrics for automatic evaluation have been widely adopted (Xu et al , 2016). テキスト簡易化のための論文は、別々に研究されている(alva-manchego et al , 2020; sikka et al , 2020)し、自動評価のためのメトリクスが広く採用されている(xu et al , 2016)。 0.77
Our final list consists of 97 papers: 86 of them are from top-tier NLP and AI venues: ACL, EACL, EMNLP, NAACL, TACL, IEEE, AAAI, NeurIPS, ICML, and ICLR, and the remaining 11 are pre-prints which have not been peer-reviewed. 最終リストは97の論文で構成されており、そのうち86はトップクラスのnlpとaiの会場(acl, eacl, emnlp, naacl, tacl, ieee, aaai, neurips, icml, iclr)で、残りの11はピアレビューされていないプレプリントである。
訳抜け防止モード: 最終リストは97の論文で構成されており、そのうち86は上位層NLPとAIの会場から作成されている。 EACL、EMNLP、NAACL、TACL、IEEE、AAAI NeurIPS、ICML、ICLR、そして 残りの11は、ピアされていないプレプリントである。
0.67
Review Structure We review each paper based on a predefined set of criteria (Table 2). レビュー構造 予め定義された基準に基づいて各論文をレビューする(表2)。 0.79
The rationale behind their choice is to collect information on the evaluation aspects that are underspecified in NLP in general as well as those specific to the ST task. 彼らの選択の根拠は、一般にNLPでは特定されていない評価面やSTタスクに特有の情報を集めることである。 0.65
For this work, we call the former global criteria. この作業のために、私たちは以前のグローバルな基準を呼び出します。 0.56
The latter is called dimension-specific criteria and is meant to illustrate issues with how each dimension (i.e., style transfer, meaning preservation, and fluency) is evaluated. 後者は次元固有の基準と呼ばれ、各次元(つまり、スタイル転送、保存、流動性)の評価方法に関する問題を示す。 0.58
Global criteria can be split into three categories which describe: (1) the ST stylistic attribute, (2) four details about the annotators and their compensation, and (3) four general design choices of the human evaluation that are not tied to a specific evaluation dimension. グローバルな基準は,(1)STスタイリスティックな属性,(2)アノテータとその補償に関する4つの詳細,(3)特定の評価次元に縛られていない人間の評価の4つの一般的な設計選択,の3つのカテゴリに分けられる。 0.82
For the dimension-specific criteria we repurpose the following operationalisation attributes introduced by Howcroft et al (2020): form of response elicitation (direct vs. relative), details on type of collected responses, size/scale of rating instrument, and statistics computed on response values. Howcroft et al (2020) が導入した動作特性として, 応答の帰納形式 (直接対相対) , 収集された応答の種類, 評価器のサイズ・規模, 応答値に基づいて計算された統計値について, 以下を再利用する。 0.71
Finally, we also collect information on the quality criterion for each dimension (i.e., the wording used in the paper to refer to the specific evaluation dimension). 最後に、各次元(すなわち、特定の評価次元を参照するために論文で使われる単語)の品質基準に関する情報も収集する。 0.67
Process The review was conducted by the authors of this survey. レビューのプロセスは、この調査の著者によって行われた。 0.63
We first went through each of the 97 papers and highlighted the sections which included mentions of human evaluation. 最初に97の論文を精査し、人間評価に関する言及を含むセクションを強調した。 0.65
Next, we developed our criteria by creating a draft based on prior work and issues we had observed in the first step. 次に、最初のステップで観察した先行作業と課題に基づいて、ドラフトを作成することで、基準を開発しました。 0.60
We then discussed and refined the criteria after testing it on a subset of the papers. その後、論文のサブセットでテストした後、基準を議論し、洗練しました。 0.62
Once the criteria were finalized, we split the papers evenly between all the authors. 基準が確定すると、我々は論文をすべての著者に均等に分けた。 0.68
Annotations were spotchecked to resolve uncertainties or concerns that were found in reviewing dimension-specific criteria (e g , scale of rating instrument is not explicitly 寸法別基準(例えば、評価尺度の尺度は明示的ではない)の見直しで見出された不確実性や懸念を解決するためにアノテーションを点検した。 0.59
英語(論文から抽出)日本語訳スコア
task(s) presence of human annotation annotators’ details annotators’ compensation quality control ヒューマンアノテーションアノテータの詳細なアノテータの補償品質管理のタスク(s) 0.55
annotations’ availability evaluated systems size of evaluated instance set size of annotation set per instance agreement statistics sampling method アノテーションの可用性 評価システムのサイズ 評価されたインスタンスセットのサイズ インスタンス単位のアノテーションセット 統計サンプリング方法 0.86
GLOBAL CRITERIA ST task(s) covered presence of human evaluation details on annotator’s background/recruitme nt process annotator’s payment for annotating each instance quality control methods followed to ensure reliability of collected judgments availability of collected judgments number of different systems present in human evaluation number of instances evaluated for each system number of collected annotations for each annotated instance presence of inter-annotator agreement statistics method for selecting instances for evaluation from the original test sets グローバル基準 ST task(s) covered presence of human evaluation details on annotator’s background/recruitme nt process annotator’s payment for annotating each instance quality control methods followed to ensure reliability of collected judgments availability of collected judgments number of different systems present in human evaluation number of instances evaluated for each system number of collected annotations for each annotated instance presence of inter-annotator agreement statistics method for selecting instances for evaluation from the original test sets 0.65
DIMENSION-SPECIFIC CRITERIA presence of human evaluation quality criterion name direct response elicitation 寸法別基準 人間評価品質基準名direct response elicitationの存在 0.60
relative judgment type (if applicable) direct rating scale (if applicable) presence of lineage reference lineage source (if applicable) 相対的判断型(適用可能) 直接格付け尺度(適用可能) 系統基準系統の出自の存在(適用可能) 0.67
whether there exists human evaluation for a specific aspect quality criterion of evaluated attribute as mentioned in the paper presence of direct assessment (i.e., each instance is evaluated on its own right) type of relative judgment (e g , pairwise, ranking, best) list of possible response values whether the evaluation reuses an evaluation framework from prior work citation of prior evaluation framework 評価属性の特定のアスペクト品質基準に対する人間による評価が存在するか(例えば、各インスタンスが自身の権利で評価される)、評価が事前評価フレームワークの事前作業引用から評価フレームワークを再利用するかどうかの相対的判断(例えば、ペアワイド、ランキング、ベスト)のタイプが存在するか。 0.73
Table 2: Descriptions of attributes studied in our structured review. 表2: 構造化レビューで調べた属性の説明。 0.73
defined but inferred from the results discussion) and global criteria (e g , number of systems not specified but inferred from tables). 定義されたが、結果の議論から推論される)とグローバルな基準(例えば、表から推論されたシステムの数)。 0.58
We release the spreadsheet used to conduct the review along with the reviewed PDFs that come with highlights on the human evaluation sections of each paper at https: //github.com/Elbria/ ST-human-review. 本報告では, レビューの実施に使用するスプレッドシートと, https: //github.com/Elbria/ ST-human-reviewにおける各論文の人的評価セクションのハイライトを添付したPDFを公開している。 0.58
3 Findings Based on our review, we first discuss trends of stylistic attributes as discussed in ST research through the years (§3.1), followed by global criteria of human evaluation (§3.2), and then turn to domain-specific criteria (§3.3). 3 以上の知見から,まずst 研究で議論された文体的特徴の傾向について検討し(3.1),次に世界的評価基準(3.2),次にドメイン固有の基準(3.3)について考察した。 0.73
3.1 Evolution of Stylistic Attributes Table 3 presents statistics on the different style attributes considered in ST papers since 2011. 3.1 スタイリスティック属性の進化 表3は、2011年からst論文で検討されている異なるスタイル属性の統計を示している。 0.62
First, we observe a significant increase in the number of ST papers starting in 2018 (in 2017 there were 8 ST papers; the following year there were 28). まず、2018年からのst論文数の増加を観察した(2017年には8つのst論文があり、翌年には28の論文があった)。
訳抜け防止モード: 第一に、2018年からのST論文の数の著しい増加(2017年には8つのST論文があった)を観察する。 翌年は28人)。
0.68
We believe this can be attributed to the creation of standardized training and evaluation datasets for various ST tasks. これは様々なstタスクのための標準化されたトレーニングと評価データセットの作成に起因していると考えています。 0.58
One example is the Yelp dataset, which consists of positive and negative reviews, and is used for unsupervised sentiment transfer (Shen et al , 2017). 例えばYelpデータセットは、肯定的なレビューと否定的なレビューで構成され、教師なしの感情伝達に使用されている(Shen et al , 2017)。 0.66
Another example is the GYAFC parallel corpus, consisting of informalformal pairs that are generated using crowdsourced human rewrites (Rao and Tetreault, 2018). 別の例は GYAFC並列コーパスは、クラウドソースされた人間の書き直しによって生成される非公式な形式対で構成されている(Rao and Tetreault, 2018)。 0.68
Second, we notice that new stylistic attributes are studied through time (21 over the last ten years), with sentiment and formality transfer being the most frequently studied. 第2に,新しい様式的属性は時間(過去10年間で21回)を通じて研究され,感傷や形式的移動が最も頻繁に研究されている。 0.72
3.2 Global Criteria 3.2 グローバル基準 0.72
Annotators Table 4 summarizes statistics about how papers describe the background of their human judges. 注釈表4は、論文が人間の裁判官の背景をどのように記述するかに関する統計をまとめたものである。 0.48
The majority of works (38%) rely on crowd workers mostly recruited using the Amazon Mechanical Turk crowdsourcing platform. 大部分の作品(38%)は、Amazon Mechanical Turkのクラウドソーシングプラットフォームを使って採用されたクラウドワーカーに依存している。 0.53
Interestingly, for a substantial number of evaluations (45%), it is unclear who the annotators are and what their background is. 興味深いことに、かなりの数の評価(45%)において、アノテータが誰で、その背景は明らかではない。 0.68
In addition, we find that information about how much participants were compensated is missing from all but two papers. さらに,2つの論文を除いて,参加者の報酬額に関する情報が欠落していることが判明した。 0.64
Finally, many papers collect 3 independent annotations, although this information is not specified in a significant percentage of evaluations (42%). 最後に、多くの論文は3つの独立したアノテーションを収集するが、この情報は評価のかなりの割合(42%)では特定されていない。 0.59
In short, the ability to replicate a human evaluation from the bulk of current research is extremely challenging, and in many cases impossible, as so much is underspecified. 要するに、現在の研究の大部分から人間の評価を再現する能力は極めて困難であり、多くの場合、あまり具体化されていないため不可能である。 0.64
英語(論文から抽出)日本語訳スコア
STYLE anonymization attractiveness author imitation debiasing social register expertise formality gender political slant sentiment romantic/humorous simile excitement profanity prose offensive language multiple persona poeticness politeness emotion TOTAL STYLE anonymization attractiveness author mimicion debiasing social register professionality gender political slant sentiment romantic/humorous simile excited profanity prose offensive language multiple persona poeticness politeness emotion TOTAL 0.86
2011 2012 2016 2011 2012 2016 0.85
2017 2018 1 2017 2018 1 0.85
2019 2020 2021 2019 2020 2021 0.85
1 1 1 1 1 1 1 1 1 1 1 1 0.85
2 1 2 4 1 1 2 1 2 4 1 1 0.85
9 3 1 14 1 9 3 1 14 1 0.85
1 1 2 1 1 2 2 14 2 1 1 2 1 1 2 2 14 2 0.85
1 1 1 8 28 1 1 1 8 28 0.85
31 1 5 2 1 10 31 1 5 2 1 10 0.85
1 18 1 1 1 1 1 18 1 1 1 1 0.85
1 1 1 1 1 1 48 1 1 1 1 1 1 48 0.85
3 3 6 TOTAL 1 2 11 2 1 1 24 6 4 53 4 1 1 1 2 2 2 3 1 2 1 125 3 3 6 TOTAL 1 2 11 2 1 1 24 6 4 53 4 1 1 1 2 2 2 3 1 2 1 125 0.85
Table 3: Number of ST papers per stylistic attribute across years. 表3: 長年にわたるスタイル属性ごとのst論文の数。 0.73
Some papers evalute multiple style attributes. いくつかの論文は複数のスタイル属性を評価する。 0.51
CROWD-SOURCING PAPER’S DESCRIPTION OF ANNOTATORS クラウドソーシングによるアノテーションの記述 0.31
COUNT YES NO カウント YES いいえ 0.68
“qualification test” “number of approved HITs’ “hire Amazon Mechanical Turk workers” 資格試験” “承認されたヒット数” “amazon mechanical turk workers” 0.69
“bachelor or higher degree; independent of the authors’ “research group”, “annotators with linguistic background” “well-educated volunteers”, “graduate students in computational linguistics” “major in linguistics” “linguistic background”, “authors” bachelor or higher degree; 著者の"research group"、"annotators with language background"、"well-ucated volunteer"、"graduate students in computational linguistics"、"major in linguistics"、"linguistic background"、"authors"とは無関係である。 0.66
UNCLEAR “individuals”, “human judges”, “human annotators” “unbiased human judges”, “independent annotators” アンクリーア individuals”, “human judges”, “human annotators”, “unbiased human judges”, “independent annotators” などです。 0.56
Table 4: Annotators’ background for human evaluation as described in ST papers. 表4:ST論文に記載されている人間の評価に対するアノテーションの背景 0.79
6 2 18 12 31 6 2 18 12 31 0.85
Annotations’ Reliability Only 31% of evaluation methods that rely on crowd-sourcing employ quality control (QC) methods. アノテーションの信頼性 クラウドソーシングに依存する評価手法の31%に品質管理(QC)メソッドが採用されている。 0.76
The most common QC strategies are to require workers to pass a qualification test (Jin et al , 2019; Li et al , 2016; Ma et al , 2020; Pryzant et al , 2020) to hire the topranked workers based on pre-computed scores that reflect the number of their past approved tasks (Krishna et al , 2020; Li et al , 2019), to use location 最も一般的なQC戦略は、労働者に資格試験(Jin et al , 2019; Li et al , 2016; Ma et al , 2020; Pryzant et al , 2020)をパスして、過去の承認されたタスクの数(Krishna et al , 2020; Li et al , 2019)を反映した事前計算スコアに基づいて、上位労働者を採用させることである。 0.89
restrictions (Krishna et al , 2020), or to perform manual checks on the collected annotations (Rao and Tetreault, 2018; Briakou et al , 2021). 制限(Krishna et al , 2020)、あるいは収集したアノテーションのマニュアルチェックを実行する(Rao and Tetreault, 2018; Briakou et al , 2021)。
訳抜け防止モード: 制限(krishna et al, 2020)、または収集されたアノテーション(rao and tetreault, 2018 ; briakou et al)の手動チェックを実行すること。 2021 ) .
0.85
Furthermore, only 20% of the papers report inter-annotator agreement statistics, and only 4 papers release the actual annotations to facilitate the reproducibility and further analysis of their results. さらに、論文の20%のみが注釈間合意の統計を報告しており、その再現性と結果のさらなる分析を容易にするために実際の注釈を公表する論文は4つしかない。 0.60
Without this information, it is difficult to replicate the evaluation and compare different evaluation approaches. この情報がなければ、評価を再現し、異なる評価手法を比較することは困難である。 0.68
英語(論文から抽出)日本語訳スコア
Data Selection Human evaluation is typically performed on a sample of the test set used for automatic evaluation. データ選択 人間の評価は通常、自動評価に使用されるテストセットのサンプルで実行される。 0.86
Most works (62%) sample instances randomly from the entire set, with a few exceptions that employ stratified sampling according to the number of stylistic categories considered (e g , random sampling from positive and negative classes for a binary definition of style). ほとんどの作業(62%) のサンプルインスタンスはセット全体からランダムに作成されるが、スタイリスティックなカテゴリの数に応じて階層化されたサンプリング(スタイルのバイナリ定義のための正のクラスと負のクラスからのランダムサンプリングなど)を用いるいくつかの例外がある。 0.72
For 25% of ST papers information on the sampling method is not available. 25%のST論文ではサンプリング方法に関する情報が得られていない。 0.71
Furthermore, the sample size of instances evaluated per system varies from 50 to 1000, with most of them concentrated around 100. さらに、システム毎に評価されたインスタンスのサンプルサイズは50から1000に変化し、そのほとんどは100程度に集中している。 0.67
3.3 Dimension-specific Criteria Quality Criterion Names Table 5 summarizes the terms used to refer to the three main dimensions of style transfer, meaning preservation, and fluency. 3.3 次元固有の基準 品質基準名 表5は、スタイル転送、保存、フラレンシーの3つの主要な寸法を指すのに使われる用語を要約している。 0.70
As Howcroft et al (2020) found in the context of NLG evaluation, we see that the names of these dimensions are not standardized for the three ST evaluation dimensions. Howcroft et al (2020) が NLG 評価の文脈で見いだしたように、これらの次元の名称は 3 つの ST 評価次元に対して標準化されていない。 0.72
Each dimension has at least six different ways that past literature has referred to them. 各次元には、過去の文学が言及した少なくとも6つの異なる方法がある。 0.70
We should note that even with the same name, the nature of the evaluation is not necessarily the same across ST tasks: for instance, what constitutes content preservation differs in formality transfer and in sentiment transfer, since the latter arguably changes the semantics of the original text. 例えば、コンテンツの保存を構成するものは、形式的転送と感情伝達において異なるが、後者はおそらく原文の意味を変化させるからである。
訳抜け防止モード: 注意すべき点 同じ名前であっても、評価の性質はSTタスク間で必ずしも同じではない 例えば 内容保存を構成することは、形式的移動と感情的移動において異なる。 後者は 原文の意味を 明らかに変えてますから。
0.66
While fluency is the aspect of evaluation that might be most generalizable across ST tasks, it is referred to in inconsistent ways across papers which could lead to different interpretations by annotators. フルエンシーはstタスク間で最も一般化可能な評価の側面であるが、注釈者によって異なる解釈につながるかもしれない論文間で一貫性のない方法で言及される。 0.68
For instance, the same text could be rated as natural but not grammatical. 例えば、同じテキストは自然と評価されるが文法的ではない。 0.72
Overall, the variability in terminology makes it harder to understand exactly what is being evaluated and to compare evaluation methods across papers. 全体として、用語の変動性は、何が評価されているのかを正確に理解し、論文間で評価方法を比較するのを難しくする。 0.57
Rating Type Table 6 presents statistics on the rating type (direct vs. relative) per dimension over time. レーティングタイプテーブル6は、時間とともに寸法ごとのレーティングタイプ(直接対相対)の統計を示す。 0.77
Direct rating refers to evaluations where each system output is assessed in isolation for that dimension. 直接評価とは、各システムのアウトプットがその次元に対して独立して評価される評価を指す。
訳抜け防止モード: 直接評価とは 各システム出力は、その次元に対して独立して評価される。
0.68
Relative rating refers to evaluations where two or more system outputs are compared against each other. 相対評価とは、2つ以上のシステム出力が互いに比較される評価である。 0.81
Rating types were more inconsistently used before 2020, with recent convergences toward direct assessment. レーティングタイプは、2020年以前にはより一貫性が無く、最近の直接評価への収束が見られた。 0.48
Among papers that report rating type, direct assessment is the most frequent approach for all evaluation aspects over the years 2018 to 2021. 評価タイプを報告している論文の中で、直接評価は2018年から2021年までのすべての評価面で最も頻繁なアプローチである。 0.67
Possible Responses Tables 7, 8, and 9 summarize the range of responses elicited for direct and 対応可能な表7、8、9は、直接および直接の応答範囲をまとめたものである。 0.65
STYLE attribute compatibility, formality, politeness level, sentiment, style transfer intensity, attractive captions, attribute change correctness, bias, creativity, highest agency, opposite sentiment, sentiment, sentiment strength, similarity to the target attribute, style correctness, style transfer accuracy, style transfer strength, stylistic similarity, target attribute match, transformed sentiment degree. スタイル属性互換性、形式性、礼儀正しさ、感情、スタイル伝達強度、魅力的なキャプション、属性変化の正確性、バイアス、創造性、最高機関、反対の感情、感情、感情、感情の強さ、ターゲット属性との類似性、スタイル正確性、スタイル伝達の正確性、スタイル伝達の強さ、スタイル的類似性、ターゲット属性マッチ、変換感情度。
訳抜け防止モード: スタイル属性互換性、形式性、礼儀正しさレベル、感情、スタイル転送強度。 魅力的なキャプション、属性変更の正しさ、バイアス、創造性、最高機関。 感情、感情、感情の強さ、ターゲット属性との類似性。 スタイル正確性、スタイル転送精度、スタイル転送強度、スタイル類似性、ターゲット属性マッチ 感情の程度を変えました
0.71
MEANING content preservation, meaning preservation, semantic intent, semantic similarity, closer in meaning to the original sentence, content preservation degree, content retainment, content similarity, relevance, semantic adequacy. 意味的内容保存、意味保存、意味的意図、意味的類似性、原文に近い意味、内容保存度、内容保持性、内容類似性、関連性、意味的妥当性。 0.70
FLUENCY fluency, grammaticality, naturalness, gibberish language, language quality. FLUENCY fluency, grammaticality, naturalness, gibberish language, language quality。 0.81
Table 5: Quality criterion names used in ST human evaluation descriptions for the three evaluation dimensions. 表5: 3つの評価次元に対するST評価記述に使用される品質基準名。 0.85
1 1 0 2 2 1 0 2 1 1 0 2 2 1 0 2 0.85
6 1 0 2 7 1 0 2 6 1 0 2 7 1 0 2 0.85
8 1 0 2 9 1 0 2 8 1 0 2 9 1 0 2 0.85
0 2 0 2 1 2 0 2 0 2 0 2 1 2 0 2 0.85
l a t o T DIRECT RELATIVE NONE l a t o T 直接関係なし 0.61
DIRECT RELATIVE NONE DIRECT RELATIVE NONE 直接関係なし 直接関係なし 0.37
1 1 1 1 1 1 1 1 1 1 1 1 0.85
STYLE 1 6 8 4 11 様式 1 6 8 4 11 0.76
1 2 MEANING 12 1 7 1 2 意味12 1 7 0.77
2 8 FLUENCY 10 4 8 2 8 FLUENCY 10 4 8 0.85
1 1 2 10 7 11 1 1 2 10 7 11 0.85
10 4 11 10 2 6 10 4 11 10 2 6 0.85
4 4 12 15 18 4 14 4 4 12 15 18 4 14 0.85
19 4 7 40 12 45 19 4 7 40 12 45 0.85
45 9 43 45 6 46 45 9 43 45 6 46 0.85
Table 6: Number of papers using each rating type for the three evaluation dimensions across years. 表6: 年々3つの評価次元にそれぞれの評価型を使用する論文の数。 0.85
relative ratings. They cover diverse definitions of scales within each rating type. 相対評価。 評価タイプごとにさまざまなスケールの定義をカバーしています。 0.61
Across evaluation aspects, the dominant evaluation framework is direct ratings on a 5-point scale. 評価の面では、主要な評価フレームワークは5ポイントの直接評価である。 0.74
However, while that configuration is what the field tends to focus on, there is clearly a wide array of choices that the field also considers which, once again, makes comparing human evaluations head to head very difficult. しかし、この構成はフィールドが注目する傾向にあるが、フィールドが考慮している選択肢が多岐にわたることは明らかであり、またしても人間の評価を頭と頭の比較は非常に困難である。 0.76
英語(論文から抽出)日本語訳スコア
Rating Scale DIRECT 評価尺度 ダイレクト 0.58
(40) RELATIVE (12) (40) 相対 (12) 0.70
(cid:26) Best selection (cid:26)ベストセレクション 0.78
Not available Pairwise 利用できない ペアワイズ 0.60
[-2,-1,0,1,2] [-3,-2, -1, 0, 1, 2, 3] [polite, slightly polite, neutral, slightly rude, rude] [positive, negative, neutral] [positive, negative, relaxed, annoyed] [more formal, more informal, neither] [0,1,2] [1,2,3] [0,1,2,3,4,5] [1, 2, 3, 4, 5] [1,2,3,4,5,6,7,8,9,10 ] binary [-2,-1,0,1,2] [-3,-2, -1, 0, 1, 2, 3] [polite, slightly polite, neutral, slightly rude, rude] [ positive, negative, neutral] [ positive, negative, relaxed, annoyed] [more formal, more formal, neither] [0,1,2] [1,2,3] [0,1,2,3,4,5] [1, 2, 3, 4, 5] [1,2,3,4,5,6,7,8,9,10 ] バイナリ 0.76
(1) (3) (1) (4) (1) (1) (2) (2) (1) (19) (2) (1) (1) (3) (1) (4) (1) (1) (2) (2) (1) (19) (2) (1) 0.85
(2) (5) (7) (2) (5) (7) 0.85
Table 7: Style results. 表7: スタイルの結果。 0.86
Numbers in parentheses denote paper counts per category. 括弧内の数字は、カテゴリーごとの紙数を表す。 0.68
The most popular rating type across each dimension is highlighted. 各次元でもっとも人気のある評価タイプが強調される。 0.72
Rating Scale DIRECT 評価尺度 ダイレクト 0.58
(45) RELATIVE (9) (45) 相対 (9) 0.70
Not available  Best selection 利用できない 〜ベストセレクション 0.67
Pairwise Ranking Pairwise Ranking 0.85
[-2,-1,0,1,2] [0,1,2] [1,2,3] [1,2,3,4] [1, 2, 3, 4, 5] [0,1,2,3,4,5] [1,2,3,4,5,6] [1,2,3,4,5,6,7,8,9,10 ] [-2,-1,0,1,2] [0,1,2] [1,2,3] [1,2,3,4] [1, 2, 3, 4, 5] [0,1,2,3,4,5] [1,2,3,4,5,6] [1,2,3,4,5,6,7,8,9,10 ] 0.44
(1) (6) (1) (1) (25) (1) (4) (3) (1) (6) (1) (1) (25) (1) (4) (3) 0.85
(3) (3) (3) (3) (3) (3) (3) (3) 0.85
    0.13
  0.13
Table 8: Meaning Preservation results. 表8: 保存結果の意味。 0.75
Numbers in parentheses denote paper counts per category. 括弧内の数字は、カテゴリーごとの紙数を表す。 0.68
The most popular rating type across each dimension is highlighted. 各次元でもっとも人気のある評価タイプが強調される。 0.72
Rating Scale DIRECT 評価尺度 ダイレクト 0.58
(45) RELATIVE (6) (45) 相対 (6) 0.70
Not available  Best selection 利用できない 〜ベストセレクション 0.67
Pairwise Ranking Pairwise Ranking 0.85
[”easy to understand”, ”some grammar errors”, ”impossible to understand”] [”incorrect”, ”partly correct”, ”correct”] [0,1] [0,1,2] [1,2,3] [1,2,3,4] [0,1,2,3,4] [1, 2, 3, 4, 5] [0,1,2,3,4,5] [1,2,3,4,5,6] [1,2,3,4,5,6,7,8,9,10 ] [[“easy to understand”, ”some grammar errors”, ”impossible to understand”] [[“incorrect”, ”partly correct”, ”correct”] [0,1] [0,1,2] [1,2,3,4] [0,1,2,3,4] [1, 2, 3, 4, 5] [0,1,2,3,4,5] [1,2,3,4,5] [1,2,3,6,7,8,9,10] 0.73
(1) (1) (1) (3) (2) (4) (1) (26) (1) (1) (2) (1) (1) (1) (3) (2) (4) (1) (26) (1) (1) (2) 0.85
(2) (1) (4) (1) (2) (1) (4) (1) 0.85
Table 9: Fluency results. 表9:フルーエンシー結果。 0.69
Numbers in parentheses denote paper counts per category. 括弧内の数字は、カテゴリーごとの紙数を表す。 0.68
The most popular rating type across each dimension is highlighted. 各次元でもっとも人気のある評価タイプが強調される。 0.72
英語(論文から抽出)日本語訳スコア
Figure 2: Lineage statistics (i.e., number of papers) for each ST evaluation aspect over years. 図2:ST評価の各側面の線数統計(すなわち、論文数)。 0.56
Lineage Figure 2 shows how often the human evaluation setup used in each reviewed paper is based on cited prior work, for each dimension over time. 系統図2は、レビューされた各論文で使われる人格評価設定が、各次元毎の、引用された先行作業に基づいてどれくらい頻度で行われているかを示しています。 0.55
Only 19% of papers repurpose or reuse some prior work for the evaluation of style. スタイルの評価のために事前の作業を再利用または再利用した論文はわずか19%である。 0.68
Most of these papers target ST for formality or sentiment. これらの論文の多くは、STを形式性や感情に当てはめている。 0.38
Even when evaluating fluency or meaning preservation, more than 50% of the papers do not refer to any prior work. 流布性や保存性を評価する場合であっても、論文の50%以上が事前の作業について言及していない。 0.60
This is striking because it suggests that there is currently not a strong effort to replicate prior human evaluations. これは、人間の事前評価を再現する努力が現在あまり行われていないことを示唆している。 0.68
For papers that mention lineage, 系譜を記した論文のために 0.51
the most common-set up for evaluating meaning preservation (24%) and fluency (28%) is Li et al (2018). 保存性 (24%) と流布性 (28%) を評価するための最も一般的なセットは Li et al (2018) である。 0.77
43% of ST papers that work on sentiment also refer to Li et al (2018). 感情に関するST論文の43%は、Li et al (2018)にも言及している。 0.69
Some papers follow Agirre et al (2016) for measuring textual similarity, Heilman et al (2014) for grammaticality and Pavlick and Tetreault (2016) for formality. いくつかの論文は、テキストの類似性を測定するAgirre et al (2016)、文法性のためのHeilman et al (2014)、形式性のためのPavlick and Tetreault (2016)に従う。
訳抜け防止モード: agirre et al (2016) に続くいくつかの論文 テキストの類似度を測定する。 heilman et al (2014) for grammaticality and pavlick and tetreault (2016) for formality 。
0.84
4 Discussion & Recommendations 4.1 Describing Evaluation Protocols Our structured review shows that human evaluation protocols for ST are mostly underspecified and lack standardization, which fundamentally hinders progress, as it is for other NLG tasks (Howcroft et al , 2020). 4 議論と勧告 4.1 評価プロトコルの説明 構造化されたレビューは、ST の人間評価プロトコルは、ほとんど仕様が不明確であり、標準化が欠如していることを示し、他の NLG タスクの進行を阻害している(Howcroft et al , 2020)。 0.63
The following attributes are commonly underspecified: 一般的に下記の属性は下記の通りである。 0.51
1. details on the procedures followed for recruiting annotators (i.e., linguistic background of 1.アノテータ(言語学的背景)の募集の手順の詳細 0.70
expert annotators or quality control method employed when recruiting crowd-workers) クラウドワーカーを募集する際に使われる専門家の注釈や品質管理方法 0.47
2. annotator’s compensation to better understand their motivation for participating in the task, 2 作業に参加する動機をよりよく理解するための注釈人の報酬 0.66
3. inter-annotator agreement statistics, 3. アノテーション間契約統計 0.77
4. number of annotations per instance (3-5 is the 4. インスタンスあたりのアノテーションの数 (3-5 は 0.82
most popular choice of prior work), 先行作品の最も一般的な選択) 0.72
5. number of systems evaluated, 5. 評価されたシステム数 0.82
6. number of instances annotated (minimum of 6.アノテートされたインスタンス数(最小) 0.74
100 based on prior works), 7. selection method of the annotated instances (suggestion is same random sampled for all annotated systems). 先行作100点) 7. アノテーション付きインスタンスの選択方法(すべてのアノテーション付きシステムで提案が同じランダムにサンプリングされる)。 0.56
8. detailed description of evaluated frameworks per evaluation aspect (e g , rating type, response of elicitation). 8. 評価面毎の評価フレームワークの詳細な記述(評価タイプ,エレケーション応答など)。
訳抜け防止モード: 8) 評価面毎の評価フレームワークの詳細な記述(例) rating type , response of elicitation )。
0.80
Furthermore, we observe that annotated judgments are hardly ever made publicly available and that, when specified, evaluation frameworks are not standardized. さらに,注釈付き判断が一般に公開されることがほとんどなく,規定された場合,評価フレームワークが標準化されていないことも確認した。 0.66
As a result, our first recommendation is simply to include all these details when describing a protocol for human evaluation of ST. We discuss further recommendations next. その結果,STの人的評価のためのプロトコルを記述する際には,これらの詳細をすべて含意することが第一の勧告である。 0.76
英語(論文から抽出)日本語訳スコア
4.2 Releasing Annotations Making human-annotated judgments available would enable the development of better automatic metrics for ST. 4.2 注釈の緩和 人手による判断を利用可能にすることで、STのためのより良い自動メトリクスの開発が可能になる。 0.51
If all annotations had been released with the papers reviewed, we estimate that more than 10K human judgments per evaluation aspect would be available. 論文をレビューしてすべてのアノテーションが公開された場合、評価面当たり10万件以上の人的判断が利用できると見積もる。 0.75
Today this would suffice to train and evaluate dedicated evaluation models. 今日では、これは専用の評価モデルの訓練と評価に十分である。 0.57
In addition, raw annotations can shed light on the difficulty of the task and nature of the data: they can be aggregated in multiple ways (Oortwijn et al , 2021), or used to account for annotator bias in model training (Beigman and Beigman Klebanov, 2009). さらに、生のアノテーションはデータのタスクと性質の難しさに光を当てることができる。それらは複数の方法で集約できる(oortwijn et al , 2021)し、モデルのトレーニングにおけるアノテーションのバイアスを考慮できる(beigman and beigman klebanov, 2009)。 0.74
Finally, releasing annotated judgments makes it possible to replicate and further analyze the evaluation outcome (Belz et al , 2021). 最後に、注釈付き判定を解除することで、評価結果の再現とさらなる分析が可能となる(belz et al, 2021)。 0.71
4.3 Standardizing Evaluation Protocols Standardizing evaluation protocols is key to establishing fair comparisons across systems (Belz et al , 2020) and to improving evaluation itself. 4.3 評価プロトコルの標準化 評価プロトコルの標準化は、システム間の公正な比較(belz et al , 2020)を確立し、評価自体を改善するための鍵である。
訳抜け防止モード: 4.3 評価プロトコルの標準化 評価プロトコルの標準化が鍵 システム間における公正比較の確立(belz et al, 2020) 評価自体を改善するためです
0.80
Our survey sheds light on the most frequently used ST frameworks in prior work. 私たちの調査は、事前作業で最も頻繁に使用されるstフレームワークに光を当てています。 0.53
Yet more research is needed to clarify how to evaluate, compare and replicate the protocols. しかし、プロトコルの評価、比較、複製の方法を明らかにするには、さらなる研究が必要である。
訳抜け防止モード: さらに多くの研究が必要で プロトコルの評価、比較、複製の方法を明確にする。
0.67
For instance, Mir et al (2019) point to evidence that relative judgments can be more reliable than absolute judgments (Stewart et al , 2005), as part of their work on designing automatic metrics for ST evaluation. 例えば、Mir et al (2019) は、ST評価のための自動メトリクスを設計する作業の一環として、相対的な判断が絶対的な判断よりも信頼性が高いことを指摘している(Stewart et al , 2005)。 0.68
However, research on human evaluation of machine translation shows that this can change depending on the specifics of the annotation task: relative judgments were replaced by direct assessment when Graham et al (2013) showed that both intra and inter-annotator agreement could be improved by using a continuous rating scale instead of the previously common five or seven-point interval scale (Callison-Burch et al , 2007). しかし、機械翻訳の人的評価は、アノテーションタスクの具体性によって変化しうることを示している:Graham et al (2013) が5点または7点の間隔スケール(Callison-Burch et al, 2007)の代わりに連続的な評価尺度を用いることで、アノテーション内およびアノテーション間の合意を改善できることを示したとき、相対的な判断は直接評価に置き換えられた。 0.72
For ST, the lack of detail and clarity in describing evaluation protocols makes it difficult to improve them, as has been pointed out for other NLG tasks by Shimorina and Belz (2021) who propose evaluation datasheets for clear documentation of human evaluations, Lee (2020) and van der Lee et al (2020) who propose best practices guidelines, and Belz et al (2020, 2021) who raise concerns regarding reproducibility. 評価プロトコルの記述における詳細さと明確さの欠如は、人間の評価の明確な文書化のための評価データシートを提案する下リナとベルツ(2021年)、ベストプラクティスガイドラインを提案するLee(2020年)とvan der Lee et al(2020年)、再現性に関する懸念を提起するBelz et al(2020年、2021年)など、それらを改善するのが困難である。 0.86
This issue is particularly salient for ST tasks where stylistic changes are defined implicitly by data (Jin et al , 2021) and where the instructions given to human judges for style transfer might be the only explicit characterization この問題は、スタイリスティックな変化がデータによって暗黙的に定義されるSTタスク(Jin et al , 2021)において特に有益であり、ヒトの判断者に対するスタイル伝達命令が唯一の明示的な特徴である可能性がある。 0.62
of the style dimension targeted. ターゲットとするスタイルの次元です 0.75
Furthermore, since ST includes rewriting text according to pragmatic aspects of language use, who the human judgments are matters since differences in communication norms and expectations might result in different judgments for the same text. さらに,STには言語使用の実践的な側面によるテキストの書き直しが含まれているため,コミュニケーション規範や期待の相違が同一のテキストに対して異なる判断をもたらす可能性があるため,人間の判断が問題となる。 0.69
Standardizing and describing protocols is also key to assessing the alignment of the evaluation with the models and task proposed (H¨am¨al¨ainen and Alnajjar, 2021), and to understand potential biases and ethical issues that might arise from, e g , compensation mechanisms (Vaughan, 2018; Schoch et al , 2020; Shmueli et al , 2021). プロトコルの標準化と記述は、提案されているモデルとタスクとの評価のアラインメントを評価する上でも重要であり、例えば、補償メカニズム(vaughan, 2018; schoch et al , 2020; shmueli et al , 2021)から生じる潜在的なバイアスと倫理的問題を理解するためにも重要である。 0.73
References Eneko Agirre, Carmen Banea, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Rada Mihalcea, German Rigau, and Janyce Wiebe. 参照: Eneko Agirre, Carmen Banea, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Rada Mihalcea, German Rigau, Janyce Wiebe. 0.87
2016. SemEval-2016 task 1: Semantic textual similarity, monolingual and cross-lingual evaluation. 2016. SemEval-2016 Task 1:Semantic Textual similarity, monolingual and cross-lingual evaluation。 0.82
In Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016), pages 497–511, San Diego, California. 第10回セマンティック・アセスメント国際ワークショップ(SemEval-2016)の成果として、カリフォルニア州サンディエゴの497-511ページがある。 0.65
Association for Computational Linguistics. Fernando Alva-Manchego, Carolina Scarton, and Lucia Specia. 計算言語学会会員。 フェルナンド・アルバ=マンチェゴ、カロライナ・スカートン、ルシア・スペシア。 0.50
2020. Data-driven sentence simplification: Survey and benchmark. 2020. データ駆動文の単純化:調査とベンチマーク。 0.70
Computational Linguistics, 46(1):135–187. 計算言語学 46(1):135–187。 0.74
Eyal Beigman and Beata Beigman Klebanov. Eyal Beigman and Beata Beigman Klebanov 0.67
2009. Learning with annotation noise. 2009. アノテーションノイズによる学習。 0.82
In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pages 280–287, Suntec, Singapore. 第47回ACL年次大会および第4回AFNLP国際自然言語処理国際会議の開催報告 280-287頁, シンガポール, サンテック
訳抜け防止モード: 第47回acl年次大会合同会議の開催にあたって 第4回afnlp自然言語処理国際共同会議に参加して 280-287頁、シンガポールのサンテック社。
0.65
Association for Computational Linguistics. Anya Belz, Shubham Agarwal, Anastasia Shimorina, and Ehud Reiter. 計算言語学会会員。 Anya Belz、Shubham Agarwal、Anastasia Shimorina、Ehud Reiter。 0.59
2021. A systematic review of reproducibility research in natural language processIn Proceedings of the 16th Conference of the ing. 2021. 第16回ing会議紀要 : 自然言語プロセスにおける再現性研究の体系的考察 0.76
European Chapter of the Association for Computational Linguistics: Main Volume, pages 381–393, Online. European Chapter of the Association for Computational Linguistics: Main Volume, page 381–393, Online 0.85
Association for Computational Linguistics. Anya Belz, Simon Mille, and David M. Howcroft. 計算言語学会会員。 Anya Belz、Simon Mille、David M. Howcroft。 0.64
2020. Disentangling the properties of human evaluation methods: A classification system to support comparability, meta-evaluation and reproducibility In Proceedings of the 13th International testing. 2020. 第13回国際試験手続における比較可能性、メタ評価、再現性を支援する分類システム。
訳抜け防止モード: 2020. ヒト評価法の諸性質の解明 第13回国際試験手続における比較可能性・メタ評価・再現性を支援する分類システム
0.86
Conference on Natural Language Generation, pages 183–194, Dublin, Ireland. 第183-194頁、アイルランド、ダブリン。 0.40
Association for Computational Linguistics. Eleftheria Briakou, Di Lu, Ke Zhang, and Joel Tetreault. 計算言語学会会員。 Eleftheria Briakou, Di Lu, Ke Zhang, Joel Tetreault 0.57
2021. Xformal: A benchmark for multilingual formality style transfer. 2021. Xformal: 多言語形式的なスタイル転送のためのベンチマーク。 0.76
英語(論文から抽出)日本語訳スコア
Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, and Josh Schroeder. Chris Callison-Burch、Cameron Fordyce、Philipp Koehn、Christof Monz、Josh Schroeder。 0.81
2007. (Meta-) Evaluation of Machine Translation. 2007. (メタ)機械翻訳の評価。 0.79
In Proceedings of the Second Workshop on Statistical Machine Translation, pages 136–158. Proceedings of the Second Workshop on Statistical Machine Translation, page 136–158。 0.83
Association for Computational Linguistics. Yvette Graham, Timothy Baldwin, Alistair Moffat, and Justin Zobel. 計算言語学会会員。 イヴェット・グラハム、ティモシー・ボールドウィン、アリステア・モファット、ジャスティン・ゾベル。 0.47
2013. Continuous Measurement Scales in Human Evaluation of Machine TranslaIn Proceedings of the 7th Linguistic Annotation. 2013. 第7言語アノテーションの機械翻訳手順の人間評価における連続的測定尺度 0.79
tion Workshop and Interoperability with Discourse, pages 33–41, Sofia, Bulgaria. tion Workshop and Interoperability with Discourse, page 33–41, Sofia, Bulgaria 0.84
Association for Computational Linguistics. Mika H¨am¨al¨ainen and Khalid Alnajjar. 計算言語学会会員。 ミカ・h・シャム・アル・アネンとハリド・アルナジャル。 0.39
2021. The great misalignment problem in human evaluation of NLP In Proceedings of the Workshop on Humethods. 2021. ヒューメトドスワークショップにおけるNLPの人的評価における大きなミスアライメント問題 0.71
man Evaluation of NLP Systems (HumEval), pages 69–74, Online. Man Evaluation of NLP Systems (HumEval), page 69–74, Online. 0.89
Association for Computational Linguistics. Michael Heilman, Aoife Cahill, Nitin Madnani, Melissa Lopez, Matthew Mulholland, and Joel Tetreault. 計算言語学会会員。 Michael Heilman, Aoife Cahill, Nitin Madnani, Melissa Lopez, Matthew Mulholland, Joel Tetreault 0.63
2014. Predicting grammaticality on an ordinal scale. 2014. 順序スケールでの文法性の予測。 0.73
In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 174–180, Baltimore, Maryland. 第52回計算言語学会年次大会(Volume 2: Short Papers)において, メリーランド州ボルチモアの174-180ページ。 0.61
Association for Computational Linguistics. David M. Howcroft, Anya Belz, Miruna-Adriana Clinciu, Dimitra Gkatzia, Sadid A. Hasan, Saad Mahamood, Simon Mille, Emiel van Miltenburg, Sashank Santhanam, and Verena Rieser. 計算言語学会会員。 David M. Howcroft, Anya Belz, Miruna-Adriana Clinciu, Dimitra Gkatzia, Sadid A. Hasan, Saad Mahamood, Simon Mille, Emiel van Miltenburg, Sashank Santhanam, Verena Rieser 0.69
2020. Twenty years of confusion in human evaluation: NLG needs evaluation sheets and standardised defIn Proceedings of the 13th International initions. 2020. 人格評価における20年間の混乱: nlgは評価表と第13回国際条約の標準化決定手続を必要としている。 0.75
Conference on Natural Language Generation, pages 169–182, Dublin, Ireland. アイルランドのダブリンにある169-182ページの自然言語生成に関する会議。 0.71
Association for Computational Linguistics. Di Jin, Zhijing Jin, Zhiting Hu, Olga Vechtomova, and Rada Mihalcea. 計算言語学会会員。 Di Jin, Zhijing Jin, Zhiting Hu, Olga Vechtomova, Rada Mihalcea。 0.61
2021. Deep learning for text style transfer: A survey. 2021. テキストスタイル転送のためのディープラーニング:調査。 0.77
Z. Jin, D. Jin, J. Mueller, N. Matthews, and E. Santus. Z. Jin, D. Jin, J. Mueller, N. Matthews, E. Santus 0.97
2019. Imat: Unsupervised text attribute transfer In Proceedvia iterative matching and translation. 2019. Imat: 教師なしのテキスト属性転送 Proceedvia 反復的なマッチングと変換。 0.80
ings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3095–3107. The 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 3095–3107。 0.87
Association for Computational Linguistics. Kalpesh Krishna, John Wieting, and Mohit Iyyer. 計算言語学会会員。 Kalpesh Krishna、John Wieting、Mohit Iyyer。 0.57
2020. Reformulating unsupervised style transfer as paraphrase generation. 2020. フレーズ生成としての教師なしスタイル転送の再構築 0.69
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 737–762, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 737–762, Online. 0.88
Association for Computational Linguistics. Chris van der Lee, Albert Gatt, Emiel van Miltenburg, and Emiel Krahmer. 計算言語学会会員。 Chris van der Lee、Albert Gatt、Emiel van Miltenburg、Emiel Krahmer。 0.63
2020. Human evaluation of automatically generated text: Current trends and best 2020. 自動生成テキストの人間による評価:現状と最良 0.79
practice guidelines. Computer Speech & Language, page 101151. 練習ガイドライン。 Computer Speech & Language』、101151頁。 0.72
Kiyong Lee. 2020. キョン・リー。 2020. 0.71
Annotation-based semantics. アノテーションベースのセマンティクス。 0.42
In 16th Joint ACL - ISO Workshop on Interoperable Semantic Annotation PROCEEDINGS, pages 36–48, Marseille. 第16回共同ACL - ISO Workshop on Interoperable Semantic Annotation PROCEEDINGS, pages 36-48, Marseille. 0.94
European Language Resources Association. 欧州言語資源協会会員。 0.86
Dianqi Li, Yizhe Zhang, Zhe Gan, Yu Cheng, Chris Brockett, Bill Dolan, and Ming-Ting Sun. Dianqi Li、Yizhe Zhang、Zhe Gan、Yu Cheng、Chris Brockett、Bill Dolan、Ming-Ting Sun。 0.76
2019. Domain adaptive text style transfer. 2019. ドメイン適応型テキストスタイル転送。 0.83
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3304–3313, Hong Kong, China. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)と2019年の自然言語処理に関する実証的手法に関する会議の議事録において、中国、香港の3304-3313ページが挙げられている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して 3304-3313頁、香港、中国。
0.79
Association for Computational Linguistics. Jiwei Li, Michel Galley, Chris Brockett, Georgios Spithourakis, Jianfeng Gao, and Bill Dolan. 計算言語学会会員。 Jiwei Li、Michel Galley、Chris Brockett、Georgios Spithourakis、Jianfeng Gao、Bill Dolan。 0.61
2016. A In Propersona-based neural conversation model. 2016. In Propersonaを用いたニューラル会話モデル 0.82
ceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 994–1003, Berlin, Germany. 第54回計算言語学会年次総会(第1巻:長い論文)第994-1003ページ、ドイツのベルリン。 0.58
Association for Computational Linguistics. Juncen Li, Robin Jia, He He, and Percy Liang. 計算言語学会会員。 Juncen Li、Robin Jia、He He、Percy Liang。 0.58
2018. Delete, retrieve, generate: a simple approach to sentiment and style transfer. 2018. 削除、検索、生成: 感情とスタイル転送に対するシンプルなアプローチ。 0.76
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 1865–1874, New Orleans, Louisiana. 2018年北米計算言語学会(英語版)の会議(英語版)において、人間言語技術(英語版)、第1巻(長文)、1865-1874頁、ルイジアナ州ニューオーリンズで開催。 0.66
Association for Computational Linguistics. Xinyao Ma, Maarten Sap, Hannah Rashkin, and Yejin Choi. 計算言語学会会員。 新八尾馬、マーテンサップ、ハンナ・ラシュキン、イェジン・チョイ。 0.41
2020. PowerTransformer: Unsupervised controllable revision for biased language correction. 2020. PowerTransformer: バイアス言語修正のための教師なし制御可能なリビジョン。 0.77
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 7426–7441, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 7426–7441, Online. 0.88
Association for Computational Linguistics. Remi Mir, Bjarke Felbo, Nick Obradovich, and Iyad Rahwan. 計算言語学会会員。 Remi Mir、Bjarke Felbo、Nick Obradovich、Iyad Rahwan。 0.61
2019. Evaluating style transfer for text. 2019. テキストのスタイル転送の評価。 0.82
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 495–504, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 495–504, Minneapolis, Minnesota 0.76
Association for Computational Linguistics. Yvette Oortwijn, Thijs Ossenkoppele, and Arianna Betti. 計算言語学会会員。 Yvette Oortwijn, Thijs Ossenkoppele, Arianna Betti 0.56
2021. Interrater disagreement resolution: A systematic procedure to reach consensus in annotation tasks. 2021. interrater disagreement resolution: アノテーションタスクのコンセンサスに到達するための体系的な手順。 0.77
In Proceedings of the Workshop on Human Evaluation of NLP Systems (HumEval), pages 131–141, Online. The Proceedings of the Workshop on Human Evaluation of NLP Systems (HumEval), page 131–141, Online. 0.88
Association for Computational Linguistics. Richard Yuanzhe Pang and Kevin Gimpel. 計算言語学会会員。 Richard Yuanzhe PangとKevin Gimpel。 0.67
2019. Unsupervised evaluation metrics and learning criteria for non-parallel textual transfer. 2019. 非並列テキスト転送のための教師なし評価指標と学習基準 0.78
In NGT@EMNLPIJCNLP. NGT@EMNLPIJCNLP。 0.57
英語(論文から抽出)日本語訳スコア
Ellie Pavlick and Joel Tetreault. Ellie PavlickとJoel Tetreault。 0.78
2016. An empirical analysis of formality in online communication. 2016. オンラインコミュニケーションにおける形式性の実証分析 0.83
Transactions of the Association for Computational Linguistics, 4:61–74. The Association for Computational Linguistics, 4:61–74。 0.83
Reid Pryzant, Richard Diehl Martinez, Nathan Dass, Sadao Kurohashi, Dan Jurafsky, and Diyi Yang. Reid Pryzant、Richard Diehl Martinez、Nathan Dass、Sadao Kurohashi、Dan Jurafsky、Diyi Yang。 0.68
2020. Automatically neutralizing subjective bias in text. 2020. テキストにおける主観バイアスを自動的に中和する。 0.68
Proceedings of the AAAI Conference on Artificial Intelligence, 34(01):480–489. AAAI Conference on Artificial Intelligence, 34(01):480-489 に参加。 0.87
Sudha Rao and Joel Tetreault. Sudha RaoとJoel Tetreault。 0.76
2018. Dear sir or madam, may I introduce the GYAFC dataset: Corpus, benchmarks and metrics for formality style transfer. 2018. dear sir or madam, i introduce the gyafc dataset: corpus, benchmarks and metrics for formality style transfer (英語) 0.78
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 129–140, New Orleans, Louisiana. the association for computational linguistics: human language technologies, volume 1 (long papers), pages 129–140, ルイジアナ州ニューオーリンズ。
訳抜け防止モード: 計算言語学会北米支部2018年大会紀要 : 人間言語技術 第1巻 (ロングペーパー)、第129-140頁、ルイジアナ州ニューオーリンズ。
0.55
Association for Computational Linguistics. Stephanie Schoch, Diyi Yang, and Yangfeng Ji. 計算言語学会会員。 stephanie schoch氏、diyi yang氏、yangfeng ji氏。 0.58
2020. “This is a problem, don’t you agree?” framing and bias in human evaluation for natural language generation. 2020. 自然言語生成のための人間の評価におけるフレーミングと偏見。
訳抜け防止モード: 2020. 「これは問題です。」 自然言語生成のための人間の評価におけるフレーミングと偏見について、あなたは同意しないだろうか?
0.76
In Proceedings of the 1st Workshop on Evaluating NLG Evaluation, pages 10–16, Online (Dublin, Ireland). In Proceedings of the 1st Workshop on Evaluating NLG Evaluation, pages 10–16, Online (アイルランド、ダブリン)。 0.89
Association for Computational Linguistics. Tianxiao Shen, Tao Lei, Regina Barzilay, and Tommi Jaakkola. 計算言語学会会員。 Tianxiao Shen、Tao Lei、Regina Barzilay、Tommi Jaakkola。 0.55
2017. Style transfer from non-parallel text by cross-alignment. 2017. 非並列テキストからのクロスリグメンテーションによるスタイル転送 0.82
In Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17, page 6833–6844, Red Hook, NY, USA. The 31st International Conference on Neural Information Processing Systems, NIPS’17, page 6833–6844, Red Hook, NY, USA (英語) 0.84
Curran Associates Inc. Curran Associates Inc. 0.85
Anastasia Shimorina and Anya Belz. アナスタシア・シゲリナと アナ・ベルツ 0.52
2021. The human evaluation datasheet 1.0: A template for recording details of human evaluation experiments in nlp. 2021. human evaluation datasheet 1.0: nlpにおけるヒューマン評価実験の詳細を記録するテンプレート。 0.87
arXiv preprint arXiv:2103.09710. arXiv preprint arXiv:2103.09710 0.71
Boaz Shmueli, Jan Fell, Soumya Ray, and Lun-Wei Ku. Boaz Shmueli, Jan Fell, Soumya Ray, Lun-Wei Ku 0.75
2021. Beyond fair pay: Ethical implications of nlp crowdsourcing. 2021. 公正な報酬を超えて: nlpクラウドソーシングの倫理的意味。 0.66
arXiv preprint arXiv:2104.10097. arXiv preprint arXiv:2104.10097 0.72
Punardeep Sikka, Manmeet Singh, Allen Pink, and Vijay Mago. Punardeep Sikka、Manmeet Singh、Allen Pink、Vijay Mago。 0.66
2020. A survey on text simplification. 2020. テキストの簡易化に関する調査。 0.78
arXiv preprint arXiv:2008.08612. arXiv preprint arXiv:2008.08612 0.72
Neil Stewart, Gordon D. A. ニール・スチュワート ゴードン・d・a 0.49
Brown, and Nick Chater. ブラウンとニック・チャター。 0.63
2005. Absolute identification by relative judgment. 2005. 相対的な判断による絶対的な識別。 0.68
Psychological Review, 112(4):881–911. 心理学的考察、112(4):881-911。 0.64
Jennifer Wortman Vaughan. Jennifer Wortman Vaughan 0.63
2018. Making better use of the crowd: How crowdsourcing can advance machine learning research. 2018. クラウドソーシングは、どのように機械学習の研究を前進させるか。 0.66
Journal of Machine Learning Research, 18(193):1–46. Journal of Machine Learning Research, 18(193):1–46。 0.91
Wei Xu, Courtney Napoles, Ellie Pavlick, Quanze Chen, and Chris Callison-Burch. Wei Xu、Courtney Napoles、Ellie Pavlick、Quanze Chen、Chris Callison-Burch。 0.72
2016. Optimizing statistical machine translation for text simplification. 2016. テキスト簡易化のための統計的機械翻訳の最適化 0.75
Transactions of the Association for Computational Linguistics, 4:401–415. association for computational linguistics, 4:401–415を参照。 0.74
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。