論文の概要、ライセンス

# (参考訳) 科学的レビューを自動化できますか? [全文訳有]

Can We Automate Scientific Reviewing? ( http://arxiv.org/abs/2102.00176v1 )

ライセンス: CC0 1.0
Weizhe Yuan and Pengfei Liu and Graham Neubig(参考訳) 科学技術の急速な発展は、査読された科学出版物の指数関数的な成長を伴う。 同時に、各論文のレビューは、主題の専門家によって実行されなければならない面倒なプロセスです。 したがって、この増え続ける論文の質の高いレビューを提供することは、大きな課題である。 この研究では、「科学的レビューを自動化できますか? 「最先端自然言語処理(NLP)モデルを用いて,学術論文の初歩的ピアレビューを作成する可能性について論じる。 レビューの定義は間違いなく最も難しいので、まずこのようなレビューに対して可能な評価基準について論じます。 次に、機械学習領域の論文のデータセットを収集し、各レビューでカバーされるコンテンツのさまざまな側面を注釈付けし、レビューを生成するために論文に取るターゲットを絞った要約モデルを訓練します。 総合的な実験結果から, システム生成レビューは, 人間が書いたレビューよりも多くの面に接する傾向が見られたが, 生成したテキストは, 論文の核となる考えを説明することを除いて, あらゆる面において, 構成性の低下に苦しむことがある。 私たちは最終的に、良いレビュー生成システムを追求する8つの課題と潜在的なソリューションをまとめてまとめました。 すべてのコードを作成し、データセットを公開します。 https://github.com/n eulab/ReviewAdvisor そしてReviewAdvisorシステムです。

The rapid development of science and technology has been accompanied by an exponential growth in peer-reviewed scientific publications. At the same time, the review of each paper is a laborious process that must be carried out by subject matter experts. Thus, providing high-quality reviews of this growing number of papers is a significant challenge. In this work, we ask the question "can we automate scientific reviewing?", discussing the possibility of using state-of-the-art natural language processing (NLP) models to generate first-pass peer reviews for scientific papers. Arguably the most difficult part of this is defining what a "good" review is in the first place, so we first discuss possible evaluation measures for such reviews. We then collect a dataset of papers in the machine learning domain, annotate them with different aspects of content covered in each review, and train targeted summarization models that take in papers to generate reviews. Comprehensive experimental results show that system-generated reviews tend to touch upon more aspects of the paper than human-written reviews, but the generated text can suffer from lower constructiveness for all aspects except the explanation of the core ideas of the papers, which are largely factually correct. We finally summarize eight challenges in the pursuit of a good review generation system together with potential solutions, which, hopefully, will inspire more future research on this subject. We make all code, and the dataset publicly available: https://github.com/n eulab/ReviewAdvisor, as well as a ReviewAdvisor system: http://review.nlpedi a.ai/.
公開日: Sat, 30 Jan 2021 07:16:53 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Can We Automate Scientific Reviewing? 科学的レビューを自動化できますか? 0.61
Weizhe Yuan ワイズヘ・ユアン(Weizhe Yuan) 0.27
Carnegie Mellon University weizhey@cs.cmu.edu カーネギーメロン大学weizhey@cs.cmu.edu 0.56
Pengfei Liu ∗ Pengfei Liu ∗ 0.85
Carnegie Mellon University カーネギーメロン大学 0.61
pliu3@cs.cmu.edu pliu3@cs.cmu.edu 0.52
Graham Neubig グラハム・ニューギグ 0.35
Carnegie Mellon University gneubig@cs.cmu.edu カーネギーメロン大学 gneubig@cs.cmu.edu 0.59
TL;QR This paper proposes to use NLP models to generate reviews for scientific papers . TL;QR 本論文では,NLPモデルを用いて学術論文のレビューを生成する。 0.79
The model is trained on the ASAPReview dataset and evaluated on a set of metrics to evaluate the quality of the generated reviews . モデルはASAPReviewデータセットでトレーニングされ、生成されたレビューの品質を評価するためのメトリクスセットで評価されます。 0.74
It is found that the model is not very good at summarizing the paper , but it is able to generate more detailed reviews that cover more aspects of the paper than those created by humans . このモデルでは, 論文の要約があまり得意ではないが, 人間が作成したものよりも, 論文の多くの側面を網羅する, より詳細なレビューを生成することができる。 0.75
The paper also finds that both human and automatic reviewers exhibit varying degrees of bias and biases , and that the system generate more biased reviews than human reviewers. 論文はまた、人間と自動レビュアーの両方がバイアスとバイアスの異なる程度を示し、システムが人間のレビュワーよりも多くのバイアスレビューを生成することを発見しました。
訳抜け防止モード: 論文もそれを発見している。 人間と自動のレビュアーは 様々なバイアスとバイアスを示します システムは人間のレビューよりも 偏見のあるレビューを生み出します
0.73
(“Too Long; Quick Read”, this paragraph, is generated by our system.) (本項の「長すぎる、速読」は、当社のシステムによって生成される。) 0.75
Abstract The rapid development of science and technology has been accompanied by an exponential growth in peer-reviewed scientific publications. 概要 科学技術の急速な発展は、査読された科学出版物の指数関数的な成長を伴う。 0.60
At the same time, the review of each paper is a laborious process that must be carried out by subject matter experts. 同時に、各論文のレビューは、主題の専門家によって実行されなければならない面倒なプロセスです。 0.73
Thus, providing high-quality reviews of this growing number of papers is a significant challenge. したがって、この増え続ける論文の質の高いレビューを提供することは、大きな課題である。 0.59
In this work, we ask the question “can we automate scientific reviewing?”, discussing the possibility of using state-of-the-art natural language processing (NLP) models to generate first-pass peer reviews for scientific papers. 本研究では,「科学的レビューを自動化できるか?」という問いに対して,最新の自然言語処理(NLP)モデルを用いて科学論文の初歩的な査読を生成する可能性について論じる。 0.80
Arguably the most difficult part of this is defining what a “good” review is in the first place, so we first discuss possible evaluation measures for such reviews. おそらく、この最も難しい部分は、そもそも「良い」レビューが何であるかを定義することです。
訳抜け防止モード: おそらく最も難しいのは,“よい”レビューの定義です。 まず第一に ですから、まず、このようなレビューの評価方法について議論します。
0.66
We then collect a dataset of papers in the machine learning domain, annotate them with different aspects of content covered in each review, and train targeted ∗Corresponding author. 次に、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、ターゲットの∗対応作者を訓練します。 0.68
summarization models that take in papers to generate reviews. レビューを生成するために論文を取る要約モデル。 0.78
Comprehensive experimental results show that system-generated reviews tend to touch upon more aspects of the paper than human-written reviews, but the generated text can suffer from lower constructiveness for all aspects except the explanation of the core ideas of the papers, which are largely factually correct. 総合的な実験結果から, システム生成レビューは, 人間が書いたレビューよりも多くの面に接する傾向が見られたが, 生成したテキストは, 論文の核となる考えを説明することを除いて, あらゆる面において, 構成性の低下に苦しむことがある。 0.72
We finally summarize eight challenges in the pursuit of a good review generation system together with potential solutions, which, hopefully, will inspire more future research on this subject. 私たちは最終的に、良いレビュー生成システムを追求する8つの課題と潜在的なソリューションをまとめてまとめました。
訳抜け防止モード: 良いレビュー生成システムを追求する8つの課題と、潜在的なソリューションをまとめました。 将来的にこのテーマに関するさらなる研究を 促すことを願っています
0.72
We make all code, and the dataset publicly available: https://github. すべてのコードを作成し、データセットを公開しています。 0.55
com/neulab/ReviewAdv isor as well as a ReviewAdvisor system: http://review.nlpedi a.ai/ (See demo screenshot in A.2). reviewadvisor: http://review.nlpedi a.ai/ (a.2のデモスクリーンショットを参照)。 0.50
The review of this paper (without TL;QR section) written by the system of this paper can be found A.1 Introduction 本論文のシステムによる本論文(TL;QR節なし)のレビューは、A.1紹介を参照のこと。 0.75
1 The number of published papers is growing exponentially (Tabah, 1999; De Bellis, 2009; Bornmann and Mutz, 2015). 1 発行論文数は指数関数的に増加している(Tabah, 1999; De Bellis, 2009; Bornmann and Mutz, 2015)。 0.89
While this may be positively viewed as indicating acceleration of scientific progress, it also poses great challenges for researchers, both in reading and synthesizing the relevant literature for one’s own benefit, and for performing peer review of papers to vet their correctness and merit. これは、科学的進歩の加速を示すものとして肯定的に見なされるが、研究者にとって、自分自身の利益のために関連する文献を読み、合成したり、論文の査読を行い、正当性やメリットを検証したりする際にも大きな課題となる。
訳抜け防止モード: これは科学的進歩の加速を示すものと見なされるかもしれないが。 研究者にも大きな課題をもたらします 自分の利益のために関連文献を読んで合成すること。 論文を査読して 正しさとメリットを 評価することです
0.70
With respect to the former, a large body of existing work explores automatic summarization of a paper or a set of papers for automatic survey generation (Mohammad et al., 2009; Jha et al., 2013, 2015b,a; Yasunaga et al., 2019b; Cohan et al., 2018b; Xing et al., 2020). 前者に関しては、既存の大量の論文が自動調査生成のための論文または一連の論文の自動要約を探っている(Mohammad et al., 2009; Jha et al., 2013 2015b,a; Yasunaga et al., 2019b; Cohan et al., 2018b; Xing et al., 2020)。 0.78
However, despite the fact that peer review is an important, but laborious part of our scientific process, automatic systems to aid in the peer review process remain relatively underexplored. しかしながら、ピアレビューは重要ではあるが、科学的なプロセスの一部に手間がかかるという事実にもかかわらず、ピアレビュープロセスを支援する自動システムは比較的未検討のままである。
訳抜け防止モード: しかし、その事実にもかかわらず ピアレビューは 科学プロセスの重要な部分ですが ピアレビュープロセスを支援する自動システムは, いまだに未検討のままである。
0.68
Bartoli et al. Bartoli et al。 0.82
(2016) investigated the feasibility of generating reviews by surface-level term replacement and sentence reordering, and Wang et al. (2016年) 表面レベルの項置換と文の再順序付けによるレビュー作成の可能性とwangらの研究を行った。 0.63
(2020) (contempora- (2020年)(同時代-) 0.60
1 2 0 2 n a J 1 2 0 2 n a J 0.85
0 3 ] L C . 0 3 ] L C。 0.78
s c [ 1 v 6 7 1 0 0 sc [ 1 v 6 7 1 0 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
英語(論文から抽出)日本語訳スコア
neously and independently) propose a two-stage information extraction and summarization pipeline to generate paper reviews. Neouslyおよび独立して)ペーパーレビューを生成するための2段階の情報抽出および要約パイプラインを提案する。 0.70
However, both do not extensively evaluate the quality or features of the generated review text. しかし、どちらも生成されたレビューテキストの品質や特徴を広く評価していない。 0.70
In this work, we are concerned with providing at least a preliminary answer to the ambitious overarching question: can we automate scientific reviewing? この研究では、私たちは野心的な階層的質問に対する少なくとも予備的な答えを提供することに関心があります:科学的なレビューを自動化できますか? 0.57
Given the complexity of understanding and assessing the merit of scientific contributions, we do not expect an automated system to be able to match a well-qualified and meticulous human reviewer at this task any time soon. 科学的貢献のメリットの理解と評価の複雑さを考えると、自動化されたシステムは、すぐにこのタスクにおいて、適格で精巧な人間レビュアーと一致できるとは思っていません。 0.63
However, some degree of review automation may assist reviewers in their assessments, or provide guidance to junior reviewers who are just learning the ropes of the reviewing process. しかしながら、ある程度のレビュー自動化は、レビュー担当者のアセスメントを支援したり、レビュープロセスのロープを学習しているジュニアレビュアーにガイダンスを提供することもある。 0.67
Towards this goal, we examine two concrete research questions, the answers to which are prerequisites to building a functioning review assistant: Q1: What are the desiderata of a good automatic reviewing system, and how can we quantify them for evaluation? この目標に向けて,機能的レビューアシスタント構築の前提条件である回答について,2つの具体的な研究課題を検討する。 Q1: 優れた自動レビューシステムのデシラタとは何か,評価のためにそれらを定量化するにはどうすればよいのか。
訳抜け防止モード: この目標に向けて,機能的レビューアシスタント構築の前提条件である2つの具体的な研究課題について検討する : Q1 : 何について 優れた自動検査システムのデシデラタです 評価のために 定量化できるでしょうか?
0.85
Before developing an automatic review system, we first must quantify what constitutes a good review in the first place. 自動レビューシステムを開発する前に、まず最初に良いレビューを構成するものを定量化しなければならない。 0.72
The challenge of answering this question is that a review commonly involves both objective (e.g. この質問に答えることの難しさは、レビューが一般に目的(例えば)の両方を含むことである。 0.61
“lack of details necessary to replicate the experimental protocol”) and subjective aspects (e.g. 実験プロトコルを複製するために必要な詳細の欠如”)と主観的側面(例) 0.80
“lack of potential impact”). 潜在的な影響の欠如”)。 0.71
Due to this subjectivity, defining a “good” review is itself somewhat subjective. この主観性のため、“よい”レビューの定義は、それ自体がある程度主観的です。 0.60
As a step towards tackling this challenge, we argue that it is possible to view review generation as a task of aspect-based scientific paper summarization, where the summary not only tries to summarize the core idea of a paper, but also assesses specific aspects of that paper (e.g. この課題に取り組むためのステップとして、レビュー生成をアスペクトベースの科学論文要約の課題と見なすことが可能であり、要約は、論文の中核的な概念を要約するだけでなく、その論文の特定の側面(例)を評価する。 0.70
novelty or potential impact). 新規性または潜在的影響) 0.68
We evaluate review quality from multiple perspectives, in which we claim a good review not only should make a good summary of a paper but also consist of factually correct and fair comments from diverse aspects, together with informative evidence. 我々は,複数の視点からレビュー品質を評価し,優れたレビューが論文をよく要約するだけでなく,様々な側面からの事実的正確かつ公正なコメントと情報的証拠からなるべきだと主張している。 0.86
To operationalize these concepts, we build a dataset of reviews, named ASAP-Review1 from machine learning domain, and make fine-grained annotations of aspect information for each review, which provides the possibility for a richer evaluation of generated reviews. これらの概念を運用するために、機械学習ドメインからASAP-Review1と呼ばれるレビューのデータセットを構築し、レビューごとにアスペクト情報のきめ細かいアノテーションを作成し、生成されたレビューのより豊かな評価を可能にする。 0.65
1ASpect-enhAnced Peer Review dataset 1ASpect-enhAnced Peer Reviewデータセット 0.62
Q2: Using state-of-the-art NLP models, to what extent can we realize these desiderata? Q2: 最先端のNLPモデルを使用して、これらのデシラタをどの程度実現できるか? 0.54
We provide an initial answer to this question by using the aforementioned dataset to train state-of-the-art summarization models to generate reviews from scientific papers, and evaluate the output according to our evaluation metrics described above. この質問に対する最初の答えは、前述のデータセットを使用して最先端の要約モデルをトレーニングし、科学論文からレビューを生成し、上記の評価基準に従って出力を評価することである。 0.65
We propose different architectural designs for this model, which we dub ReviewAdvisor (§4), and comprehensively evaluate them, interpreting their relative advantages. 我々は,このモデルに対する異なるアーキテクチャ設計を提案し,それを評価し,それらの相対的な利点を解釈した。 0.71
Lastly, we highlight our main observations and conclusions: (1) What are review generation systems (not) good at? 最後に、主な観察と結論について強調する。(1)レビュー生成システム(そうでない)は何が得意か? 0.78
Most importantly, we find the constructed automatic review system generates non-factual statements regarding many aspects of the paper assessment, which is a serious flaw in a high-stakes setting such as reviewing. 最も重要なのは, 自動レビューシステムの構築により, 論文評価の多面的側面に関する非事実的記述が生成されることである。 0.61
However, there are some bright points as well. しかし、いくつかの明るい点もあります。 0.75
For example, it can often precisely summarize the core idea of the input paper, which can be either used as a draft for human reviewers or help them (or general readers) quickly understand the main idea of the paper to be reviewed (or pre-print papers). 例えば、人間のレビュアーの草案として使われるか、あるいは(あるいは一般の読者が)レビュー対象の論文(または印刷済みの論文)の主なアイデアを素早く理解するのに役立つ、入力された論文の核となる考えを正確に要約することができる。 0.79
It can also generate reviews that cover more aspects of the paper’s quality than those created by humans, and provide evidence sentences from the paper. また、人間が作成したものよりも、紙の品質の多くの側面をカバーするレビューを作成し、論文から証拠文を提供することもできる。 0.74
These could potentially provide a preliminary template for reviewers and help them quickly identify salient information in making their assessment. これらはレビュアーに予備的なテンプレートを提供する可能性があり、評価を行う際に十分な情報を見つけるのに役立ちます。 0.55
(2) Will the system generate biased reviews? 2)システムはバイアス付きレビューを生成しますか? 0.80
Yes. We present methods to identify and quantify potential biases in reviews (§5.3), and find that both human and automatic reviewers exhibit varying degrees of bias. はい。 レビューにおける潜在的なバイアスの特定と定量化(5.3)方法を提案し、人間と自動レビュアーの両方が異なるバイアスの程度を示すことを発見した。 0.73
(i) regarding native vs. non-native English speakers: papers of native English speakers tend to obtain higher scores on “Clarity” from human reviewers than non-native English ones,2 but the automatic review generators narrow this gap. (i)母国英語話者と母国英語話者について:母国英語話者の論文は、母国英語話者よりも「明瞭」のスコアが高い傾向にあるが、自動レビュージェネレータはこのギャップを狭めている。 0.60
Additionally, system reviewers are harsher than human reviewers when commenting regarding the paper’s “Originality” for non-native English speakers. さらに、システムレビュアーは、非ネイティブ英語話者に対する論文の“オリジナリティ”に関してコメントするときに、人間レビュアーよりも厳しい。 0.68
(ii) regarding anonymous vs. non-anonymous submissions: both human reviewers and system reviewers favor non-anonymous papers, which have been posted on non-blind preprint (ii) 匿名対非匿名の提出について: 人間のレビュアーとシステムレビュアーの両方が非匿名の論文を好む。 0.58
2Whether this actually qualifies as “bias” is perhaps arguable. 2whhufferは、”bias”(バイアス)と認定する。 0.51
Papers written by native English speakers may be more clear due to lack of confusing grammatical errors, but the paper may actually be perfectly clear but give the impression of not being clear because of grammatical errors. 英語の母語話者によって書かれた論文は、文法的誤りが混同されていないために、より明確になるかもしれないが、実際には完全に明確であるが、文法的誤りのために明確でないという印象を与える。 0.54
英語(論文から抽出)日本語訳スコア
servers such as arXiv3 before the review period, more than anonymous papers in all aspects. レビュー期間の前の arXiv3 のようなサーバー、すべての面で匿名の論文よりも。 0.79
Based on above mentioned issues, we claim that a review generation system can not replace human reviewers at this time, instead, it may be helpful as part of a machine-assisted human review process. 上記の問題に基づき、レビュー生成システムは、現在、人間のレビュー者を置き換えることはできないと主張しており、機械支援のヒューマンレビュープロセスの一部として役立つかもしれない。 0.77
Our research also enlightens what’s next in pursuing a better method for automatic review generation or assistance and we summarize eight challenges that can be explored for future directions in §7.2. 私たちの研究はまた、自動レビュー生成または支援のためのより良い方法を追求する上での次のことを啓蒙し、第7.2章で将来の方向性のために検討することができる8つの課題をまとめます。 0.55
2 What Makes a Good Peer Review? 2 良質なピアレビューとは何か? 0.72
Although peer review has been adopted by most journals and conferences to identify important and relevant research, its effectiveness is being continuously questioned (Smith, 2006; Langford and Guzdial, 2015; Tomkins et al., 2017; Gao et al., 2019; Rogers and Augenstein, 2020). 多くの学術雑誌や会議において、重要かつ関連する研究を特定するためにピアレビューが採用されているが、その効果は継続的に疑問視されている(Smith, 2006; Langford and Guzdial, 2015; Tomkins et al., 2017; Gao et al., 2019; Rogers and Augenstein, 2020)。 0.76
As concluded by Jefferson et al. Jeffersonらによって結論づけられた。 0.69
(2002b): “Until we have properly defined the objectives of peerreview, it will remain almost impossible to assess or improve its effectiveness.” Therefore we first discuss the possible objectives of peer review. (2002b):「ピアレビューの目的を適切に定義するまでは、その効果を評価し、改善することはほぼ不可能である」ため、まずピアレビューの目的について論じる。 0.70
2.1 Peer Review for Scientific Research A research paper is commonly first reviewed by several committee members who usually assign one or several scores and give detailed comments. 2.1 科学研究のためのピアレビュー 研究論文は、通常1つまたは複数のスコアを割り当て、詳細なコメントを行う複数の委員会メンバーによって最初にレビューされる。 0.67
The comments, and sometimes scores, cover diverse aspects of the paper (e.g. コメント、時にはスコアは、論文の様々な側面(例)をカバーする。 0.65
“clarity,” “potential impact”; detailed in §3.2.1), and these aspects are often directly mentioned in review forms of scientific conferences or journals.4 clarity, “potential impact” (3.2.1で詳述)、そしてこれらの側面は、科学会議や雑誌のレビュー形式で直接言及されることが多い。 0.71
Then a senior reviewer will often make a final decision (i.e., “reject” or “accept”) and provide comments summarizing the decision (i.e., a metareview). そして、上級レビュアーは最終決定を下す(すなわち、"削除" または "受け入れ")ことがあり、決定を要約したコメント(すなわち、メタレビュー)を提供する。 0.79
After going through many review guidelines5 and resources about how to write a good review6 良いレビュー6を書く方法に関する多くのレビューガイドライン5とリソースを調べた後、 0.79
3https://arxiv.org/ 4For example, one example from ACL can be found at: 3https://arxiv.org/ 4例 ACLの例は以下のとおりです。 0.77
https://acl2018.org/ downloads/acl 2018 review form.html 5https://icml.cc/Con ferences/2020/Review erGuidelines https://acl2018.org/ downloads/acl 2018 Review form.html 5https://icml.cc/Con ferences/2020/Review erGuidelines 0.36
https://NeurIPS.cc/C onferences/2020/Pape rInformation/ ReviewerGuidelines, ReviewerGuide NeurIPS.cc/Conferenc es/2020/PaperInforma tion/ReviewerGuideli nes,ReviewerGuide 0.48
https://iclr.cc/Conf erences/2021/ https://iclr.cc/Conf erences/2021/ 0.36
6https://players.bri ghtcove.net/38068810 48001/ 6https://players.bri ghtcove.net/38068810 48001/ 0.34
rFXiCa5uY default/index.html?v ideoId= https://soundcloud.c om/nlp-highlights/ 4518165477001, 77-on-writing-qualit y-peer-reviews-with- noah-a-smith, https: //www.aclweb.org/ant hology/2020.acl-tuto rials.4.pdf, https: //2020.emnlp.org/blo g/2020-05-17-write-g ood-reviews rFXiCa5uY default/index.html?v ideoId= https://soundcloud.c om/nlp-highlights/ 4518165477001, 77-on-writing-qualit y-peer-reviews-with- noah-a-smith, https: //www.aclweb.org/ant hology/2020.acl-tuto rials.4.pdf, https: //2020.emnlp.org/blo g/2020-05-17-write-g ood-reviews 0.25
we summarize some of the most frequently mentioned desiderata below: 以下に最もよく言及されるデシラタを要約します 0.54
1. Decisiveness: A good review should take a clear stance, selecting high-quality submissions for publication and suggesting others not be accepted (Jefferson et al., 2002a; Smith, 2006). 1. 決定性:良いレビューは明確なスタンスを取るべきであり、出版のための高品質の提出を選択し、他の人が受け入れられないことを示唆する(Jefferson et al., 2002a; Smith, 2006)。 0.77
2. Comprehensiveness: A good review should be well-organized, typically starting with a brief summary of the paper’s contributions, then following with opinions gauging the quality of a paper from different aspects. 2. 包括性: 良いレビューは、よく整理されるべきで、一般的には、論文のコントリビュートの概要から始まり、その後、異なる側面から紙の質を判断する意見が続く。 0.79
Many review forms explicitly require evaluation of different aspects to encourage comprehensiveness. 多くのレビューフォームは、包括的性を促進するために異なる側面の評価を明示的に要求します。 0.46
3. Justification: A good review should provide specific reasons for its assessment, particularly whenever it states that the paper is lacking in some aspect. 3. 正当化: 優れたレビューは、その評価の具体的な理由を提供するべきである。
訳抜け防止モード: 3. 正当性:良いレビューは、その評価の特定の理由を提供するべきです。 特に 論文が欠けていると 言うときはいつでも
0.77
This justification also makes the review more constructive (another oft-cited desiderata of reviews), as these justifications provide hints about how the authors could improve problematic aspects in the paper (Xiong and Litman, 2011). この正当化により、レビューはより建設的(レビューの他の暗黙のデシラタ)になり、これらの正当化は著者が論文の問題点を改善するためのヒントを提供する(Xiong and Litman, 2011)。 0.62
4. Accuracy: A review should be factually correct, with the statements contained therein not being demonstrably false. 4. 正確性: レビューは事実的に正しいものでなければなりません。 0.71
5. Kindness: A good review should be kind and 5. 親切さ:良いレビューは親切でなければならない。 0.71
polite in language use. 言語使用の礼儀正しい。 0.74
Based on above desiderata, we make a first step towards evaluation of reviews for scientific papers and characterize a “good” review from multiple perspectives. 以上のデシダラタに基づいて、科学論文のレビュー評価に向けて第一歩を踏み出し、複数の視点から「良い」レビューを特徴づける。 0.73
2.2 Multi-Perspective Evaluation Given input paper D and meta-review Rm, our goal is to evaluate the quality of review R, which can be either manually or automatically generated. 2.2 インプットペーパーDとメタリビューRmを前提としたマルチパースペクティブ評価では,手動もしくは自動生成が可能なレビューRの品質を評価することが目的である。 0.79
We also introduce a function DEC(D) ∈ {1,−1} that indicates the final decision of a given paper reached by the meta-review: “accept” or “reject”. また、dec(d) ∈ {1,−1} という関数を導入し、メタリビューによって達成された論文の最終決定を示す: “accept” または “reject” である。
訳抜け防止モード: また、メタレビューによって到達した与えられた論文の最終決定を示す関数 DEC(D ) ∈ { 1,−1 } も紹介する。 accept ” または “recept” です。
0.79
Further, REC(R) ∈ {1, 0,−1} represents the acceptance recommendation of a particular review: “accept,” “neutral,” or “reject (see Appendix A.3 for details). さらに、REC(R) ∈ {1, 0,−1} は「受け入れ」、「中立」、「拒絶」(詳細は付録 A.3 を参照)という特定のレビューの受け入れ推奨を表す。 0.76
Below, we discuss evaluation metrics that can be used to approximate the desiderata of reviews described in the previous section. 以下に、前節で記述したレビューのデシラタを近似するために使用できる評価指標について述べる。 0.69
And we have summarized them in Tab. そして、それらをタブにまとめました。 0.59
1. 1. 0.85
英語(論文から抽出)日本語訳スコア
Desiderata Metrics デジラタ メトリクス 0.47
Range Automated Decisiveness Comprehen. 範囲自動化 決定性 Comprehen 0.59
Justification Accuracy Others 正当化 正確性 その他 0.61
RACC ACOV AREC INFO SACC ACON ROUGE BERTScore RACC ACOV AREC INFO SACC ACON ROUGE BERTScore 0.85
[-1, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [-1, 1] [-1, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [-1, 1] 0.85
No Yes Yes No No No Yes Yes はいはいはいはいはいはいはいはいはい 0.62
Table 1: Evaluation metrics from different perspectives. 表1: 異なる視点からメトリクスを評価する。 0.78
“Range” represents the range value of each metric. 範囲”は、各メトリックの範囲値を表す。 0.75
“Automated” denotes if metrics can be obtained automatically. Automated”はメトリクスを自動的に取得できるかどうかを示す。 0.66
2.2.1 D1: Decisiveness First, we tackle the decisiveness, as well as accuracy of the review’s recommendation, through Recommendation Accuracy (RACC). 2.2.1 D1:決定性 まず、推奨精度(RACC)を通して、決定性、およびレビューの推奨の正確性に取り組む。 0.81
Here we use the final decision regarding a paper and measure whether the acceptance implied by the review R is consistent with the actual accept/reject decision of the reviewed paper. ここでは、論文に関する最終決定と、レビューrが含意する受理が、レビュー論文の実際の受理/取り消し決定と一致しているかを測定する。 0.64
It is calculated as: 計算は以下の通りである。 0.57
RAcc(R) = DEC(D) × REC(R) RAcc(R) = DEC(D) × REC(R) 0.85
(1) A higher score indicates that the review more decisively and accurately makes an acceptance recommendation. (1) より高いスコアは、レビューがより決定的かつ正確に受け入れ推薦を行うことを示す。 0.75
2.2.2 D2: Comprehensiveness A comprehensive review should touch on the quality of different aspects of the paper, which we measure using a metric dubbed Aspect Coverage (ACOV). 2.2.2 D2: 包括性 包括的なレビューは、ACOV(Aspect Coverage)と呼ばれるメトリクスを用いて測定する、論文の異なる側面の質に着目すべきである。 0.68
Specifically, given a review R, aspect coverage measures how many aspects (e.g. 具体的には、レビュー R を考えると、アスペクトカバレッジはどのくらいのアスペクト(例えば)を計測する。 0.46
clarity) in a predefined aspect typology (in our case, §3.2.1) have been covered by R. 明確性) 事前定義されたアスペクトの類型論(この場合、s3.2.1) は R によってカバーされている。 0.54
In addition, we propose another metric Aspect Recall (AREC), which explicitly takes the metareview Rm into account. さらに、メタリビューRmを明示的に考慮した別のメトリクスAspect Recall(AREC)を提案する。 0.67
Because the meta-review is an authoritative summary of all the reviews for a paper, it provides an approximation of which aspects, and with which sentiment polarity, should be covered in a review. メタレビューは、論文のすべてのレビューの権威的な要約であるため、どの側面、そしてどの感情の極性がレビューでカバーされるべきかの近似を提供する。 0.65
Aspect recall counts how many aspects in meta-review Rm are covered by general review R, with higher aspect recall indicating better agreement with the meta-review.7 アスペクトリコールは、メタリビューRmのアスペクト数を一般レビューRで表し、より高いアスペクトリコールはメタリビュー7とのより良い一致を示す。
訳抜け防止モード: Aspect recalls counts many aspects in meta - review Rm are covered by general review R, より高度なアスペクトリコールは、メタレビュー.7とのより良い一致を示している。
0.69
2.2.3 D3: Justification As defined in §2.1, a good peer review should provide hints about how the author could improve problematic aspects. 2.2.3 D3: 正当化 2.1で定義されているように、優れたピアレビューは、著者が問題のある側面を改善する方法についてのヒントを提供するべきである。 0.45
For example, when reviewers comment: “this paper lacks important references”, they should also list these relevant works. 例えば、レビュアーが“この論文には重要な参照がない”とコメントする場合、関連する作品をリストアップする必要がある。 0.66
To satisfy this justification desideratum, we define a metric called Informativeness (INFO) to quantify how many negative comments8 are accompanied by corresponding evidence. この正当化の前提を満たすために、我々はInformativeness (INFO) と呼ばれる計量を定義し、対応する証拠が付随する負のコメント8の数を定量化する。 0.59
First, let nna(R) denote the number of aspects in R with negative sentiment polarity. まず、nna(R) は R における負の感情極性のある面の数を表す。 0.78
nnae(R) denotes the number of aspects with negative sentiment polarity that are supported by evidence. nnae(R) は、証拠によって支持される負の感情極性を持つ面の数を表す。 0.71
The judgement of supporting evidence is conducted manually (details in Appendix A.3). 支持証拠の判断は手動で行われます(付録A.3)。 0.71
INFO is calculated as: INFOは次のように計算される。 0.53
Info(R) = nnae(R) nna(R) Info(R) = nnae(R) nna(R) 0.85
(2) And we set it to be 1 when there are no negative (2) 負の値がない場合は1に設定します。 0.72
aspects mentioned in a review. レビューで言及された側面です 0.53
2.3 D4: Accuracy We use two measures to evaluate the accuracy of assessments. 2.3 d4: 精度は2つの尺度を用いて評価の正確性を評価する。 0.68
First, we use Summary Accuracy (SACC) to measure how well a review summarizes contributions of a paper. まず、要約精度(SACC)を用いて、レビューが論文のコントリビューションをいかにうまく要約するかを測定する。 0.63
It takes value of 0, 0.5, or 1, which evaluates the summary part of the review as incorrect/absent, partially correct, and correct. 0、0.5、または1の値を取ると、レビューの要約部分が不正確で、部分的に正しく、正しいと評価される。 0.72
The correctness judgement is performed manually, with details listed in Appendix A.3. 修正判定は手動で行うが、詳細は付録a.3に記載される。 0.66
INFO implicitly requires that negative aspects should be supported with evidence, ignoring the quality of this evidence. INFOは暗黙的に、この証拠の質を無視して、否定的な側面を証拠で支持する必要があります。
訳抜け防止モード: INFOはそれを暗黙的に要求する 否定的な側面は 証拠で支えるべきです この証拠の質を無視して
0.60
However, to truly help to improve the quality of a paper, the evidence for negative aspects should be factual as well. しかし、紙の品質を本当に向上させるためには、否定的な側面の証拠も事実であるべきです。 0.73
Here we propose Aspect-level Constructiveness (ACON), the percentage of the supporting statements nnae(R) that are judged as valid support by human annotators. 本稿では、人間のアノテーションによる有効な支援と判断される支援文nnae(R)の割合であるアスペクトレベルの構成性(ACON)を提案する。 0.70
If nnae(R) is 0, we set its ACON as 1. nnae(R) が 0 の場合、その ACON を 1 とする。 0.78
This metric will implicitly favor reviews that do not provide enough evidence for negative aspects. この指標は、否定的な側面の十分な証拠を提供していないレビューを暗黙的に好むだろう。 0.55
However, in this case, the INFO of those reviews will be rather low. しかし、この場合、それらのレビューのINFOはかなり低くなります。 0.57
The details of evaluating “validity” are also described in Appendix A.3. 評価の詳細はAppendix A.3にも記載されている。 0.76
7Notably, this metric potentially biases towards high scores for reviews that were considered in the writing of the metareview. 7特に、この指標は、メタレビューの執筆で考慮されたレビューの高いスコアに偏る可能性があります。 0.61
Therefore, higher aspect recall is not the only goal, and should be taken together with other evaluation metrics. したがって、より高いアスペクトリコールだけが目標ではなく、他の評価指標と組み合わせるべきである。 0.65
8We only consider whether the reviewer has provided enough evidence for negative opinions since we find that most human reviewers rarely provide evidence for their positive comments. 8私たちは、レビュー担当者が否定的な意見の十分な証拠を提供したかどうかのみを検討します。 0.66
英語(論文から抽出)日本語訳スコア
2.4 D5: Kindness While kindness is very important in maintaining a positive research community, accurately measuring it computationally in a nuanced setting such as peer review is non-trivial. 2.4D5:優しさ 優しさはポジティブな研究コミュニティを維持する上で非常に重要であるが、ピアレビューのような微妙な環境で正確に測定することは簡単ではない。 0.59
Thus, we leave the capturing of kindness in evaluation to future work. したがって、評価に優しさのキャプチャを将来の作業に残します。 0.65
Similarity to Human Reviews 人間レビューと類似点 0.71
2.5 For automatically generated reviews, we also use Semantic Equivalence metrics to measure the similarity between generated reviews and reference reviews. 2.5 自動生成されたレビューでは、生成したレビューと参照レビューの類似度を測定するために、セマンティック等価メトリクスを使用します。 0.60
The intuition is that while human reviewers are certainly not perfect, knowing how close our generated reviews are to existing human experts may be informative. 人間のレビュアーは完璧とは言えませんが、我々の生成したレビューが既存の人間の専門家にどれほど近いかは、有益かもしれません。 0.59
Here, we investigate two specific metrics: ROUGE (Lin and Hovy, 2003) and BERTScore (Zhang et al., 2019). ここでは、ROUGE(Lin and Hovy, 2003)とBERTScore(Zhang et al., 2019)の2つの特定のメトリクスを調査します。 0.74
The former measures the surface-level word match while the latter measures the distance in embedding space. 前者は表面レベルの単語マッチングを計測し、後者は埋め込み空間における距離を計測する。 0.69
Notably, for each source input, there are multiple reference reviews. 特に、各ソース入力には、複数の参照レビューがあります。 0.71
When aggregating ROUGE and BERTScore, we take the maximum instead of average since it is not necessary for generated reviews to be close to all references. ROUGEとBERTScoreを集約する場合、生成されたレビューがすべての参照に近くなる必要はないため、平均よりも最大値を取る。 0.73
3 Dataset Next, in this section we introduce how we construct a review dataset with more fine-grained metadata, which can be used for system training and the multiple perspective evaluation of reviews. 3データセット 次に、このセクションでは、システムトレーニングやレビューの多視点評価に使用できる、よりきめ細かいメタデータを備えたレビューデータセットの構築方法を紹介します。 0.74
3.1 Data Collection The advent of the Open Peer Review system9 makes it possible to access review data for analysis or model training/testing. 3.1 データ収集 Open Peer Review System9の出現により、分析やモデルトレーニング/テストのためのレビューデータにアクセスできるようになる。 0.77
One previous work (Kang et al., 2018) attempts to collect reviews from several prestigious publication venues including the Conference of the Association of Computational Linguistics (ACL) and the International Conference on Learning Representations (ICLR). 以前の研究(Kang et al., 2018)では、ACL(Association of Computational Linguistics)会議やICLR(International Conference on Learning Representations)など、いくつかの権威ある出版会場からのレビューを集めようとしている。 0.75
However, there were not nearly as many reviews accumulated in OpenReview at that time10 and other private reviews only accounted for a few hundred. しかし、当時openreviewに蓄積されたレビューはそれほど多くなく、他のプライベートレビューは数百に過ぎなかった。
訳抜け防止モード: しかし、当時OpenReviewに蓄積されたレビューはそれほど多くありませんでした10。 他の個人レビューは 数百件に過ぎません
0.76
Therefore we decided to collect our own dataset Aspect-enhanced Peer Review (ASAP-Review). そこで私たちは独自のデータセットAspect-enhanced Peer Review(ASAP-Review)を収集することにした。 0.55
We crawled ICLR papers from 2017-2020 through OpenReview11 and NeurIPS papers from 2017-2020 年から OpenReview11 および NeurIPS で ICLR の論文をクロールしました。 0.62
9https://openreview. net/ 10During that time, there are no reviews of ICLR from 2018 9https://openreview. net/ 10その間、2018年のICLRのレビューはない。 0.66
to 2020 nor reviews of NeurIPS from 2018 to 2019. 2018年から2019年までのNeurIPSのレビューも。 0.67
11https://openreview .net 11https://openreview .net 0.52
2016-2019 through NeurIPS Proceedings.12 For each paper’s review, we keep as much metadata information as possible. NeurIPS Proceedings.12による2016-2019各論文のレビューでは、可能な限り多くのメタデータ情報を保持します。 0.69
Specifically, for each paper, we include following metadata information that we can obtain from the review web page: 具体的には,各論文に対して,レビューwebページから得られるメタデータ情報を含む。 0.68
• Reference reviews, which are written by a •aで書かれている参考レビュー 0.65
committee member. • Meta reviews, which are commonly written by an area chair (senior committee member). 委員。 •メタレビュー、エリアチェア(上院議員委員)によって一般的に書かれています。 0.58
• Decision, which denotes a paper’s final “ac- ・紙の最終的な「ac-」を表す決定 0.67
cept” or “reject” decision. cept”あるいは“reject”決定。 0.77
• Other information like url, title, author, etc. • url、タイトル、著者などの他の情報。 0.66
We used Allenai Science-parse13 to parse the pdf of each paper and keep the structured textual information (e.g., titles, authors, section content and references). allenai science-parse13を使って各紙のpdfを解析し、構造化されたテキスト情報(タイトル、著者、セクションコンテンツ、参照など)を保持する。 0.79
The basic statistics of our ASAP-Review dataset is shown in Tab. ASAP-Reviewデータセットの基本統計をタブに示します。 0.81
2. Accept Reject Total Avg. 2. 総 Avg を拒絶します。 0.71
Full Text Length Avg. フルテキストの長さAvg。 0.61
Review Length # of Reviews # of Reviews per Paper レビュー長# of Reviews # of Reviews per Paper 0.78
ICLR NeurIPS 3,685 1,859 0 3,333 3,685 5,192 5,916 7,398 445 411 12,391 15,728 3.03 3.36 ICLR NeurIPS 3,685 1,859 0 3,333 3,685 5,192 5,916 7,398 445 411 12,391 15,728 3.03 3.36 0.51
Both 5,544 3,333 8877 6782 430 28,119 3.17 Both 5,544 3,333 8877 6782 430 28,119 3.17 0.62
Table 2: Basic statistics of ASAP-Review dataset. 表2: ASAP-Reviewデータセットの基本統計。 0.82
Note that NeurIPS only provide reviews for accepted papers to the public. NeurIPSは、受け入れられた論文のレビューのみを一般に提供することに注意してください。 0.53
3.2 Aspect-enhanced Review Dataset Although reviews exhibit internal structure, for example, as shown in Fig. 3.2 aspect-enhanced reviewデータセットは、例えば図に示すように内部構造を示している。 0.75
3, reviews commonly start with a paper summary, followed by different aspects of opinions, together with evidence. 3. レビューは一般的に、ペーパーサマリーから始まり、その後、さまざまな意見、そして証拠から始まります。 0.65
In practice, this useful structural information cannot be obtained directly. 実際には、この有用な構造情報は直接取得できません。 0.77
Considering that fine-grained information about the various aspects touched on by the review plays an essential role in review evaluation, we conduct aspect annotation of those reviews. レビューに触発されたさまざまな側面に関する詳細な情報がレビュー評価において重要な役割を果たすことを考慮し,レビューに対するアスペクトアノテーションを実施する。 0.73
To this end, we first (i) introducing an aspect typology and (ii) perform human annotation. この目的のために、まず、(i)アスペクト型を導入し、(ii)人間のアノテーションを実行します。 0.57
3.2.1 Aspect Typology and Polarity We define a typology that contains 8 aspects, which follows the ACL review guidelines14 with small 3.2.1 アスペクトタイポロジーと極性 ACLレビューガイドライン14に従った8つの側面を含むタイポロジーを定義します。 0.70
12http://papers.Neur IPS.cc 13https://github.com /allenai/science-par se 14https://acl2018.or g/downloads/acl 2018 review form. 12https://papers.Neu rIPS.cc 13https://github.com /allenai/science-par se 14https://acl2018.or g/downloads/acl 2018 レビューフォーム。 0.37
html. We manually inspected several review guidelines from ML conferenecs and found the typology in ACL review guideline both general and comprehensive. html。 ML conferenecs からいくつかのレビューガイドラインを手動で検査し,ACL レビューガイドラインに総括的,包括的,総合的に分類した。 0.72
英語(論文から抽出)日本語訳スコア
Figure 1: Data annotation pipeline. 図1: データアノテーションパイプライン。 0.69
modifications, which are Summary (SUM), Motivation/Impact (MOT) , Originality (ORI), Soundness/Correctnes s (SOU), Substance (SUB), Replicability (REP), Meaningful Comparison (CMP) and Clarity (CLA). 概要(SUM)、動機/印象(MOT)、オリジナリティ(ORI)、健全性/正確性(SOU)、物質(SUB)、再現性(REP)、意味的比較(CMP)およびクラリティ(CLA)を含む修正。 0.71
The detailed elaborations of each aspect can be found in Supplemental Material B.1. 各側面の詳細は補足材料B.1に記載されている。 0.71
Inside the parentheses are what we will refer to each aspect for brevity. 括弧の中では、それぞれの側面を簡潔に参照します。 0.58
To take into account whether the comments regarding each aspect are positive or negative, we also mark whether the comment is positive or negative for every aspect (except summary). それぞれの側面に関するコメントが肯定的か否定的であるかを考慮するために、すべての側面(要約を除く)に対して、コメントが肯定的か否定的であるかを示す。
訳抜け防止モード: 各側面に関するコメントが正か負かを考慮してください。 我々はまた コメントは、すべての側面(要約を除く)に対して肯定的または否定的です。
0.70
3.2.2 Aspect Annotation Overall, the data annotation involves four steps that are shown in Fig. 3.2.2 アスペクトアノテーション 全体として、データアノテーションは図に示す4つのステップを含む。 0.66
1. Step 1: Manual Annotation To manually annotate aspects in reviews, we first set up a data annotation platform using Doccano.15 We asked 6 students from ML/NLP backgrounds to annotate the dataset. 1. ステップ1: 手動アノテーション レビューのアスペクトを手動でアノテートするために、私たちは最初にDoccano.15を使用してデータアノテーションプラットフォームを構築しました。 0.72
We asked them to tag an appropriate text span that indicates a specific aspect. 特定の側面を示す適切なテキストスパンをタグ付けするよう求めました。 0.68
For example, “ The results are new [Positive Originality] and important to this field [Positive Motivation]”. 例えば、「結果は新しい[ポジティブオリジナリティ]であり、この分野にとって重要な[ポジティブ動機]です。 0.71
The detailed annotation guideline can be found in Supplemental Material B.1. 詳細な注釈ガイドラインはSupplemental Material B.1にある。 0.73
Each review is annotated by two annotators and the lowest pair-wise Cohen kappa is 0.653, which stands for substantial agreement. 各レビューは2つのアノテーションでアノテートされ、最も低いペアワイズCohen kappaは0.653であり、実質的な合意を意味する。 0.55
In the end, we obtained 1,000 human-annotated reviews in total. 最終的に、合計で1000件の人間の注釈付きレビューを得た。 0.58
The aspect statistics in this dataset are shown in Fig. このデータセットのアスペクト統計は図に示します。 0.73
2-(a). Step 2: Training an Aspect Tagger Since there are over 20,000 reviews in our dataset, using human labor to annotate them all is unrealistic. 2-(a)。 ステップ2: アスペクトタグをトレーニングする データセットには20,000以上のレビューがあるので、すべてに注釈をつけるのに人間の労力を使うのは非現実的です。
訳抜け防止モード: 2-(a)。 ステップ2: アスペクトタガーのトレーニング 私たちのデータセットには2万以上のレビューがあります。 人的労働力を使って 注釈を付け 非現実的です
0.68
Therefore, we use the annotated data we do have to train an aspect tagger and use it to annotate the remaining reviews. したがって、私たちはアスペクトタグガーを訓練し、残りのレビューに注釈を付けるためにそれを使用する必要がある注釈付きデータを使用します。 0.62
The basic architecture of our aspect tagger contains a pre-trained model BERT (Devlin et al., 私たちのアスペクトタグガーの基本アーキテクチャには、事前トレーニングモデルBERT(Devlin et al., )が含まれています。 0.49
15https://github.com /doccano/doccano 15https://github.com /doccano/doccano 0.36
Figure 2: (a) and (b) represent distributions over seven aspects obtained by human and BERT-based tagger respectively. 図2: (a) と (b) はそれぞれ、ヒトとBERTベースのタグガーによって得られた7つの側面の分布を表す。 0.59
Red bins represent positive sentiment while green ones suggest negative sentiment. 赤いビンはポジティブな感情を表し、緑のビンはネガティブな感情を示します。 0.49
We omit “Sum” aspect since there is no polarity definition of it. 極性の定義がないため、"Sum"の側面を省略する。 0.71
2019) and a multi-layer perceptron. 2019年)と多層パーセプトロン。 0.58
The training details can be found in Appendix A.4. トレーニングの詳細はAppendix A.4で見ることができる。 0.73
Step 3: Post-processing However, after inspecting the automatically labeled dataset, we found that there appears to be some common problems such as interleaving different aspects and inappropriate boundaries. ステップ3: 後処理しかし、自動的にラベル付けされたデータセットを検査した後、異なるアスペクトのインターリーブや不適切な境界など、いくつかの一般的な問題があることが分かりました。
訳抜け防止モード: ステップ3:ポスト - 処理 しかし、自動的にラベル付けされたデータセットを検査した後に。 異なる側面と不適切な境界を インターリーブするなど 共通の問題があることが分かりました
0.61
To address those problems, we used seven heuristic rules to refine the prediction results and they were executed sequentially. これらの問題に対処するため,7つのヒューリスティックルールを用いて予測結果を改良し,順次実行した。 0.73
The detailed heuristics can be found in Appendix A.5. 詳細なヒューリスティックはAppendix A.5で見ることができる。 0.66
An example of our model prediction after applying heuristic rules is shown in Appendix A.6. ヒューリスティックなルールを適用したモデル予測の例をAppendix A.6に示す。 0.83
Fig. 2-(b) shows the distribution of all reviews over different aspects. フィギュア。 2-(b)は、異なる側面にわたるすべてのレビューの分布を示す。 0.59
As can be seen, the relative number of different aspects and the ratio of positive to negative are very similar across human and automatic annotation. ご覧の通り、異なる側面の相対的な数と正と負の比率は、人間と自動アノテーションの間で非常によく似ている。 0.76
Step 4: Human Evaluation To evaluate the data quality of reviews’ aspects, we conduct human evaluation. ステップ4: 人間の評価 レビューの側面のデータ品質を評価するために、人間の評価を行います。
訳抜け防止モード: ステップ4: レビューの側面のデータ品質を評価するための人的評価 人間の評価を行います
0.80
Specifically, we measure both aspect precision and aspect recall for our defined 15 aspects. 具体的には、定義した15の側面についてアスペクト精度とアスペクトリコールの両方を測定します。 0.54
We randomly chose 300 samples from our automatically annotated dataset and assigned each sample to three different annotators to judge the annotation quality. 自動アノテートデータセットからランダムに300のサンプルを選択し、各サンプルを3つの異なるアノテータに割り当ててアノテーションの品質を判断しました。 0.71
As before, these annotators are all from ML/NLP backgrounds. 以前のように、これらのアノテーションはすべてML/NLPの背景です。 0.53
The detailed calculation for aspect precision and アスペクト精度の詳細な計算と評価 0.79
Step 2: Train a TaggerBERT( token1, aspect1 )……( token2, aspect2 )Step 1: Human AnnotationSUMMOTSUB… I have some concerns …This paper …Step 3: Post-processheuristi crulesStep 4: Human Evaluationmissing aspectMOTORISOUSUBRE PCMPCLA0.511.522.53·104MOTORISOUSUBREPCM PCLA2004006008001,00 01,200PositiveNegati ve(a) Human-labeled dataset. ステップ2: TaggerBERT( token1, aspects1 )......( token2, aspects2 ) Step 1: Human AnnotationSUMMOTSUB. .. I have some concerns... この論文は... ステップ3: Post-processheuristi crulesステップ4: Human Evaluationmissing aspectsMOTORISOUSUBR EPCMPCLA0.511.522.53 ·104MOTORISOUREPCMPCL A2004008001,0001,200 PositiveNegative(a) Human-labeled datasetです。 0.54
(b) Automatic-labeled dataset.MOTORISOUSUB REPCMPCLA0.511.522.5 3·104MOTORISOUSUBREPCM PCLA2004006008001,00 01,200PositiveNegati ve(a) Human-labeled dataset. b) 自動ラベルデータセットMOTORISOUSUBREPCMPCL A0.511.522.53·104MOTORISOUSUBREPCM PCLA4006008001,200Po sitiveNegative(a) 人間ラベルデータセット 0.43
(b) Automatic-labeled dataset.24681012MOTO RISOUSUBREPCMPCLA102 ·0.5MOTORISOUSUBREPCM PCLA0.511.522.53·104MOTORISOUSUBREPCM PCLA2004006008001,00 01,200PositiveNegati ve(a) Human-labeled dataset. (b) 自動ラベルデータセット.24681012MOTORISOURE PCMPCLA102·0.5MOTORISOUSUBREPCM PCLA0.511.522.53·104MOTORISOUREPCMPCL A4006008001,200Posit iveNegative(a) 人間ラベルデータセット。 0.33
(b) Automatic-labeled dataset.11.522.53(a) Human-labeled dataset. (b) 自動ラベルデータセット11.522.53(a) 人間ラベルデータセット 0.58
(b) Automatic-labeled dataset.PositiveNega tive104·MOTORISOUSUBREPCMPCL A (b) 自動ラベルデータセットPositiveNegative104・MOTORISOUSUBREPCMPCL A 0.56
英語(論文から抽出)日本語訳スコア
Aspect Summary Motivation Originality Soundness 概要 動機 起源 音 0.53
Substance Replicability Clarity 物質 再現性 明瞭さ 0.56
Comparison Polarity + – + – + – + – + – + – + – 比較 極性 + – + – + – + – + – + – + – 0.77
Precision 95% 94% 72% 95% 94% 95% 92% 90% 90% 100% 77% 97% 92% 85% 94% Precision 95% 94% 72% 95% 94% 95% 92% 90% 90% 100% 77% 97% 92% 85% 94% 0.85
Recall 100% 89% 71% 87% 80% 98% 79% 94% 78% 50% 71% 92% 73% 100% 94% Recall 100% 89% 71% 87% 80% 98% 79% 94% 78% 50% 71% 92% 73% 100% 94% 0.85
Table 3: Fine-grained aspect precision and recall for each aspect. 表3:細かなアスペクトの精度と各アスペクトのリコール。 0.63
+ denotes positive and – denotes negative. + は正、- は負を表す。 0.80
aspect recall can be found in Appendix A.7. アスペクトリコールはAppendix A.7で見ることができる。 0.58
Under these criteria, we achieved 92.75% aspect precision and 85.19% aspect recall. これらの基準の下で92.75%のアスペクト精度と85.19%のアスペクトリコールを達成した。 0.56
The fine-grained aspect precision and aspect recall for each aspect is shown in Tab. 各アスペクトのきめ細かいアスペクト精度とアスペクトリコールは、Tabで示されます。 0.53
3. The aspect recall for positive replicability is low. 3. 正の再現性に対するアスペクトリコールは低い。 0.71
This is due to the fact that there are very few mentions of positive replicability. これは、正の再現性についてはほとんど言及されていないためである。 0.49
And in our human evaluation case, the system identified one out of two, which results in 50%. 人間の評価では、システムは2つ中1つを同定し、その結果50%が得られた。 0.69
Other than that, the precision and recall are much higher.16 それ以外は 正確さとリコールが はるかに高い。 16。 0.69
Besides, one thing to mention is that our evaluation criterion is very strict, and it thus acts as a lower bound for these two metrics. さらに,評価基準が非常に厳格であるため,これら2つの指標の下位境界として機能する点にも注意が必要だ。 0.73
4 Scientific Review Generation 4 科学的レビュー生成 0.85
4.1 Task Formulation The task of scientific review generation can be conceptualized an aspect-based scientific paper summarization task but with a few important differences. 4.1 タスク定式化 科学的レビュー生成のタスクはアスペクトベースの科学論文要約タスクとして概念化できるが、いくつかの重要な違いがある。 0.60
Specifically, most current works summarize a paper (i) either from an “author view” that only use content written by the author to form a summary (Cohan et al., 2018a; Xiao and Carenini, 特に、現在のほとんどの作品は、著者によって書かれたコンテンツのみを使用して要約(Cohan et al., 2018a; Xiao and Carenini)を形成する「著者の視点」から論文をまとめています。 0.77
16The recall numbers for negative aspects are lower than positive aspects. 16負の側面のリコール数は正の側面よりも低い。 0.64
However, we argue that this will not affect the fidelity of our analysis much because (i) we observe that the imperfect recall is mostly (over 85%) caused by partial recognition of the same negative aspect in a review instead of inability to recognize at least one. しかし、これは分析の忠実性にはあまり影響しないと主張する。なぜなら(i)不完全なリコールは、少なくとも1つを認識できないのではなく、レビューで同じ否定的な側面を部分的に認識することによって引き起こされる(85%以上)ためである。 0.60
This will not affect our calculation of Aspect Coverage and Aspect Recall very much. これはアスペクトカバレッジやアスペクトリコールの計算にはあまり影響しません。 0.64
(ii) The imperfect recall will slightly pull up Aspect Score (will discuss in §5.3.1), but the trend will remain the same. (ii)不完全なリコールはアスペクトスコアをわずかに引き上げる(5.3.1で議論する)が、傾向は同じである。 0.66
Figure 3: Summarization from three different views for the paper “Attention Is All You Need” (Vaswani et al., 2017). 図3: 論文「Attention Is All You Need」(Vaswani et al., 2017)の3つの異なる視点からの要約。 0.70
Summareis from three views (author, reader, reviewer) comes from the paper’s abstract, citance (i.e., a paper that cites this paper) and peer review respectively. 3つのビュー(著者、読者、レビュアー)からのサマレーは、それぞれ論文の抽象的、暗黙的(すなわち、この論文を引用する論文)とピアレビューから来ている。 0.68
2019; Erera et al., 2019; Cohan et al., 2018a; Cachola et al., 2020b), (ii) or from a “reader view” that argues a paper’s summary should take into account the view of those in the research community (Qazvinian and Radev, 2008; Cohan and Goharian, 2017; Yasunaga et al., 2019a). 2019; Erera et al., 2019; Cohan et al., 2018a; Cachola et al., 2020b), (ii) 論文の要約を引用する"reader view"から、研究コミュニティ(Kaazvinian and Radev, 2008; Cohan and Goharian, 2017; Yasunaga et al., 2019a)の見解を考慮に入れるべきである。 0.79
In this work, we extend the view of scientific paper summarization from “author” or “reader” to “reviewer”, and claim that a good summary of a scientific paper can not only reflect the core idea but also contains critical comments from different aspects made by domain experts, which usually requires knowledge beyond the source paper itself. 本稿では,学術論文の要約を「著者」や「読み手」から「読解者」に拡張し,学術論文の優れた要約は核となるアイデアを反映するだけでなく,通常は原著論文自体以上の知識を必要とする領域の専門家による批判的なコメントも含んでいると主張する。 0.78
The advantages lie in: (i) authors: helping them identify weak points in their paper and make it stronger. i) 著者: 論文の弱点を特定し、それをより強くする手助けをする。 0.56
(ii) reviewers: relieving them from some of the burden of reviewing process. (ii)レビュー担当者:レビュープロセスの一部の負担を軽減します。 0.73
(iii) readers: helping them quickly grasp the main idea of the paper and letting them know what “domain experts” (our system) comments on the paper are. (三) 読者: 論文の主なアイデアを素早く把握し、論文に対する“ドメインエキスパート”(私たちのシステム)のコメントが何かを知るのを手助けします。 0.79
The three views of scientific paper summarization are shown in Fig. 科学論文の要約の3つの見解を図表に示す。 0.75
3. 4.2 System Design Despite the fact that our dataset contains fewer training samples compared with other benchmark summarization datasets, the few-shot learning ability of recent contextualized pre-trained models (Radford et al., 2019; Brown et al., 2020; Cachola et al., 2020a) still put training a passable review generation system from this dataset within grasp. 3. 4.2システム設計 データセットが他のベンチマーク要約データセットと比較してトレーニングサンプルが少ないにもかかわらず、最近のコンテキスト化された事前学習モデル(radford et al., 2019; brown et al., 2020; cachola et al., 2020a)の数少ない学習能力は、まだこのデータセットからパス可能なレビュー生成システムを把握している。 0.81
We use BART (Lewis et al., 2019), which is a denoising autoencoder for pretraining sequence-to- bart (lewis et al., 2019) は,シーケンスの事前学習のための自動エンコーダである。
訳抜け防止モード: BART(Lewis et al ., 2019)を使用しています。 シーケンスをプリトレーニングするためのデノイジングオートエンコーダです。
0.64
Vaswani et al. (2017) showed that not only self-attention can improve a method based on RNNs or convolutions, but also that it is su!cient for constructing a powerful model obtaining state-of-the-art performance on the machine translation task. ヴァシワニとアル。 (2017) は, 自己注意がRNNや畳み込みに基づく手法を改善できるだけでなく, 機械翻訳作業における最先端性能を得るための強力なモデルの構築にも有効であることを示した。 0.63
…… We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely ...... [Replicability] This paper presents an approach for machine translation using attention based layers …… The paper reads well and is easy to follow …… The experimental setup is clear and provides enough details for replication …… [Summary] [Clarity] Vaswani et al. 我々は,注意機構のみに基づいて,再帰と畳み込みを完全に不要にする,新たな単純なネットワークアーキテクチャであるtransformerを提案する。 [replicability] この論文では,注意に基づくレイヤを用いた機械翻訳へのアプローチについて紹介する ... 論文は読みやすく,従うのが容易である ... 実験的なセットアップは明確であり,レプリケーションのための十分な詳細を提供する。 0.74
(2017) showed that not only self-attention can improve a method based on RNNs or convolutions, but also that it is su!cient for constructing a powerful model obtaining state-of-the-art performance on the machine translation task. (2017) は, 自己注意がRNNや畳み込みに基づく手法を改善できるだけでなく, 機械翻訳作業における最先端性能を得るための強力なモデルの構築にも有効であることを示した。 0.76
Author View…… We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely ...... 著者の見解...我々は新しい単純なネットワークアーキテクチャであるtransformerを提案し、注意のメカニズムのみに基づいて、再帰と畳み込みを完全に不要にする。 0.59
Reader ViewAccept(cid:4)(ci d:8)(cid:9)(cid:8)(c id:13)(cid:8)(cid:11 )(cid:6)(cid:8)(cid: 2)(cid:5)(cid:13)(ci d:8)(cid:15)(cid:10) (cid:8)(cid:16)(cid: 3)(cid:5)(cid:12)(ci d:8)(cid:13)(cid:2)( cid:8)(cid:14)(cid:5 )(cid:13)(cid:8)(cid :15)(cid:10)(cid:8)( cid:16)(cid:1)(cid:8 )(cid:11)(cid:8)(cid :13)(cid:5)(cid:14)( cid:8)(cid:7)(cid:13 )(cid:8)(cid:15)(cid :10)(cid:8)(cid:16)1 234(cid:2)(cid:3)(ci d:2)(cid:4)(cid:1)De coderMLP1MLP2Encoder TheCLApaperreadswell CLACLACLAWe proposea new ….Reviewer ViewThe experimental setup is clear and provides enough details for replication …… This paper presents an approach for machine translation using attention based layers …… The paper reads well and is easy to follow …… [Summary] [Clarity] [Replicability] Intro.CEAbs.+CEOracleReferenceAut hor ViewReader ViewReviewer View Reader ViewAccept(cid:4)(ci d:8)(cid:9)(cid:8)(c id:13)(cid:8)(cid:11 )(cid:6)(cid:8)(cid: 2)(cid:5)(cid:13)(ci d:8)(cid:15)(cid:10) (cid:8)(cid:16)(cid: 3)(cid:5)(cid:12)(ci d:8)(cid:13)(cid:2)( cid:8)(cid:14)(cid:5 )(cid:13)(cid:8)(cid :15)(cid:10)(cid:8)( cid:16)(cid:1)(cid:8 )(cid:11)(cid:8)(cid :13)(cid:5)(cid:14)( cid:8)(cid:7)(cid:13 )(cid:8)(cid:15)(cid :10)(cid:8)(cid:16)1 234(cid:2)(cid:3)(ci d:2)(cid:4)(cid:1)De coderMLP1MLP2Encoder TheCLApaperreadswell CLACLACLAWe proposea new ….Reviewer ViewThe experimental setup is clear and provides enough details for replication …… This paper presents an approach for machine translation using attention based layers …… The paper reads well and is easy to follow …… [Summary] [Clarity] [Replicability] Intro.CEAbs.+CEOracleReferenceAut hor ViewReader ViewReviewer View 0.73
英語(論文から抽出)日本語訳スコア
tion to when they are writing reviews. 彼らがレビューを書いているときの条件。 0.60
The selected sentence position distribution in oracles is shown in Fig. オラクルで選択された文の位置分布を図に示します。 0.64
4. Section-based Extraction Scientific papers are highly structured. 4. セクションベースの抽出科学論文は高度に構造化されている。 0.66
As a convention, a scientific paper usually describes problem background, related work comparison, as well as its own contributions in the introduction part. 慣例として、科学論文は、通常、問題背景、関連する作業比較、および導入部分への自身の貢献を記述している。 0.67
Regarding this method, we only use the introduction section, which can be regarded as a baseline model. この方法については、ベースラインモデルとみなすことができる導入セクションのみを使用します。 0.65
Cross-entropy (CE) Method Extraction Here we select salient sentences from the full text range. クロスエントロピー (CE) メソッド抽出 ここでは、全文範囲から主文を選択します。 0.65
The way we do so is through a two-step selection process: 私たちのやり方は、以下の2段階の選択プロセスです。 0.74
1. Select sentences containing certain informative keywords (e.g. 1. 特定の情報キーワードを含む文章を選択する(例)。 0.73
propose) which are detailed in Appendix A.9. 提案) Appendix A.9で詳述されている。 0.69
Those selected sentences form a set S. 2. これらの選択文は集合 S.2 を形成する。 0.64
Select a subset S(cid:48) ⊆ S such that sentences in S(cid:48) cover diverse content and satisfy a length constraint. S(cid:48)の文が多様な内容を含み、長さ制約を満たすような部分集合 S(cid:48) = S を選択する。 0.71
In the second step, we use the cross-entropy method introduced in Feigenblat et al. 2番目のステップでは、Feigenblat et alで導入されたクロスエントロピー法を用いる。 0.62
(2017) where we select diverse content by maximizing unigram entropy. (2017)ユニグラムエントロピーを最大化することで多様なコンテンツを選択する。 0.63
The details of this two-step process can be found in Appendix A.9. この2段階のプロセスの詳細は appendix a.9 にある。 0.79
The selected sentence position distribution using this method is shown in Fig. この方法で選択された文位置分布を図に示します。 0.79
4. We can see that the extractor tends to select sentences from the beginning of a paper as well as the ending part of a paper just as the oracle extractor does. 4. 抽出器は, 紙の冒頭から文を抽出する傾向があり, 紙の終端部分もオラクル抽出器と同じように選択する傾向にある。 0.74
This makes sense because the beginning part is the introduction part which talks about the essence of the whole paper and the ending part mostly contains the analysis of experimental results and conclusions etc. これは、開始部が論文全体の本質を語る導入部であり、終了部が主として実験結果や結論などの分析を含んでいることから、理にかなっている。 0.74
Hybrid Extraction We combine the abstract of a paper and its CE extraction to form a hybrid of both. ハイブリッド抽出 論文の抽象とCE抽出を組み合わせて、両方のハイブリッドを形成します。 0.64
4.2.2 Aspect-aware Summarization Typically in the extract-then-generat e paradigm, we can just use the extractions directly and build a sequence-to-sequence model to generate text. 4.2.2 aspect-aware summarization 通常、extract-then-generat eパラダイムでは、抽出を直接使用して、テキストを生成するシーケンス-シーケンスモデルを構築するだけでよい。 0.60
Here, in order to generate reviews with more diverse aspects and to make it possible to interpret the generated reviews through the lens of their internal structure, we make a step towards a generation framework involving extract-then-generat e-and-predict. ここでは,より多様な視点でレビューを生成し,その内部構造のレンズを通して生成したレビューを解釈できるようにするため,抽出・生成・予測を含む生成フレームワークへの一歩を踏み出す。 0.81
Figure 4: Selected sentence position distribution. 図4: 選択された文位置分布。 0.74
We use the relative position of each sentence with regard to the whole article, thus taking values from 0 to 1. 各文の相対的な位置を記事全体に対して用い,0から1までの値を取る。
訳抜け防止モード: 記事全体については、各文の相対位置を使用します。 したがって 0 から 1 までの値を取ります。
0.74
sequence models, as our pre-trained model since it has shown superior performance on multiple generation tasks. シーケンスモデルは、複数の世代タスクにおいて優れたパフォーマンスを示しており、事前訓練されたモデルである。
訳抜け防止モード: シークエンスモデル 事前訓練されたモデルとして 複数の世代にまたがって 優れたパフォーマンスを示しています
0.70
However, even if we can take the advantage of this pre-trained model, how to deal with lengthy text in the context of using a pre-trained model (BART, for example, has a standard length limit of 1024 since it was pre-trained on texts of this size) remains challenging. しかし、この事前学習モデルの利点を生かしても、事前学習されたモデル(例えば、bartは、このサイズのテキストで事前訓練されたので、標準的な長さ制限が1024である)を使用する文脈で、長いテキストをどう扱うかは、依然として困難である。
訳抜け防止モード: しかし、もしこの事前訓練されたモデルの利点を享受できたとしても。 文脈における長文の扱い方 事前訓練されたモデル(例えばBART)を使用する このサイズのテキストでトレーニングされているので、標準の長さ制限は1024です。
0.79
After multiple trials, we opted for a two-stage method detailed below, and describe other explorations that were less effective in Appendix A.8. 複数の試行を経て、以下の2段階の手法を選択し、Appendix A.8では効果の低い他の探査法について説明した。 0.63
4.2.1 Two-stage Systems for Long Documents Instead of regarding text generation as a holistic process, we decompose it into two steps, using an extract-then-generat e paradigm (Chen and Bansal, 2018; Gehrmann et al., 2018; Subramanian et al., 2019; Dou et al., 2020). 4.2.1 長い文書のための2段階システム テキスト生成を全体的プロセスとして扱う代わりに、抽出生成パラダイム(Chen and Bansal, 2018; Gehrmann et al., 2018; Subramanian et al., 2019; Dou et al., 2020)を使用して、それを2つのステップに分解する。 0.80
Specifically, we first perform content selection, extracting salient text pieces from source documents (papers), then generate summaries based on these extracted texts. 具体的には、まずコンテンツ選択を行い、ソース文書(紙)から有能なテキストを抽出し、抽出したテキストに基づいて要約を生成する。 0.70
To search for an effective way to select content that is most useful for constructing a review generation system, we operationalize the first extraction step in several ways. レビュー生成システム構築に最も有用なコンテンツを選択する効果的な方法を探すために,第1の抽出ステップをいくつかの方法で運用する。 0.84
One thing to notice is that the extraction methods we use here mainly focus on heuristics. ここで使う抽出方法は、主にヒューリスティックに焦点を合わせています。
訳抜け防止モード: 一つ気付くのは ここで使用する抽出方法は,主にヒューリスティックに焦点をあてる。
0.70
We leave more complicated selection methods for future work. 今後の作業のためにもっと複雑な選択方法を残します。 0.61
Oracle Extraction First, for comparison purposes, we construct an oracle for each paper which is the extraction that achieves highest average ROUGE scores with respect to reference reviews, specifically using the greedy method described in Nallapati et al. Oracle extract First, for comparison purpose, we construct an oracle for each paper which is a extract that achieve the highest average ROUGE scores on reference review, specifically using the greedy method described in Nallapati et al。 0.77
(2017). Note that for each paper with multiple reviews, we construct multiple oracles for that paper. (2017). 複数のレビューを持つ各論文について、我々はその論文のための複数のオラクルを構築することに注意してください。 0.65
We assume that oracle extractions can reflect where reviewers pay more atten- 私たちは、オラクル抽出がレビュアーがより注意を払う場所を反映できると仮定します。 0.42
0.00.20.40.60.81.0Se lected Sentence Position0.70.80.91.0 1.11.21.3DensityOrac leCE method 0.00.20.40.60.81.0Se lected Sentence Position0.70.80.91.0 1.11.21.21.3DensityO racleCE method 0.16
英語(論文から抽出)日本語訳スコア
Specifically, instead of existing aspect-based summarization works that explicitly take aspects as input (Angelidis and Lapata, 2018; Frermann and Klementiev, 2019; Hayashi et al., 2020), we use our annotated aspects (§3.2) as additional information, and design an auxiliary task that aims to predict aspects of generated texts (reviews). 具体的には、アスペクトを入力として明示的に取り込む既存のアスペクトベースの要約作業(Angelidis and Lapata, 2018; Frermann and Klementiev, 2019; Hayashi et al., 2020)の代わりに、アノテーション付きアスペクトを付加情報として使用し、生成されたテキスト(レビュー)のアスペクトを予測するための補助タスクを設計します。 0.62
Fig. 5 illustrates the general idea of this. フィギュア。 5が一般的な考え方を示しています。 0.50
(without Appendix) as source document.17 And we filtered papers with full text fewer than 100 words since they don’t contain enough information for models to learn. Appendixを使用せずに) ソースドキュメント.17 そして、モデルを学習するための十分な情報を持っていないため、フルテキストの論文を100語未満でフィルタリングしました。 0.69
For reviews, we only use 100-1024 word reviews 18 for training due to computational efficiency, which account for 92.57% of all the reviews. レビューには、計算効率のためにトレーニングに100~1024ワードレビュー18のみを使用し、レビュー全体の92.57%を占めています。 0.72
This results in 8,742 unique papers and 25,986 paper-review pairs in total, the split of our dataset is shown in Tab. その結果、8,742のユニークな論文と25,986のペーパーレビューペアが合計され、データセットの分割がタブに表示されます。 0.63
4. Figure 5: Aspect-aware summarization. 4. 図5:アスペクト対応の要約。 0.75
The loss of this model is shown in Eq. このモデルの損失はEqで示されています。 0.79
3 L = Lseq2seq + αLseqlab 3 L = Lseq2seq + αLseqlab 0.82
(3) where Lseq2seq denotes sequence to sequence loss which is the negative log likelihood of the correct next tokens, and Lseqlab denotes sequence labeling loss which is the negative log likelihood of the correct labels of next tokens. (3) Lseq2seq が正しい次のトークンの負のログ確率であるシーケンス損失を表す場合、Lseqlab は次のトークンの正のラベルの負のログ確率であるシーケンスラベル損失を表す。 0.74
α is a hyper-parameter (α = 0.1) that is tuned to maximize aspect coverage on the development set. αはハイパーパラメータ(α = 0.1)であり、開発セットのアスペクトカバレッジを最大化するために調整される。 0.73
5 Experiment In this section, we investigate using our proposed review generation systems with state-of-the-art pre-trained models, to what extent can we realize desiderata of reviews that we defined in §2.2. 5 実験 本稿では,最先端の事前学習モデルを用いたレビュー生成システムを用いて,我々が定義したレビューのデシラタをどの程度実現できるかを検討する。 0.71
We approach this goal by two concrete questions: (1) What are review generation systems (not) good at? 我々は,(1)レビュー生成システムとは何か,という2つの具体的な質問によって,この目標にアプローチする。 0.68
(2) Will systems generate biased reviews? 2) システムはバイアスドレビューを生成するか? 0.80
5.1 Settings Here we consider three extraction strategies in §4.2.1 as well as two generation frameworks, one is the vanilla sequence to sequence model, the other is jointly sequence to sequence and sequence labeling. 5.1 設定 ここでは、4.2.1 の 3 つの抽出戦略と 2 つの世代フレームワークを検討します。1 つはシーケンスモデルへのバニラシーケンス、もう 1 つはシーケンスとシーケンスラベリングへの共同シーケンスです。
訳抜け防止モード: 5.1 設定 ここでは,2 世代フレームワークに加えて,4.2.1 の抽出戦略を3 つ検討する。 1つはバニラ・シークエンスからシークエンス・モデルです もう一つは シーケンスとシーケンスの 共同配列です
0.71
Dataset We dataset ASAP-Review described in §3 to conduct experiments. データセット ASAP-Review は、実験を行うための 3 で説明します。 0.55
For each paper, we use full text 各紙にはフルテキストを使用します 0.77
constructed use our Unique papers Paper-review pairs 建設 利用 私達 独特なペーパーレビューペア 0.68
Train 6,993 20,757 6,993,757系電車 0.48
Validation 874 2,571 検証 874 2,571 0.69
Test 875 2,658 試験 875,658 0.82
Table 4: Data split of ASAP-Review. 表4:ASAP-Reviewのデータ分割。 0.81
Model As mentioned in §4.2, the pre-trained sequence-to-sequence model we used is BART. モデル 4.2で述べたように、私たちが使用する事前訓練されたシーケンス間シーケンスモデルはBARTです。 0.50
For all models, we initialized the model weights using the checkpoint: “bart-large-cnn” which is pre-trained on “CNN/DM” dataset (Hermann et al., 2015).19 For extract-then-generat e-and-predict framework, we add another multilayer perceptron on top of the BART decoder, and initialize it with 0.0 mean and 0.02 standard deviation. すべてのモデルについて、チェックポイントを用いてモデルウェイトを初期化した: “CNN/DM”データセット(Hermann et al., 2015)で事前トレーニングされた"bart-large-cnn"19 抽出-then-generate-and-p redictフレームワークでは、BARTデコーダの上に別の多層パーセプトロンを追加し、0.0平均と0.02標準偏差で初期化する。 0.65
We use the Adam optimizer(Kingma and Ba, 2014) with a linear learning rate scheduler which increases the learning rate linearly from 0 to 4e−5 in the first 10% steps (the warmup period) and then decreases the learning rate linearly to 0 throughout the rest of training steps. 我々はAdam Optimizationr(Kingma and Ba, 2014)を線形学習率スケジューラで使用し、最初の10%ステップ(ウォームアップ期間)で0から4e−5に線形に学習率を上昇させ、残りのトレーニングステップで0に線形に学習率を減少させる。 0.83
We finetuned our models on the whole dataset for 5 epochs. データセット全体のモデルを5エポックで微調整しました。 0.66
We set a checkpoint at the end of every epoch and finally took the one with the lowest validation loss. 私たちはすべてのエポックの最後にチェックポイントを設定し、最後に検証損失が最も低いものを取りました。 0.70
During generation, we used beam search decoding with beam size 4. 生成中は,ビームサイズ4のビームサーチデコーディングを用いた。 0.79
Similarly to training time, we set a minimum length of 100 and a maximum length of 1024. トレーニング時間と同様に、最小長が100、最大長が1024と設定しました。 0.69
A length penalty of 2.0 and trigram blocking (Paulus et al., 2017) were used as well. 長さ2.0のペナルティとトリグラムブロック(Paulus et al., 2017)も使用された。 0.75
5.2 What are Systems Good and Bad at? 5.2 システムの良い点と悪い点 0.75
Based on the evaluation metrics we defined in §2.2, we conduct both automatic evaluation and human evaluation to characterize both reference reviews and generated reviews, aiming to analyze what subtasks of review generation automatic systems can 2.2で定義した評価基準に基づき、レビュー生成自動システムのサブタスクを解析することを目的として、自動評価と人的評価の両方を行い、参照レビューと生成されたレビューの両方を特徴付ける。 0.73
17If a paper has more than 250 sentences, we truncate it and 17 論文が250文以上ある場合は、それを切り捨てる。 0.67
take the first 250 sentences when we do the extraction step. 抽出ステップを行うと、最初の250文を取ります。 0.70
18As measured by BART’s subword tokenizer. BARTのサブワードトークンーによって測定された18A。 0.67
19We also tried “bart-large-xsum” checkpoint which is pre-trained on “XSUM dataset (Narayan et al., 2018)”, however that results in much shorter reviews, and sentences in it tend to be succinct. また、「XSUMデータセット(Narayan et al., 2018)」で事前学習された「Bart-large-xsum」チェックポイントも試行しましたが、その結果、レビューがはるかに短くなり、文章が簡潔になりがちです。 0.62
MLP1MLP2EncoderTheCL ApaperreadswellCLACL ACLAWe proposea new ….MOTORISOUSUBREPCMPC LA2004006008001,0001 ,200(cid:4)(cid:8)(c id:9)(cid:8)(cid:13) (cid:8)(cid:11)(cid: 6)(cid:8)(cid:2)(cid :5)(cid:13)(cid:8)(c id:15)(cid:10)(cid:8 )(cid:16)(cid:3)(cid :5)(cid:12)(cid:8)(c id:13)(cid:2)(cid:8) (cid:14)(cid:5)(cid: 13)(cid:8)(cid:15)(c id:10)(cid:8)(cid:16 )(cid:1)(cid:8)(cid: 11)(cid:8)(cid:13)(c id:5)(cid:14)(cid:8) (cid:7)(cid:13)(cid: 8)(cid:15)(cid:10)(c id:8)(cid:16)1234(ci d:2)(cid:3)(cid:2)(c id:4)(cid:1)Vaswani et al. MLP1MLP2EncoderTheCL ApaperreadswellCLACL ACLAWe proposea new ….MOTORISOUSUBREPCMPC LA2004006008001,0001 ,200(cid:4)(cid:8)(c id:9)(cid:8)(cid:13) (cid:8)(cid:11)(cid: 6)(cid:8)(cid:2)(cid :5)(cid:13)(cid:8)(c id:15)(cid:10)(cid:8 )(cid:16)(cid:3)(cid :5)(cid:12)(cid:8)(c id:13)(cid:2)(cid:8) (cid:14)(cid:5)(cid: 13)(cid:8)(cid:15)(c id:10)(cid:8)(cid:16 )(cid:1)(cid:8)(cid: 11)(cid:8)(cid:13)(c id:5)(cid:14)(cid:8) (cid:7)(cid:13)(cid: 8)(cid:15)(cid:10)(c id:8)(cid:16)1234(ci d:2)(cid:3)(cid:2)(c id:4)(cid:1)Vaswani et al. 0.66
(2017) showed that not only self-attention can improve a method based on RNNs or convolutions, but also that it is su!cient for constructing a powerful model obtaining state-of-the-art performance on the machine translation task. (2017) は, 自己注意がRNNや畳み込みに基づく手法を改善できるだけでなく, 機械翻訳作業における最先端性能を得るための強力なモデルの構築にも有効であることを示した。 0.76
…… We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely ...... [Replicability] This paper presents an approach for machine translation using attention based layers …… The paper reads well and is easy to follow …… The experimental setup is clear and provides enough details for replication …… [Summary] [Clarity] Author ViewReader ViewReviewer ViewCLAwellDecoderML P1MLP2EncoderWe proposea new ….ThepaperreadsCLACLA CLADecoderIntro.CEAb s.+CEOracleReference …… We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely ...... [Replicability] This paper presents an approach for machine translation using attention based layers …… The paper reads well and is easy to follow …… The experimental setup is clear and provides enough details for replication …… [Summary] [Clarity] Author ViewReader ViewReviewer ViewCLAwellDecoderML P1MLP2EncoderWe proposea new ….ThepaperreadsCLACLA CLADecoderIntro.CEAb s.+CEOracleReference 0.85
英語(論文から抽出)日本語訳スコア
Desiderata Metric Desiderataメトリクス 0.67
HUMAN Decisive. RACC 人間 決定的。 RACC 0.69
Comprehen. ACOV AREC Comprehen ACOV AREC 0.65
30.32 49.85 30.32 49.85 0.59
58.66 Justification Accuracy 58.66 正当化 正確性 0.60
Others INFO 97.97 その他 INFO 97.97 0.69
ACON SACC R-1 ACON SACC R-1 0.76
R-2 R-L 75.67 R-2 R-L 75.67 0.59
90.77 – – – 90.77 – – – 0.78
BS – INTRO CE ABSCE BS – INRO CE ABSCE 0.83
INTRO CE ABSCE INTRO CE ABSCE 0.85
Aspect × √ × √ × √ 展望 × √ × √ × √ 0.70
EXTRACTIVE – – – – – – 抜粋 – – – – – – 0.70
– – – – – – – – – – – – 0.85
– – – – – – – – – – – – 0.85
38.62 38.56 37.55 38.62 38.56 37.55 0.47
8.84 7.81 8.53 8.84 7.81 8.53 0.47
25.11 25.94 25.85 25.11 25.94 25.85 0.47
29.22 29.11 31.99 29.22 29.11 31.99 0.47
EXTRACTIVE+ABSTRACTIVE -15.38† -11.54† -23.08† -30.77† -30.77† -38.46† 抽出性+吸収性 -15.38† -11.54† -23.08† -30.77† -30.77† -38.46† 0.23
50.37 51.50 62.64† 63.96† 55.37† 56.91† 50.37 51.50 62.64† 63.96† 55.37† 56.91† 0.36
55.52† 58.24 55.52† 58.24 0.44
60.73 61.62† 58.31 57.56 60.73 61.62† 58.31 57.56 0.42
100.00† 99.29 100.00† 99.29 0.44
99.29 100.00† 98.21 98.21 99.29 100.00† 98.21 98.21 0.42
43.78† 32.51† 39.17† 34.46† 34.75† 35.21† 43.78† 32.51† 39.17† 34.46† 34.75† 35.21† 0.33
83.93 80.36† 78.57† 69.64† 92.86 87.50 83.93 80.36† 78.57† 69.64† 92.86 87.50 0.37
41.39 41.31 41.39 41.31 0.50
42.37 42.27 42.37 42.27 0.50
43.11 42.99 43.11 42.99 0.50
11.53 11.41 11.53 11.41 0.50
11.72 11.62 11.72 11.62 0.50
12.24 12.19 12.24 12.19 0.50
38.52 38.38 38.52 38.38 0.50
39.86 39.73 39.86 39.73 0.50
40.18 40.12 40.18 40.12 0.50
42.29 42.33 42.29 42.33 0.50
41.78 41.71 41.78 41.71 0.50
42.90 42.63 42.90 42.63 0.50
Table 5: Results of the baseline models as well as different aspect-enhanced models under diverse automated evaluation metrics. 表5: さまざまな自動評価指標の下で、ベースラインモデルと異なるアスペクト強化モデルの結果。 0.80
“BS” represents BERTScore. bs”はbertscoreを表す。 0.57
† denotes that the difference between system generated reviews and human reviews are statistically significant (p-value < 0.05 using 10,000 paired bootstrap resampling (Efron, 1992) tests with 0.8 sample ratio). システム生成レビューと人的レビューの違いは統計的に有意である(p-value < 0.05 using 10,000 paired bootstrap resampling (Efron, 1992) test with 0.8 sample ratio)。 0.79
do passably at, and also where they fail. 故意に失敗し、失敗もします。 0.40
The aspect information in each review is obtained using aspect tagger we trained in §3.2. それぞれのレビューのアスペクト情報は、3.2でトレーニングしたアスペクトタグを使って得られる。 0.53
Automatic Evaluation Automatic evaluation metrics include Aspect Coverage (ACOV), Aspect Recall (AREC) and Semantic Equivalence (ROUGE, BERTScore). 自動評価自動評価メトリクスには、アスペクトカバレッジ(acov)、アスペクトリコール(arec)、セマンティック等価(rouge、bertscore)が含まれる。 0.73
Notably, for each source input, there are multiple reference reviews. 特に、各ソース入力には、複数の参照レビューがあります。 0.71
When aggregating ROUGE and BERTScore20, we take the maximum instead of average. ROUGE と BERTScore20 を集計する場合、平均ではなく最大値を取ります。 0.70
And when aggregating other metrics for human reviews, we take the average for each source document. また、ヒューマンレビューのために他のメトリクスを集約する場合、ソースドキュメントごとに平均値を取る。 0.65
The results are shown in Tab. 結果はタブに表示されます。 0.78
5. Human Evaluation Metrics that require human labor include Recommendation Accuracy (RACC), Informativeness (INFO), Aspect-level Constructiveness (ACON) and Summary Accuracy (SACC). 5. ヒトの労働力を必要とする人間評価指標には、推奨精度(RACC)、情報性(INFO)、アスペクトレベルの構成性(ACON)、要約精度(SACC)が含まれます。
訳抜け防止モード: 5. 人的労働を必要とする人的評価基準には、勧告精度(RACC)がある。 Informativeness (INFO), Aspect-level Constructiveness (ACON) および概要精度 (SACC )。
0.79
We select 28 papers from ML/NLP/CV/RL domains. ML/NLP/CV/RLドメインから28論文を選定。 0.55
None of these papers are in the training set. これらの書類はどれもトレーニングセットに入っていません。 0.58
Details regarding human judgment are shown in Appendix A.3. 人間の判断に関する詳細は付録A.3に示されている。 0.58
The evaluation results are shown in Tab. 評価結果はタブで示されます。 0.79
5. Overall, we make the following observations: 5. 全体として、以下の観察を行う。 0.75
5.2.1 Weaknesses Review generation system will generate nonfactual statements for many aspects of the paper 5.2.1 弱点レビュー生成システムは、論文の多くの側面において非現実的記述を生成する。 0.56
20We have used our own custom baseline to rescale 20回も独自のベースラインを使って 0.58
BERTScore, details can be found in Appendix A.3. BERTScoreの詳細はAppendix A.3で確認できる。 0.87
assessment, which is a serious flaw in a high-stakes setting. 評価は、高い評価条件の深刻な欠陥である。 0.53
Lacking High-level Understanding Specifically, when using metrics that require higher level understanding of the source paper like Recommendation Accuracy and Aspect-level Constructiveness, proposed systems achieved much lower performance, with even the smallest gaps between systems and humans being 41.86% for Recommendation Accuracy and 31.89% for Aspect-level Constructiveness compared to reference reviews. 特に、Recommendation AccuracyやAspect-level Constructivenessのようなソースペーパーのより高いレベルの理解を必要とするメトリクスを使用する場合、システムと人間の間の最小のギャップはRecommendation Accuracyでは41.86%、Aspect-level Constructivenessでは31.89%と、はるかに低いパフォーマンスを達成した。 0.78
This means our systems cannot precisely distinguish high-quality papers from low-quality papers and the evidence for negative aspects is not reliable most of the time.21 つまり、我々のシステムは高品質の論文と低品質の論文を正確に区別することができず、ネガティブな側面の証拠はたいていの場合信頼できない。 0.62
Imitating Style After careful inspection, we find that some of sentences will appear frequently in different generated results. Imitating Style 注意深い検査の結果、いくつかの文が生成された結果に頻繁に現れることが判明した。 0.57
For example, the sentence “The paper is well-written and easy to follow” appears in more than 90% of generated reviews due to the fact that in the training data, this exact sentence appears in more than 10% of papers. 例えば、”the paper is well-written and easy to follow”という文は、トレーニングデータにこの正確な文が10%以上の論文に現れるという事実から、生成したレビューの90%以上に現れる。 0.75
This suggests that the style of generated reviews tend to be influenced これは、生成されたレビューのスタイルが影響される傾向があることを示唆する。 0.50
21Although there exist varying degrees of performance differences on RACC and ACon for different systems, we only find one pair of systems perform statistically different on ACon. 21異なるシステムに対してRACCとAConのパフォーマンスの違いは様々ですが、AConで統計的に異なるのは1対のシステムのみです。 0.71
英語(論文から抽出)日本語訳スコア
by high-frequency sentence patterns in training samples. トレーニングサンプルの高頻度文パターンによる。 0.69
Lack of Questioning Generated reviews ask few questions about the paper content, which is an important component in peer reviewing. 質問の欠如 生成されたレビューは、査読において重要な要素である論文の内容についてほとんど質問しない。 0.65
In the reference reviews, the average number of questions per review is 2.04, while it is only 0.32 in generated reviews. 参照レビューでは、レビュー毎の平均質問数は2.04で、生成されたレビューでは0.32である。 0.78
5.2.2 Advantages We find that review generation systems can often precisely summarize the core idea of the input paper, and generate reviews that cover more aspects of the paper’s quality than those created by human reviewers. 5.2.2 アドバンテージ レビュー生成システムは、しばしば、入力紙の中核的な考え方を正確に要約し、人間のレビュアーによって作成されたものよりも多くの面をカバーするレビューを生成することができる。 0.68
Systems with aspect information are also aspect-aware and evidence sensitive as we will discuss below. アスペクト情報を持つシステムは、以下に述べるようにアスペクト認識および証拠に敏感である。 0.54
Comprehensiveness In terms of Aspect Coverage and Informativeness, our systems can outperform human reviewers by at most 14.11% and 2.03% respectively, suggesting that even reviews from the reviewers may also fall short on our defined criterion regarding comprehensiveness. 包括性(Comprehensiveness) 包括性(Aspect Coverage) と非形式性(Informativeness) の観点から見ると、我々のシステムは人間レビュアーをそれぞれ14.11%、2.03%上回ることができる。 0.56
Good Summarization Current systems can correctly summarize the contributions of papers most of the time as shown by Summary Accuracy. 良質な要約カレントシステムは、要約精度で示されるように、ほとんどの場合、論文の貢献を正しく要約することができる。 0.59
4 out of 6 systems can achieve over 80% accuracy and statistical significance tests show that gaps between top-3 systems and human reviewers are not significant. 6つのシステムのうち4つは80%以上の精度を達成でき、統計的に有意なテストはトップ3システムと人間レビュアーのギャップが重要でないことを示している。 0.56
This means that in terms of summarizing the paper content, current systems can achieve comparable performance to human reviewers. つまり、論文内容を要約すると、現在のシステムは人間のレビュアーに匹敵する性能を達成できる。 0.67
5.2.3 System Comparisons We also look into how systems with different settings are diverse in performance and make the following observations. 5.2.3システムの比較 異なる設定のシステムがパフォーマンスにおいてどのように多様なかを調べ、以下の観察を行う。 0.73
Summarization Paradigms By looking at ROUGE (R) and BERTScore (BS), we can see that “extractive + abstractive”-based methods can consistently outperform pure extractive methods, with the smallest gaps of 2.69, 2.57, 12.44, 9.72 for R-1, R-1, R-L and BS respectively. 要約パラダイム ROUGE (R) と BERTScore (BS) を見れば,R-1, R-1, R-L, BS の最小ギャップ 2.69, 2.57, 12.44, 9.72 で, “extractive + abstractive” ベースのメソッドが一貫して純粋な抽出方法より優れていることが分かる。 0.80
This demonstrates the necessity of using abstractive summarization which can generate reviews that are close both in meaning as well as language use to human reviews. これは、人間のレビューに言語の使用だけでなく意味が近いレビューを生成することができる抽象的な要約を使用する必要性を示しています。 0.61
Extraction Strategies We can see that it is more effective to use extracted text from the full paper 抽出戦略 フルペーパーから抽出したテキストを使用することがより効果的であることが分かる。 0.72
to aid the generation process, resulting in higher aspect coverage compared with solely using introduction information. 生成プロセスを支援するため、導入情報のみを使用した場合に比べてアスペクトカバレッジが高くなります。 0.52
This is reasonable since models can obtain more diverse input from the full text. モデルが全文からより多様な入力を得ることができるため、これは合理的です。 0.60
System Diagnosis Our fine-grained evaluation metrics enable us to compare different systems and interpret their relative merits. システム診断 きめ細かい評価指標により、異なるシステムを比較し、相対的なメリットを解釈できます。 0.73
For example, as discussed before, our systems can achieve higher Informativeness than reference reviews while suffering from much lower Aspect-level Constructiveness. 例えば、前述したように、私たちのシステムは、参照レビューよりも高いインフォマティブ性を達成できます。 0.56
This means that if we want our systems to match the performance of real reviewers, we should focus on improving the constructiveness of our systems instead of aiming for methods that provide better evidence for negative aspects (which are not factually correct most of the time in the first place). これは、システムが実際のレビュアーのパフォーマンスに一致させたいのであれば、負の側面のより良い証拠を提供する方法を目指すのではなく、システムの建設性の改善に焦点を合わせるべきであることを意味します(実際にはほとんどの場合正しいわけではありません)。 0.64
5.2.4 Case Study To get an intuitive understanding of how aspectenhanced review generation system worked, we perform analysis on a real case. 5.2.4 ケーススタディ アスペクトエンハンスなレビュー生成システムがどのように機能するかを直感的に理解するために、実ケースで分析を行う。
訳抜け防止モード: 5.2.4 ケーススタディ アスペクト化レビュー生成システムの動作を直感的に理解するため。 実際のケースで分析を行います。
0.69
(More analysis can be found in Appendix A.10.) (付録A.10に詳細分析がある) 0.56
Specifically, since our aspect-enhanced model is trained based on multitask learning framework, it would be interesting to see how well the tokens are generated associated with corresponding aspects. 具体的には、アスペクト強化モデルはマルチタスク学習フレームワークに基づいて訓練されているので、トークンが対応するアスペクトにどのように関連付けられているかが興味深い。 0.60
We take our aspectenhanced model using CE extraction to conduct this experiment. 我々は,CE抽出を用いたアスペクトエンハンスモデルを用いて実験を行った。 0.61
Tab. 6 shows an example review when we do so. Tab。 図6は、そうするときの例です。 0.73
We can see that the model can not only generate fluent text but also be aware of what aspect it is going to generate as well as the correct polarity of that aspect. モデルが流れるようなテキストを生成するだけでなく、どの側面を生成するのか、その側面の正しい極性も認識できることが分かります。 0.60
Although the generated aspects are often small segments and there are some minor alignment issues, the model is clearly aspect-aware. 生成されたアスペクトはしばしば小さなセグメントであり、いくつかの小さなアライメントの問題がありますが、モデルは明らかにアスペクト対応です。
訳抜け防止モード: 生成した部分はしばしば小さな部分であり ちょっとした調整の問題もある。 モデルは、明らかにアスペクトです。
0.64
5.3 Will System Generate Biased Reviews? 5.3 システムがバイアスドレビューを生成するか? 0.66
Biases in text are prevalent, but often challenging to detect (Manzoor and Shah, 2020; Stelmakh et al., 2019). テキストのバイアスは一般的であるが、しばしば検出するのが困難である(Manzoor and Shah, 2020; Stelmakh et al., 2019)。 0.79
For example, in natural language processing, researchers are trying to identify societal biases (e.g, gender) in data and learning systems on different tasks (Bolukbasi et al., 2016; Zhao et al., 2018; Stanovsky et al., 2019). 例えば、自然言語処理において、研究者は異なるタスク(Bolukbasi et al., 2016; Zhao et al., 2018; Stanovsky et al., 2019)におけるデータおよび学習システムにおける社会的バイアス(例えば、性別)を特定しようとしている。 0.87
However, previous works on analyzing bias in scientific peer review usually focus on disparities in numerical feedback instead of text. しかしながら、科学的ピアレビューにおけるバイアスの分析に関する以前の研究は、通常テキストではなく数値フィードバックの相違に焦点を当てている。 0.58
Manzoor and Shah (2020) recently uncover latent bias in peer review based on review text. Manzoor and Shah (2020)は、レビューテキストに基づいたピアレビューの潜伏バイアスを明らかにした。 0.67
In this work, besides designing a model to generate reviews, we also perform an analysis of 本研究では,レビューを生成するモデルの設計に加えて,分析を行う。 0.81
英語(論文から抽出)日本語訳スコア
summary clarity + 概要 clarity + 0.72
substance + substance + 0.85
soundness - substance - This paper studies the problem of transfer learning from a single pre-trained network onto a new task . 音色 - 物質 - 本稿では,1つの学習ネットワークから新しいタスクへの転送学習の問題について検討する。 0.70
The authors propose a method of combining the outputs of multiple pre-trainable classifiers by training on their raw predictions and then fine-tuning on the target samples . 本研究では,複数の事前学習可能な分類器の出力を,生の予測を学習し,対象サンプルを微調整することで組み合わせる手法を提案する。 0.62
The proposed method is based on the use of ( non-linear ) maximal correlation analysis that originated with Hirschfeld [ 9 ] to this problem . 提案手法はヒルシュフェルト [9 ] から得られた (非線形) 最大相関解析をこの問題に用いたものである。 0.77
The paper is wellwritten and easy to follow . The paper is well written and easy to follow. 0.89
The experimental results show that the proposed method outperforms the state-of-the-art methods on the CIFAR-100 , Stanford Dogs , and Tiny ImageNet datasets . 実験の結果,提案手法はCIFAR-100,Stanford Dogs,Tiny ImageNetデータセットの最先端手法よりも優れていた。 0.71
However , it is not clear to me how the performance of the method is affected by the number of target training samples . しかし,本手法の性能が目標トレーニングサンプル数にどの程度影響されているかは,私には明らかでない。 0.86
It would be better if the authors can provide some theoretical analysis on the effect of the size of the target dataset . 対象データセットのサイズの影響について、著者が理論的な分析を行うことができればよいでしょう。
訳抜け防止モード: だったらいいのに 著者らは、対象データセットのサイズの影響に関する理論的分析を提供することができる。
0.75
Table 6: denotes negative sentiment. 表6: 否定的な感情を表す。 0.68
Illustration of generated tokens associated with corresponding aspects. 対応するアスペクトに関連付けられた生成されたトークンのイラスト。 0.53
+ denotes positive sentiment. + はポジティブな感情を表す。 0.63
- Figure 6: Aspect score AS(R, Gi) and disparity δ(R, G) in reference reviews (Rr) and generated reviews (Rg). - 図6:参照レビュー(Rr)および生成されたレビュー(Rg)におけるAspect score AS(R, Gi)およびDisparity δ(R, G)。 0.88
G = [G0, G1] denotes different groups. G = [G0, G1] は異なる群を表す。 0.81
bias, in which we propose a method to identify and quantify biases both in human-labeled and systemgenerated data in a more fine-grained fashion. バイアスは,人間のラベルデータとシステム生成データの両方において,よりきめ細かい方法でバイアスを識別し,定量化する手法を提案する。 0.72
5.3.1 Measuring Bias in Reviews To characterize potential biases existing in reviews, we (i) first define an aspect score, which calculates the percentage of positive occurrences22 of each aspect. 5.3.1 レビューにおけるバイアスの測定 レビューに存在する潜在的なバイアスを特徴付けるために、(i) まずアスペクトスコアを定義し、各アスペクトのポジティブな発生の割合を算出する22。 0.67
The polarity of each aspect is obtained based on our learned tagger in §3.2; (ii) then we aim to observe if different groups Gi (e.g., groups whether the paper is anonymous during reviewing or is not anonymous) of reviews R would exhibit disparity δ(R, G) in different aspects. それぞれのアスペクトの極性は、学習したタグに基づいて、 (ii) 異なるグループ Gi(例えば、レビュー中に論文が匿名であるか匿名でないかの群)のレビュー R が異なる側面で異性δ(R, G) を示すかどうかを観察することを目的としています。 0.80
The calculation of disparity can be visualized in Fig. 差の計算は図に示すことができる。 0.71
6. Based on above two definitions, we characterize 6. 上記の2つの定義に基づいて 0.81
bias in two ways respectively: (1) spider chart, which directly visualizes aspect scores of different groups of reviews w.r.t each aspect. バイアスはそれぞれ2つの方法である:(1)クモグラフ、各側面のレビューの異なるグループw.r.のアスペクトスコアを直接視覚化する。 0.66
(2) disparity difference, which represents the difference between disparities in generated reviews 2) 生成したレビューにおける格差の差を表す格差差 0.77
22If an aspect does not appear in a review, then we count the score for that aspect 0.5 (stands for neutral). 22アスペクトがレビューに表示されない場合は、そのアスペクト0.5のスコアをカウントします(中立の立場)。 0.71
Details see Appendix A.11. 詳細はAppendix A.11を参照。 0.58
Rg and reference reviews Rr and can be formally calculated as: rgと参照レビューrrは、次のように正式に計算できる。 0.64
∆(Rg, Rr, G) = δ(Rg, G) − δ(Rr, G) シュ(Rg, Rr, G) = δ(Rg, G) − δ(Rr, G) 0.79
(4) where G = [G0, G1] denotes different groups based on a given partition criterion. (4) g = [g0, g1] は与えられた分割基準に基づいて異なる群を表す。 0.81
Positive value means generated reviews favor group G0 more compared to reference reviews, and vice versa. 正の値は、生成レビューが参照レビューよりもグループg0を好むことを意味する。 0.74
In this work, we group reviews from two perspectives. 本研究では,2つの視点からレビューをまとめる。 0.69
The basic statistics are shown in Tab. 基本統計はタブに表示されます。 0.78
7. Native Non-native Anonym. 7. ネイティブ非ネイティブ匿名。 0.77
Non-anonym. 651 613 非匿名。 651 613 0.75
217 Total Acc.% 66.51% 50.00% 217 全acc.%66.51%50.00% 0.75
224 57.59% 224 57.59% 0.78
78.34% Table 7: Test set statistics based on nativeness and anonymity. 78.34% 表7: ネイティブ性と匿名性に基づいたテストセット統計。 0.77
Nativeness We categorize all papers in test set into “native” (G0) and “non-native” (G1) based on whether there is at least one native speaker in the author list as well as whether the institution is in an English-speaking country.23 Anonymity We categorize all papers in test set into “anonymous” (G0) and “non-anonymous” (G1) based on whether the paper has been released as a pre-print before a half month after the conference submission deadline.24 ネイティブ性 著者リストに少なくとも1人のネイティブ話者が存在するか、英語圏内にあるかに基づいて、テストセット内のすべての論文を「ネイティブ」 (G0) と「非ネイティブ」 (G1) に分類する。23匿名性 テストセット内のすべての論文は、会議提出期限の半ヶ月前に、その論文がプレプリントとして公開されたかどうかに基づいて、匿名 (G0) と「非匿名」 (G1) に分類する。 0.69
Here we take our model with introduction extraction as an example to showcase how to use the ここでは,その利用法を示す例として,導入抽出を用いたモデルを取り上げる。 0.71
23We used https://www.familyse arch.org/en/ to decide the nationality of an author. 23著者の国籍を決定するためにhttps://www.familyse arch.org/en/を使用しました。 0.50
In cases where all authors are not from an english-speaking country, we look into the institution information to further decide the attribution of the paper based on whether the institution is from an english-speaking country. 全著者が英語を話す国出身でない場合、その機関が英語を話す国出身かどうかに基づいて、論文の帰属をさらに決定するため、機関情報を調査する。 0.64
24We discard papers from ICLR 2017 since the reviewing 24 レビュー後 ICLR 2017 から論文を捨てる 0.68
process was single blind. プロセスは単一盲目であった。 0.67
MOTORISOUSUBREPCMPCL A2004006008001,0001, 200Intro.CEAbs.+CEOracleReferenceH(R r,G0)(,)(,)Ɗ(,,)=(,)−(,)(,)Ɗ(,,)=(,)−(,)(,)(,)(,)G0Aspect scoreG1G0G1Aspect scoreReference reviews.Generated reviews.(,)(,)(,G)=(,)−(,)(,)(,G)=(,)−(,)(,)(,)(,)G0Aspect scoreG1G0G1Aspect scoreReference reviews.Generated reviews. motorisousubrepcmpcl a2004004008001,0001, 200intro.ceabs.+ceoraclereferenceh(r r,g0)\(\,g0)\(\,\)\( \,\,\)\,\,\,\)-\(\,\ )-\(\,\,\)\,\,\,\)-\ ,\,\,\,\,g0aspect scoreg1g0g1aspect scorereference reviews.generated reviews.generated reviews.su(\,\,g0)-( \,g)-\(\,g)-\(\,g)-\ (\,g)\,\,d\,g)-\,\,g \,g\,g0aspect scoreg1g0g1aspect scorereference reviews.generated reviews.su(\,\,g0)\, g1aspect scorereferences.g1g0 g0g1aspect scorereference reviews.generated reviews.g1(g1aspect scorereferences.g0,g 1aspect scorereferences.g0,g 1,g1, g1, g1, g1, g1, g1, g1, g1, g1, g1, g1, g1, g1, g) 0.54
英語(論文から抽出)日本語訳スコア
Figure 7: Spider chart of aspect scores with respect to different groups. 図7: 異なるグループに対するアスペクトスコアのスパイダーチャート。 0.63
Nativeness Anonymity ネイティブネス匿名性 0.49
MOT -0.72 -5.69 MOT -0.72 -5.69 0.62
ORI +18.71 -4.43 織 +18.71 -4.43 0.36
SOU +3.84 +2.76 宗 +3.84 +2.76 0.38
SUB -3.66 -0.64 SUB -3.66 -0.64 0.62
REP +0.73 +5.65 REP +0.73 +5.65 0.62
CLA -13.32 +5.80 CLA -13.32 +5.80 0.62
CMP +2.40 +3.02 CMP +2.40 +3.02 0.62
Total 43.39 28.00 総 43.39 28.00 0.55
Table 8: Disparity differences regarding nativeness and anonymity. 表8: ネイティブ性と匿名性に関する差異。 0.81
Total is the sum of absolute value of disparity difference. 合計は差分差の絶対値の和である。 0.77
fine-grained aspect information in our dataset to do bias analysis. バイアス分析を行うためのデータセットのきめ細かいアスペクト情報。 0.71
We list the bias analysis for other models in Appendix A.12. 他のモデルのバイアス分析を appendix a.12 にリストする。 0.79
5.3.2 Nativeness Analysis Spider Chart Generally, Native papers receive higher score in most aspects in both reference reviews and generated reviews. 5.3.2 ネイティブネス分析 スパイダーチャート 一般的に、ネイティブペーパーは参照レビューと生成レビューの両方において、ほとんどの点で高いスコアを得ている。 0.57
Specifically, for human reviews: (1) By looking at Fig. 具体的には、人間のレビューのために:(1)図を見てください。 0.62
7-(a), there is a significant gap in Clarity, which is reasonable since non-native authors may have more trouble conveying their ideas. 7-(a),非ネイティブの著者がアイデアを伝えるのにもっと苦労する可能性があるため,明快さには大きなギャップがある。 0.69
(2) Scores of the two groups are much closer in other aspects. 2) 2つの群のスコアは他の側面よりもはるかに近い。 0.75
For system-generated reviews: As shown in Fig. システム生成レビュー:図に示すように。 0.73
7-(b), the auto-review system narrows the disparity in Clarity but amplifies it in Originality, meaning that system reviewers are harsher than human reviewers when commenting the paper’s “Originality” for non-native English speakers. 7-(b) 自動レビューシステムは明快さの差を狭めるが、独創性を増幅する。つまり、非ネイティブ英語話者に対する論文の“オリジナリティ”をコメントする際に、システムレビュワーは人間レビュワーよりも厳しい。 0.80
This observation suggests that a review system can generate biased reviews in some aspects, which would lead to unfair comments. この観察は、レビューシステムがいくつかの面で偏見のあるレビューを生成でき、不公平なコメントにつながることを示唆している。 0.62
Therefore, a system should be de-biased before it come to use. したがって、システムは使われる前に非バイアス化されるべきである。 0.71
Disparity Difference Through spider chart, gaps between different groups are relatively small and hard to discern. 格差差 クモ図を通して、異なるグループ間のギャップは比較的小さく、識別しにくい。 0.72
Besides, those gaps can only show the absolute favor for a certain group in different aspects. さらに、これらのギャップは、異なる側面の特定のグループに対する絶対的な支持を示すだけである。 0.57
We are also interested in whether generated reviews are more in favor of a certain group compared to reference reviews. また、生成されたレビューが参照レビューよりも特定のグループに有利かどうかにも関心があります。 0.68
To do this, we calculate disparity differences and list them in Tab. これを行うには、差分差を計算し、タブにリストします。 0.72
8. As shown in Tab. 8. タブに示すように。 0.77
8, for Originality and Clarity, the disparity difference is +18.71 and −13.32 which means that the system favours native papers in Originality and non-native papers in Clarity compared to human reviewers. 8 オリジナリティと明快さの差は +18.71 と −13.32 であり、これはシステムが人間のレビュワーに比べてオリジナリティと非ネイティブの論文を優先することを意味する。 0.70
This observation is consistent with spider chart. この観察はスパイダーチャートと一致している。 0.65
Besides, varying degrees of bias are presented in Tab. さらに、様々なバイアスの度合いがタブで示されます。 0.71
8. For example, for Motivation and Replicability, the disparity difference is less than 1, which suggests little bias while in other aspects, the bias is much larger. 8. 例えば、動機づけと再現性では、格差差は1未満であり、他の面ではバイアスがはるかに大きい間、ほとんどバイアスを示唆する。 0.76
Specifically, 5.3.3 Anonymity Analysis Spider Chart By looking at Fig. 具体的には 5.3.3 図を見て匿名分析スパイダーチャート 0.67
7-(c) and Fig. 7-(c)および図。 0.76
7-(d), we find that both human reviewers and system reviewers favor non-anonymous papers in all aspects. 7-(d)では、人間レビュアーとシステムレビュアーの両方が、すべての面で匿名の論文を好むことが分かりました。
訳抜け防止モード: 7-(d) とすると 人間のレビュアーもシステムレビュアーも、あらゆる面で匿名の論文を好んでいる。
0.64
for human reviews: we find gaps are non-negligible in Soundness, Clarity and Meaningful Comparison while for system-generated reviews, we observe that gaps are considerable in Motivation, Originality, Soundness. 人間のレビューでは、ギャップは音性、明瞭さ、および意味的に区別できないが、システム生成レビューでは、ギャップは動機付け、オリジン性、音性においてかなり重要である。
訳抜け防止モード: 人間のレビューでは ギャップは、Soundness, Clarity, Meaningful Comparison では無視できます。 私たちは、動機付け、オリジナリティ、健全性においてギャップが有意であることを観察します。
0.61
This observation is interesting since human reviewers may be aware of the identity of the authors due to non-anonimity which may affect the reviews they write. この観察は興味深い。人間のレビュアーは、書いたレビューに影響を与える非アニミティのために、著者のアイデンティティを意識しているかもしれない。 0.62
However, our system is not aware of that and its preference towards non-anonymous paper probably suggests some quality difference.25 しかし,本システムはそれを認識しておらず,非匿名論文への選好は品質差を示唆していると考えられる。 0.56
Disparity Difference By looking at Tab. 差分差 タブを見てください。 0.65
8, we find that the largest absolute disparity difference 8) 絶対格差の最大の違いは 0.55
25Non-anonymous papers are more likely to have been re- 25非匿名の論文が再提出された可能性が高い 0.54
jected before and therefore are revised many more times. 以前とそれゆえ、さらに何度も改訂される。 0.59
MOTORISOUSUBREPCLACM PNativeNon-nativeAno nymousNon-anonymous( a) Reference reviews. MOTORISOUSUBREPCLACM PNative非ネイティブ匿名非匿名(a)参照レビュー。 0.49
(b) Generated reviews. (b) レビュー生成。 0.71
(c) Reference reviews. (c)参照レビュー。 0.72
(d) Generated reviews.Figure 4: Spider chart of aspect scores with respect to di!erent groups.MOTORISOUSUBR EPCLACMPMOTORISOUSUB REPCLACMPMOTORISOUSU BREPCLACMP (d)世代別レビュー(第4報) : ダイエレントグループに対するアスペクトスコアのスパイダーチャート 0.54
英語(論文から抽出)日本語訳スコア
regarding anonymity is 5.80 compared to 18.71 regarding nativeness. 匿名性は5.80で ネイティブ性は18.71です 0.62
This suggests that regarding anonymity, our system’s preference does not diverge that much from human reviewers. これは、匿名性に関して、我々のシステムの好みが人間のレビュアーからそれほど離れていないことを示唆している。 0.54
Also, the total aspect bias regarding anonymity is 28.00, much smaller compared to total aspect bias regarding nativeness (43.00). また、匿名性に関する総アスペクトバイアスは28.00であり、ネイティブ性に関する全アスペクトバイアスよりもずっと小さい(43.00)。 0.57
This also suggests that our model is less sensitive to anonymity compared to nativeness. これはまた、私たちのモデルはネイティブよりも匿名性が低いことを示唆しています。 0.57
The observations above are probably related to some superficial heuristics existing in peer review. 上記の観測は、おそらくピアレビューに存在する表面的ヒューリスティックと関連している。 0.64
For example, when reviewers detect some grammar mistakes, they may assume that the authors are not native and then bias towards rejecting the paper by claiming some clarity issues. 例えば、レビュアーが文法の誤りを検知すると、著者はネイティブではないと仮定し、明快な問題を主張することで論文を拒絶する傾向にある。 0.69
Another example is that there may exist differences in the research topics pursued by different subgroups (e.g., different countries), the bias regarding nativeness may also suggest the favor of certain topics in the reviewing process. 別の例は、異なるサブグループ(例えば、異なる国)が追求する研究トピックに違いがあるかもしれない、また、ネイティブ性に関するバイアスは、レビュープロセスにおいて特定のトピックが好まれることを示唆している。 0.68
Those superficial heuristics should be discouraged and deserve further investigation in future research. これらの表面的ヒューリスティックは、今後の研究でさらなる調査を控えるべきである。 0.56
6 Related Work Scientific Review Generation There has been a relative paucity of work on scientific review generation, other than Bartoli et al. 6 関連する作業科学的レビュー生成 Bartoli et al以外の科学的レビュー生成に関する作業の相対的な悲惨さがあります。 0.72
(2016)’s work investigating the feasibility of generating fake reviews by surface-level term replacement and sentence reordering etc. (2016) 表面レベルの用語置換と文の並べ替え等による偽レビュー作成の可能性を検討する。 0.77
In addition contemporaneous and independent work by Wang et al. さらに、Wang et alによる同時代の独立した仕事。 0.59
(2020) proposes a two-stage information extraction and summarization pipeline to generate paper reviews. (2020) 論文レビューを生成するために2段階の情報抽出と要約パイプラインを提案する。 0.73
Their evaluation focuses mainly on the accuracy of information extraction, and the evaluation of the generated summaries is somewhat precursory, assessing only a single criterion “constructiveness and validity” manually over 50 papers. 彼らの評価は主に情報抽出の精度に重点を置いており、生成した要約の評価はやや先駆的であり、50以上の論文を手作業で「構成性と妥当性」を1つの基準で評価するのみである。 0.69
Our paper (1) proposes a wide variety of diagnostic criteria on review quality, (2) uses a very different summarization methodology, and (3) evaluates the generated results extensively. 本論文では,(1) レビュー品質に関する幅広い診断基準を提案し,(2) 非常に異なる要約手法を用いて,(3) 生成された結果を幅広く評価する。 0.82
Peer Review Peer review is an essential component of the research cycle and is adopted by most journals and conferences to identify important and relevant research. ピアレビュー ピアレビューは研究サイクルの重要な要素であり、ほとんどのジャーナルやカンファレンスが重要かつ関連する研究を特定するために採用している。
訳抜け防止モード: ピアレビューピアレビューは研究サイクルの重要な要素である ほとんどの雑誌やカンファレンスで採用されています 重要で関連する研究を 特定することです
0.82
However, at the same time it is easy to identify many issues: expensiveness, slowness, existence of inconsistency (Langford and Guzdial, 2015) and bias (Tomkins et al., 2017), etc. しかし、同時に、高価さ、遅さ、不整合の存在(Langford and Guzdial, 2015)、バイアス(Tomkins et al., 2017)など、多くの問題を特定することは容易である。 0.77
Some efforts have been put into analyzing the peer review process including automating review レビューの自動化を含むピアレビュープロセスの分析にいくつかの取り組みがなされています。 0.62
assignment (Jin et al., 2017; Nguyen et al., 2018; Anjum et al., 2019; Jecmen et al., 2020), examining bias problems (Tomkins et al., 2017; Stelmakh et al., 2019), examining consistency problems (Langford and Guzdial, 2015) and performing sentiment analysis on reviews (Wang and Wan, 2018; Chakraborty et al., 2020). 課題(Jin et al., 2017; Nguyen et al., 2018; Anjum et al., 2019; Jecmen et al., 2020)、バイアス問題(Tomkins et al., 2017; Stelmakh et al., 2019)、一貫性問題(Langford and Guzdial, 2015)、レビューに対する感情分析(Wang and Wan, 2018; Chakraborty et al., 2020)。 0.79
Several decision classification methods have been explored to help make accept or reject decision given a paper. 論文の決定を受諾または拒否するのに役立ついくつかの決定分類方法が検討されている。 0.67
Those methods are either based on textual (Kang et al., 2018; Qiao et al., 2018) or visual (Von Bearnensquash, 2010; Huang, 2018) information. これらの方法は、テキスト(Kang et al., 2018; Qiao et al., 2018)またはビジュアル(Von Bearnensquash, 2010; Huang, 2018)情報に基づいています。 0.94
However, they do not directly alleviate review load, as our paper aims to do. しかし、本論文が目指すように、レビュー負荷を直接軽減するものではない。 0.69
7 Discussion and Future Directions 7 討論と今後の方向 0.76
We first summarize what we have achieved in this work and how the current ReviewAdvisor system can potentially help in a reviewing process. まず、この作業で達成した成果と、現在のレビューアドバイザシステムがレビュープロセスにどのように役立つのかをまとめます。 0.71
Then we discuss challenges and potential directions for the automatic review generation task, which, hopefully, encourages more future researchers to explore this task, and in the right direction. 次に、自動レビュー生成タスクの課題と潜在的な方向性について議論し、将来の研究者にこのタスクと正しい方向への探索を促すことを期待する。 0.71
7.1 Machine-assisted Review Systems 7.1 機械支援レビューシステム 0.68
Instead of replacing a human reviewer, a better position for ReviewAdvisor is to regard it as a machineassisted review system. 人間のレビュワーを置き換える代わりに、ReviewAdvisorのより良いポジションは、それを機械支援のレビューシステムと見なすことです。 0.77
Although there is still a large room for improvement, our results indicate that even with current technology: 改善の余地はまだありますが、私たちの結果は現在の技術でも示しています。 0.64
(1) Based on the evaluation of §5.2, Summary Accuracy of our systems is quite high, suggesting that it can be either used for reviewers to finish the description of Summary, or help general readers to quickly understand the core idea of recently preprinted papers (e.g., papers from arXiv). 1【5.2】の評価結果から,本システムの要約精度は極めて高く,要約説明を終えるレビュアーに使用できるか,あるいは一般読者が最近印刷された論文(例えばarxivの論文)の核となる考え方を迅速に理解するのに役立つことが示唆された。 0.82
(2) Based on evaluation of §5.2, reviews generated by ReviewAdvisor can cover more aspects and generate more informative reviews. 2)5.2の評価に基づいて、ReviewAdvisorによって生成されたレビューは、より多くの側面をカバーし、より情報的なレビューを生成することができる。 0.47
Although the associated opinions may suffer from constructiveness problems, they still may be useful since they can provide a preliminary template for reviewers, especially enabling junior or non-native English reviewers to know what a review generally should include and how to phrase each aspect. 関連する意見は建設的な問題に苦しむかもしれませんが、レビュアーに予備テンプレートを提供することができるため、特にジュニアまたは非ネイティブの英語のレビュアーがレビューに一般的に含めるべきものと各側面のフレーズを知ることができます。 0.66
Additionally, for each aspect (e.g., Clarity), our system can provide relevant evidence sentences from the paper, helping reviewers quickly identify salient information when reviewing the paper (Detailed example in our Appendix A.10). さらに,各側面(例えば明快さ)に対して,論文から適切な証拠文を提示し,レビュー者が論文をレビューする際の有意義な情報を迅速に識別することを支援する(付録a.10の例を参照)。 0.71
英語(論文から抽出)日本語訳スコア
7.2 Challenges and Promising Directions 7.2.1 Model (1) Long Document Modeling: The average length of one scientific paper is commonly larger than 5,000 words, far beyond the input text’s length that mainstream neural sequence models (e.g., LSTM, Transformer) or pre-trained models (e.g., BERT, BART) normally use. 7.2 Challenges and Promising directions 7.2.1 Model (1) Long Document Modeling: 1つの科学論文の平均長は一般に5,000語以上であり、入力テキストの長さをはるかに超えて、主観的な神経配列モデル(LSTM、Transformerなど)または訓練済みのモデル(BERT、BARTなど)が通常使用する。 0.79
This work (in §4.2.1) bypasses the difficulty by using a two-stage system, but other strategies should be explored. この作業(4.2.1)は2段階システムを使用することで難しさを回避できるが、他の戦略も検討すべきである。 0.61
(2) Pre-trained Models for Scientific Domain: Although previous works, as exemplified by (Beltagy et al., 2019) have pre-trained BERT on scientific domain, we observe that using these models with transformer decoders perform much worse than BART on sequence generation tasks in terms of fluency and coherence, which calls for general sequence to sequence models pre-trained on scientific domain for higher-quality review generation. 2) 理科領域の事前学習モデル: (Beltagy et al., 2019) が示すように, 従来の研究は理科領域においてBERTを事前学習しているが, トランスフォーマーデコーダを用いたこれらのモデルの使用は, 高品位レビュー生成のために科学領域で事前訓練されたシーケンスモデルへの一般的なシーケンスを要求する, 流速とコヒーレンスの観点から, シーケンス生成タスクにおいてBARTよりもはるかにひどい性能を発揮することが観察された。
訳抜け防止モード: (2) 科学領域のための予備訓練モデル : 前作にもかかわらず Beltagy et al ., 2019 ) は科学領域の BERT を事前に訓練しています。 トランスデコーダでこれらのモデルを使って 頻度とコヒーレンスの観点からシーケンス生成タスクでBARTよりもはるかに悪い実行します。 より高度なレビュー生成のために科学領域で訓練されたシーケンスモデルに一般的なシーケンスを要求します。
0.71
(3) Structure Information: Review generation systems could get a deeper understanding of a given research paper if structural information can be provided. 3)構造情報:レビュー生成システムは、構造情報が提供できれば、所定の研究論文をより深く理解することができる。 0.85
To this end, outputs from scientific paperbased information extraction tasks (Hou et al., 2019; Jain et al., 2020) can be utilized to guide review generation. この目的のために、科学論文に基づく情報抽出タスク(hou et al., 2019; jain et al., 2020)からの出力をレビュー生成のガイドとして利用できる。 0.82
(4) External Knowledge: Besides the paper itself, review systems can also rely on external knowledge, such as a citation graphs constructed based on more scientific papers or a knowledge graph connecting concepts across different papers (Luan et al., 2018; Lo et al., 2020). (4) 外部知識: 論文自体に加えて、レビューシステムは、科学論文に基づいて構築された引用グラフや、異なる論文間の概念をつなぐ知識グラフといった外部知識にも依存することができる(luan et al., 2018; lo et al., 2020)。 0.79
Also, recently, August et al. また、最近は、August et al。 0.79
(2020) compile a set of writing strategies drawn from a wide range of prescriptive sources, it would be also valuable to transfer this knowledge into the auto-review system. (2020) 幅広い規範的なソースから引き出された一連の執筆戦略をコンパイルし、この知識を自動レビューシステムに移すことも価値があります。 0.73
7.2.2 Datasets (5) More Open, Fine-grained Review Data: In this work, we annotate fine-grained information (aspects) of each review manually. 7.2.2データセット(5) よりオープンできめ細かいレビューデータ: この作業では、各レビューのきめ細かい情報(アスペクト)を手動でアノテートします。 0.73
However, this information could potentially be obtained directly from the peer review system. しかし、この情報はピアレビューシステムから直接取得される可能性があります。 0.75
How to access this information appropriately would be an important and valuable step in the future. この情報に適切にアクセスする方法は、将来重要かつ価値のあるステップとなるでしょう。 0.81
(6) More Accurate and Powerful Scientific Paper Parsers: Existing parsing tools (e.g. (6)より正確で強力な科学的紙パーサー:既存の解析ツール(例) 0.78
science-parse, grobid) for scientific papers are commonly designed for certain specific paper templates, and also still struggle at extracting fine-grained information, such as the content of tables and figures. 科学論文のScience-parse, grobid)は、特定の紙テンプレート用に設計されており、テーブルや数字の内容などの細かい情報の抽出にも苦労しています。 0.77
7.2.3 Evaluation (7) Fairness and Bias in Generated Text: In this work, we make a step towards identifying and quantifying two types of biases existing in human and system-generated reviews. 7.2.3 Evaluation (7) Fairness and Bias in Generated Text:本研究では、人間とシステム生成レビューに存在する2種類のバイアスを特定し、定量化する。 0.82
Future works can explore more along this direction based on our dataset that contains fine-grained aspect annotation. 将来の作業は、きめ細かいアスペクトアノテーションを含むデータセットに基づいて、この方向に沿ってさらに探索できます。 0.61
(8) Factuality and Reliability: A generated review should be factually correct (Wadden et al., 2020) which also poses challenge to the current evaluation methodology. (8) 現実性と信頼性: 生成されたレビューは現実的に正しい(Wadden et al., 2020)べきである。 0.63
In addition to generating a review, a reliable system should also provide a level of confidence with respect to the current comment. レビューを生成することに加えて、信頼できるシステムは、現在のコメントに対する信頼のレベルを提供するべきです。 0.76
Moreover, whether review scores are calibrated is another valuable question. さらに、レビュースコアが校正されるかどうかも重要な問題だ。 0.53
7.3 Conclusion In answer to the titular question of “can we automate scientific review,” the answer is clearly “not yet”. 7.3 結論 科学的レビューを自動化できる」という丁寧な質問に答えると、その答えは明らかに「まだ」である。 0.78
However, we believe the models, data, and analysis tools presented in this paper will be useful as a starting point for systems that can work in concert with human reviewers to make their job easier and more effective. しかし,本論文で提示したモデル,データ,分析ツールは,人間レビュアーと協調して作業し,作業を容易にし,より効果的に行えるシステムの出発点として有用であると考えている。 0.84
Acknowledgment This work could not be accomplished without the help of many researchers. この研究は、多くの研究者の助けなしには達成できなかった。 0.75
We would like to thank people for their generous support, especially, Volunteer to help us with the human evaluation: G´abor Berend, Zhouhan Lin, William W. Cohen, Pengcheng Yin, Tiange Luo, Yuki M. Asano, Junjie Yan, Tuomas Haarnoja, Dandan Guo, Jie Fu, Lei Chen, Jinlan Fu, Jiapeng Wu, Wenshan Wang, Ziyi Dou, Yixin Liu, Junxian He, Bahetiyaer Bare, Saizheng Zhang, Jiateng Xie, Spyros Gidaris, Marco Federici, Junji Dai, Zihuiwen Ye Jie Zhou, Yufang Liu, Yue Zhang, Ruifeng Xu, Zhenghua Li, Chunting Zhou, Yang Wei. We would like to thank people for their generous support, especially, Volunteer to help us with the human evaluation: G´abor Berend, Zhouhan Lin, William W. Cohen, Pengcheng Yin, Tiange Luo, Yuki M. Asano, Junjie Yan, Tuomas Haarnoja, Dandan Guo, Jie Fu, Lei Chen, Jinlan Fu, Jiapeng Wu, Wenshan Wang, Ziyi Dou, Yixin Liu, Junxian He, Bahetiyaer Bare, Saizheng Zhang, Jiateng Xie, Spyros Gidaris, Marco Federici, Junji Dai, Zihuiwen Ye Jie Zhou, Yufang Liu, Yue Zhang, Ruifeng Xu, Zhenghua Li, Chunting Zhou, Yang Wei. 0.88
This work lasted nearly a year, from the initial idea discussion (2020.02.28) to completing the first version of draft (2021.01.29). この作業は、最初のアイデア議論(2020.02.28)からドラフト(2021.01.29)の完成まで、ほぼ1年間続いた。 0.71
This is the year from the beginning of the COVID-19 epidemic to its outbreak. これは、新型コロナウイルスの流行の始まりからその発生までの年です。 0.53
Thanks for this fun and challenging project that punctuates my dull life at home. 自宅で私の鈍い人生を刺激するこの楽しくて挑戦的なプロジェクトに感謝します。 0.67
Thank Weizhe, for her patience, persistence and her willingness to work with me to complete this crazy idea. 彼女の忍耐力と忍耐力、そしてこのクレイジーなアイデアを完成させるために私と一緒に働く意志を感謝する。 0.63
Thanks a lot for Graham’s endless help on this project. Grahamのこのプロジェクトへの絶え間ない支援に感謝します。 0.77
The story is not over, and our system is still evolving. ストーリーは終わりではなく、システムはまだ進化しています。 0.70
英語(論文から抽出)日本語訳スコア
References Stefanos Angelidis and Mirella Lapata. Stefanos AngelidisとMirella Lapataを参照。 0.73
2018. Summarizing opinions: Aspect extraction meets sentiment prediction and they are both weakly superIn Proceedings of the 2018 Conference on vised. 2018. 意見を要約する: アスペクト抽出は感情予測を満たしており、どちらも2018年のvisedカンファレンスの弱い議事録である。
訳抜け防止モード: 2018. 意見の要約 : 視点抽出と感情予測 そして、どちらも弱くスーパーである2018年の会議のプロシーディングで vised。
0.79
Empirical Methods in Natural Language Processing, pages 3675–3686, Brussels, Belgium. Empirical Methods in Natural Language Processing, pages 3675–3686, Brussels, Belgium. 0.96
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Omer Anjum, Hongyu Gong, Suma Bhat, Wen-Mei Hwu, and JinJun Xiong. Omer Anjum、Hongyu Gong、Suma Bhat、Wen-Mei Hwu、JinJun Xiong。 0.72
2019. PaRe: A paperreviewer matching approach using a common topic In Proceedings of the 2019 Conference on space. 2019. PaRe: 宇宙に関する2019年の会議の進行において、共通のトピックを使用したペーパーリビューアマッチングアプローチ。 0.81
Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 518–528, Hong Kong, China. The 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Page 518–528, Hong Kong, China
訳抜け防止モード: 自然言語処理における経験的手法と第9回自然言語処理国際会議(EMNLP - IJCNLP) ページ 518–528、香港、中国。
0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Tal August, Lauren Kim, Katharina Reinecke, and Noah A. Smith. Tal August、Lauren Kim、Katharina Reinecke、Noah A. Smith。 0.69
2020. Writing strategies for science communication: Data and computational analysis. 2020. 科学コミュニケーションのための記述戦略:データと計算分析。 0.85
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 5327–5344, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 5327–5344, Online. 0.88
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Alberto Bartoli, Andrea De Lorenzo, Eric Medvet, and Fabiano Tarlao. Alberto Bartoli、Andrea De Lorenzo、Eric Medvet、Fabiano Tarlao。 0.71
2016. Your paper has been accepted, rejected, or whatever: Automatic generation of sciIn International Conference entific paper reviews. 2016. あなたの論文は受理されたり、却下されたり、何であれ: sciin international conference ficfic paper reviewsの自動生成。 0.77
on Availability, Reliability, and Security, pages 19– 28. on Availability, Reliability, and Security, pages 19– 28。 0.89
Springer. Iz Beltagy, Kyle Lo, and Arman Cohan. Springer Iz Beltagy、Kyle Lo、Arman Cohan。 0.55
2019. Scibert: A pretrained language model for scientific text. 2019. Scibert: 科学テキストのための事前訓練された言語モデル。 0.79
arXiv preprint arXiv:1903.10676. arXiv preprint arXiv:1903.10676 0.72
Tolga Bolukbasi, Kai-Wei Chang, Tolga Bolukbasi, Kai-Wei Chang 0.93
James Zou, Venkatesh Saligrama, and Adam Kalai. James Zou、Venkatesh Saligrama、Adam Kalai。 0.69
2016. Man is to computer programmer as woman is to homemaker? 2016. 男性はコンピュータープログラマーであり、女性はホームメイカーですか? 0.80
debiasing word embeddings. 単語の埋め込みを嫌う 0.56
Lutz Bornmann and R¨udiger Mutz. ルツ・ボルンマンとR・シュディガー・ミュッツ。 0.45
2015. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references. 2015. 現代科学の成長率:出版物の数と引用された参照に基づく二分法分析。 0.79
Journal of the Association for Information Science and Technology, 66(11):2215–2222. journal of the association for information science and technology, 66(11):2215–2222。 0.93
Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al。 0.84
2020. Language models are few-shot learners. 2020. 言語モデルは少数の学習者です。 0.77
arXiv preprint arXiv:2005.14165. arXiv preprint arXiv:2005.14165。 0.64
Isabel Cachola, Kyle Lo, Arman Cohan, and Daniel Weld. Isabel Cachola、Kyle Lo、Arman Cohan、Daniel Weld。 0.67
2020a. TLDR: Extreme summarization of sciIn Findings of the Association entific documents. 2020a tldr:the association entific documentsのサイシン所見の極端な要約。 0.77
for Computational Linguistics: EMNLP 2020, pages 4766–4777, Online. For Computational Linguistics: EMNLP 2020, page 4766–4777, Online 0.86
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Souvic Chakraborty, Pawan Goyal, and Animesh Aspect-based sentiment arXiv preprint Souvic Chakraborty, Pawan Goyal, Animesh Aspect-based sentiment arXiv preprint 0.89
Mukherjee. 2020. analysis of scientific reviews. Mukherjee 2020年 科学的レビューの分析 0.64
arXiv:2006.03257. arXiv:2006.03257。 0.48
Yen-Chun Chen and Mohit Bansal. Yen-Chun ChenとMohit Bansal。 0.80
2018. Fast abstractive summarization with reinforce-selected sentence rewriting. 2018. 強化選択文書き換えによる高速抽象要約 0.73
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages 675–686. 第56回計算言語学会年次大会(第1巻:長い論文)の議事録第1巻675-686頁。 0.56
Arman Cohan, Franck Dernoncourt, Doo Soon Kim, Trung Bui, Seokhwan Kim, W. Chang, and Nazli Goharian. Arman Cohan, Franck Dernoncourt, Doo Soon Kim, Trung Bui, Seokhwan Kim, W. Chang, Nazli Goharian。 0.79
2018a. A discourse-aware attention model for abstractive summarization of long documents. 2018年。 長い文書の抽象的要約のための対話型注意モデル。 0.68
In NAACL-HLT. NAACL-HLTで。 0.64
Arman Cohan, Franck Dernoncourt, Doo Soon Kim, Trung Bui, Seokhwan Kim, Walter Chang, and Nazli Goharian. Arman Cohan, Franck Dernoncourt, Doo Soon Kim, Trung Bui, Seokhwan Kim, Walter Chang, Nazli Goharian。 0.76
2018b. A discourse-aware attention model for abstractive summarization of long docuIn Proceedings of the 2018 Conference of ments. 2018年。 長いドキュの抽象的な要約のための談話認識の注意モデル2018年メント会議のProceedings。 0.64
the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 615–621, New Orleans, Louisiana. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), Page 615–621, New Orleans, Louisiana. (英語) 0.93
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Arman Cohan and Nazli Goharian. Arman CohanとNazli Goharian。 0.77
2017. Scientific article summarization using citation-context arXiv preprint and article’s discourse structure. 2017. citation-context arxivプレプリントを用いた科学記事要約と論文の談話構造 0.80
arXiv:1704.06619. arXiv:1704.06619 0.56
Nicola De Bellis. ニコラ・デ・ベリス。 0.44
2009. Bibliometrics and citation analysis: from the science citation index to cybermetrics. 2009. bibliometrics and citation analysis: from the science citation index to cybermetrics(英語) 0.85
scarecrow press. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. スカークロウプレス Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.56
2019. Bert: Pre-training of deep bidirectional transformers for language understanding. 2019. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.82
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186。 0.78
Zi-Yi Dou, Pengfei Liu, Hiroaki Hayashi, Zhengbao Jiang, and Graham Neubig. Zi-Yi Dou, Pengfei Liu, Hiroaki Hayashi, Zhengbao Jiang, Graham Neubig 0.73
2020. Gsum: A general framework for guided neural abstractive summarization. 2020. Gsum: 神経抽象的要約を導くための一般的なフレームワーク。 0.79
arXiv preprint arXiv:2010.08014. arXiv preprint arXiv:2010.08014 0.71
Bradley Efron. Bradley Efron 0.59
1992. Bootstrap methods: another look at the jackknife. 1992. bootstrapメソッド: jackknifeをもう一度見る。 0.83
In Breakthroughs in statistics, pages 569–593. 統計学では、569-593頁。 0.76
Springer. Shai Erera, Michal Shmueli-Scheuer, Guy Feigenblat, O. Nakash, O. Boni, Haggai Roitman, Doron Cohen, B. Weiner, Y. Springer Shai Erera, Michal Shmueli-Scheuer, Guy Feigenblat, O. Nakash, O. Boni, Haggai Roitman, Doron Cohen, B. Weiner, Y。 0.75
Mass, Or Rivlin, G. Lev, Achiya Jerbi, Jonathan Herzig, Yufang Hou, Charles Jochim, Martin Gleize, F. Bonin, and D. Konopnicki. Mass, Or Rivlin, G. Lev, Achiya Jerbi, Jonathan Herzig, Yufang Hou, Charles Jochim, Martin Gleize, F. Bonin, D. Konopnicki 0.86
2019. A summarization system for scientific documents. 2019. 科学文書の要約システム。 0.73
In EMNLP/IJCNLP. EMNLP/IJCNLP。 0.73
Isabel Cachola, Kyle Lo, Arman Cohan, and Daniel S. Weld. Isabel Cachola、Kyle Lo、Arman Cohan、Daniel S. Weld。 0.72
2020b. Tldr: Extreme summarization of scientific documents. 2020年。 Tldr: 科学的文書の極端に要約。 0.75
ArXiv, abs/2004.15011. ArXiv, abs/2004.15011。 0.61
Guy Feigenblat, Haggai Roitman, Odellia Boni, and David Konopnicki. Guy Feigenblat, Haggai Roitman, Odellia Boni, David Konopnicki 0.65
2017. Unsupervised queryfocused multi-document summarization using the 2017. 教師なしクエリ指向マルチドキュメント要約 0.74
英語(論文から抽出)日本語訳スコア
In Proceedings of the 40th cross entropy method. 第40回十字エントロピー法(entropy method)の略。 0.58
International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’17, page 961–964, New York, NY, USA. International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’17, page 961–964, New York, NY, USA。 0.88
Association for Computing Machinery. コンピュータ機械協会会員。 0.63
Steven Jecmen, Hanrui Zhang, Ryan Liu, Nihar B Shah, Vincent Conitzer, and Fei Fang. Steven Jecmen、Hanrui Zhang、Ryan Liu、Nihar B Shah、Vincent Conitzer、Fei Fang。 0.72
2020. Mitigating manipulation in peer review via ranarXiv preprint domized reviewer assignments. 2020. ranarxivによるピアレビューにおける操作の緩和 domized reviewer assignments 0.76
arXiv:2006.16437. arXiv:2006.16437。 0.49
Lea Frermann and Alexandre Klementiev. Lea FrermannとAlexandre Klementiev。 0.78
2019. Inducing document structure for aspect-based summaIn Proceedings of the 57th Annual Meetrization. 2019. 第57回年次大会の要約資料作成のための文書構造の導入 0.77
ing of the Association for Computational Linguistics, pages 6263–6273, Florence, Italy. ing of the Association for Computational Linguistics, page 6263–6273, Florence, Italy (英語) 0.85
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Yang Gao, Steffen Eger, Yang Gao, Steffen Eger 0.71
Ilia Kuznetsov, Ilia Kuznetsov 0.55
Iryna Gurevych, and Yusuke Miyao. Iryna GurevychとYusuke Miyao。 0.69
2019. Does my rebuttal matter? 2019. 私の反論は重要か? 0.72
insights from a major NLP conferIn Proceedings of the 2019 Conference of ence. 主要なNLP会議からの洞察 2019年のenceカンファレンスのProceedings。 0.71
the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 1274–1290, Minneapolis, Minnesota. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Page 1274–1290, Minneapolis, Minnesota. (英語) 0.93
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Sebastian Gehrmann, Yuntian Deng, and Alexander Rush. Sebastian Gehrmann、Yuntian Deng、Alexander Rush。 0.69
2018. Bottom-up abstractive summarization. 2018. ボトムアップ抽象要約。 0.77
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 4098–4109. 2018年、Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, page 4098–4109。 0.75
Hiroaki Hayashi, Prashant Budania, Peng Wang, Chris Ackerson, Raj Neervannan, and Graham Neubig. 林弘明、ブダニア、ペン・ワン、クリス・アッカーソン、ラジ・ニールバンナン、グラハム・ノイビッグ。 0.59
2020. Wikiasp: A dataset for multi-domain aspectbased summarization. 2020. Wikiasp: マルチドメインアスペクトベースの要約のためのデータセット。 0.79
Transactions of the Association for Computational Linguistics (TACL). TACL(Association for Computational Linguistics)の略。 0.58
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Kaiming 彼、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.64
2016. Deep residual learning for image recogIn Proceedings of the IEEE conference on nition. 2016. 画像再帰のための深い残留学習 IEEEのnitionカンファレンスの成果。 0.75
computer vision and pattern recognition, pages 770– 778. コンピュータビジョンとパターン認識、ページ770 - 778。 0.83
Karl Moritz Hermann, Tomas Kocisky, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. Karl Moritz Hermann, Tomas Kocisky, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, Phil Blunsom 0.73
2015. Teaching machines to read In Advances in Neural Informaand comprehend. 2015. ニューラルインフォマおよび理解の進歩を読むために機械を教える。 0.79
tion Processing Systems, pages 1684–1692. 処理システム、1684-1692ページ。 0.80
Yufang Hou, Charles Jochim, Martin Gleize, Francesca IdentificaBonin, and Debasis Ganguly. Yufang Hou、Charles Jochim、Martin Gleize、Francessca IdentificaBonin、Debasis Ganguly。 0.69
2019. tion of tasks, datasets, evaluation metrics, and numeric scores for scientific leaderboards construction. 2019. 科学リーダーボード構築のためのタスク、データセット、評価指標、および数値スコアの編集。 0.72
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5203–5213, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 5203–5213, イタリア・フィレンツェ。 0.72
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Jia-Bin Huang. Jia-Bin Huang 0.86
2018. Deep paper gestalt. 2018. 深い紙の汚れ。 0.71
preprint arXiv:1812.08775. arXiv:1812.08775 0.59
arXiv Sarthak Jain, Madeleine van Zuylen, Hannaneh Hajishirzi, and Iz Beltagy. arXiv Sarthak Jain、Madeleine van Zuylen、Hannaneh Hajishirzi、Iz Beltagy。 0.74
2020. SciREX: A challenge dataset for document-level information extracIn Proceedings of the 58th Annual Meeting tion. 2020. scirex: 第58回年次総会の文書レベルの情報引き渡し手順のためのチャレンジデータセット。 0.78
of the Association for Computational Linguistics, pages 7506–7516, Online. The Association for Computational Linguistics, page 7506–7516, Online. 0.90
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Tom Jefferson, Philip Alderson, Elizabeth Wager, and Frank Davidoff. Tom Jefferson、Philip Alderson、Elizabeth Wager、Frank Davidoff。 0.72
2002a. Effects of editorial peer reJama, 287(21):2784– view: a systematic review. 2002年。 編集ピア reJama, 287(21):2784– ビューの効果:体系的なレビュー。 0.79
2786. Tom Jefferson, Elizabeth Wager, and Frank Davidoff. 2786. トム・ジェファーソン、エリザベス・ワーガー、フランク・デビッドフ。 0.70
2002b. Measuring the quality of editorial peer review. 2002年。 編集ピアレビューの品質を測定します。 0.70
Jama, 287(21):2786–2790. 287(21):2786-2790。 0.65
Rahul Jha, Amjad Abu-Jbara, and Dragomir Radev. Rahul Jha、Amjad Abu-Jbara、Dragomir Radev。 0.76
2013. A system for summarizing scientific topIn Proceedings of the ics starting from keywords. 2013. キーワードから始まるicsのProceedingsで科学的トップを要約するためのシステム。 0.77
51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 572–577, Sofia, Bulgaria. 51th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Page 572–577, Sofia, ブルガリア。 0.85
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Rahul Jha, Reed Coke, and Dragomir R. Radev. Rahul Jha、Reed Coke、Dragomir R. Radev。 0.76
2015a. Surveyor: A system for generating coherent survey articles for scientific topics. 2015年。 surveyor: 科学トピックのためのコヒーレントな調査記事を生成するシステム。 0.78
In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, January 25-30, 2015, Austin, Texas, USA, pages 2167–2173. 2015年1月25-30日、米国テキサス州オースティンで開催された人工知能に関する第20回第9回AI会議において、2167-2173ページが公開された。
訳抜け防止モード: 人工知能に関する第9回AAAI会議 2015年1月25日 - 30日、テキサス州オースティン、米国。 2167-2173ページ。
0.67
AAAI Press. Rahul Jha, Catherine Finegan-Dollak, Ben King, Reed Coke, and Dragomir Radev. AAAIプレス。 Rahul Jha, Catherine Finegan-Dollak, Ben King, Reed Coke, Dragomir Radev 0.76
2015b. Content models for survey generation: A factoid-based evaluation. 2015年。 調査生成のためのコンテンツモデル:イニノイドに基づく評価。 0.68
In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 441–450, Beijing, China. 第53回自然言語処理協会年次総会および第7回自然言語処理国際合同会議(Volume 1: Long Papers)の進行において、ページ441-450、北京、中国。 0.73
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Jian Jin, Qian Geng, Qian Zhao, and Lixue Zhang. Jian Jin、Qian Geng、Qian Zhao、Lixue Zhang。 0.69
2017. Integrating the trend of research interest for reviewer assignment. 2017. レビュアーの課題に研究関心の傾向を統合する。 0.76
In Proceedings of the 26th International Conference on World Wide Web Companion, pages 1233–1241. 第26回ワールドワイドウェブコンパニオン国際会議の進行で、ページ1233-1241。 0.74
Dongyeop Kang, Waleed Ammar, Bhavana Dalvi, Madeleine van Zuylen, Sebastian Kohlmeier, Eduard Hovy, and Roy Schwartz. Dongyeop Kang、Walreed Ammar、Bhavana Dalvi、Madeleine van Zuylen、Sebastian Kohlmeier、Eduard Hovy、Roy Schwartz。
訳抜け防止モード: Dongyeop Kang, Waleed Ammar, Bhavana Dalvi, Madeleine van Zuylen, インターネット・ムービー・データベース(英語) Sebastian Kohlmeier、Eduard Hovy、Roy Schwartz。
0.79
2018. A dataset of peer reviews (peerread): Collection, insights and nlp applications. 2018. peer reviews (peerread): 収集、洞察、nlpアプリケーションのデータセット。 0.75
In Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL), New Orleans, USA. 米国ニューオーリンズにあるNAACL(Association for Computational Linguistics)の北米支部の会合。
訳抜け防止モード: 計算言語学会(naacl)北アメリカ支部の会合において アメリカ合衆国ニューオーリンズ出身。
0.59
Diederik Kingma and Jimmy Ba. dieerik kingmaとjimmy ba。 0.65
2014. Adam: A method for stochastic optimization. 2014. Adam: 確率最適化の方法です。 0.77
arXiv preprint arXiv:1412.6980. arXiv preprint arXiv:1412.6980 0.71
John Langford and Mark Guzdial. ジョン・ラングフォードとマーク・グズディアル。 0.64
2015. The arbitrariness of reviews, and advice for school administrators. 2015. レビューの任意性、学校の管理者へのアドバイス。 0.72
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. Mike Lewis、Yinhan Liu、Naman Goyal、Marjan Ghazvininejad、Abdelrahman Mohamed、Omer Levy、Ves Stoyanov、そしてLuke Zettlemoyer。 0.74
2019. Bart: Denoising sequence-to-sequence pre-training 2019. bart: シーケンスからシーケンスへの事前トレーニング 0.68
英語(論文から抽出)日本語訳スコア
for natural language generation, comprehension. 自然言語生成や理解に役立ちます 0.71
ArXiv, abs/1910.13461. ArXiv, abs/1910.13461。 0.61
translation, and Chin-Yew Lin and Eduard Hovy. 翻訳と Chin-Yew LinとEduard Hovy。 0.66
2003. Automatic evaluation of summaries using n-gram cooccurrence statistics. 2003. n-gram cooccurrence 統計を用いた要約の自動評価 0.81
In Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, pages 150–157. 2003年の北米言語技術会議(英語版)において、150-157ページが計算言語学会の北米支部に提出された。 0.63
Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, and Daniel Weld. Kyle Lo、Lucy Lu Wang、Mark Neumann、Rodney Kinney、Daniel Weld。 0.69
2020. S2ORC: The semantic scholar open research corpus. 2020. s2orc: the semantic scholar open research corpus。 0.83
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4969–4983, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 4969–4983, Online 0.67
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Yi Luan, Luheng He, Mari Ostendorf, and Hannaneh Hajishirzi. Yi Luan、Luheng He、Mari Ostendorf、Hannaneh Hajishirzi。 0.66
2018. Multi-task identification of entities, relations, and coreference for scientific knowledge graph construction. 2018. 科学知識グラフ構築のためのエンティティ、リレーション、コアファレンスをマルチタスクで識別します。 0.79
arXiv preprint arXiv:1808.09602. arXiv preprint arXiv:1808.09602 0.72
Emaad Manzoor and Nihar B. Shah. Emaad ManzoorとNihar B. Shah。 0.87
2020. Uncovering latent biases in text: Method and application to peer review. 2020. テキストで潜在バイアスを明らかにする: メソッドとピアレビューへの応用。 0.77
Saif Mohammad, Bonnie Dorr, Melissa Egan, Ahmed Hassan, Pradeep Muthukrishan, Vahed Qazvinian, Dragomir Radev, and David Zajic. Saif Mohammad, Bonnie Dorr, Melissa Egan, Ahmed Hassan, Pradeep Muthukrishan, Vahed Qazvinian, Dragomir Radev, David Zajic 0.74
2009. Using citations to generate surveys of scientific paradigms. 2009. 引用を使って科学的パラダイムの調査を生成する。 0.73
In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 584–592, Boulder, Colorado. In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Page 584–592, Boulder, Colorado. (英語) 0.94
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ramesh Nallapati, Feifei Zhai, and Bowen Zhou. Ramesh Nallapati, Feifei Zhai, Bowen Zhou。 0.68
2017. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents. 2017. Summarunner: 文書の抽出的要約のための繰り返しニューラルネットワークベースのシーケンスモデル。 0.84
ArXiv, abs/1611.04230. ArXiv, abs/1611.04230。 0.60
Shashi Narayan, Shay B. Cohen, and Mirella Lapata. Shashi Narayan、Shay B. Cohen、Mirrella Lapata。 0.64
2018. Don’t give me the details, just the summary! 2018. 私に詳細、ちょうど要約を与えないでください! 0.76
Topic-aware convolutional neural networks for exIn Proceedings of the 2018 treme summarization. ExIn Proceedings of the 2018 treme summarizationのためのトピックアウェア畳み込みニューラルネットワーク。 0.79
Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium. ベルギー・ブリュッセル自然言語処理における経験的手法に関する会議 0.75
Jennifer Nguyen, Germ´an S´anchez-Hern´andez, N´uria Agell, Xari Rovira, and Cecilio Angulo. Jennifer Nguyen, Germ ́an S ́anchez-Hern ́andez, N ́uria Agell, Xari Rovira, Cecilio Angulo 0.74
2018. A decision support tool using order weighted averaging for conference review assignment. 2018. 会議レビュー課題に対する平均順序重み付けを用いた意思決定支援ツール 0.82
Pattern Recognition Letters, 105:114–120. パターン認識文字 105:114–120。 0.72
Romain Paulus, Caiming Xiong, and Richard Socher. Romain Paulus、Caiming Xiong、Richard Socher。 0.71
2017. A deep reinforced model for abstractive summarization. 2017. 抽象的要約のための深層強化モデル。 0.81
arXiv preprint arXiv:1705.04304. arXiv preprint arXiv:1705.04304 0.71
Vahed Qazvinian and Dragomir R. Radev. Vahed Qazvinian and Dragomir R. Radev 0.81
2008. Scientific paper summarization using citation summary networks. 2008. 引用要約ネットワークを用いた科学論文要約 0.80
In Proceedings of the 22nd International Conference on Computational Linguistics - Volume 1, COLING ’08, page 689–696, USA. 第22回計算言語学国際会議(第1巻)の議事録 ’08, page 689–696, usa. 0.74
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Feng Qiao, Lizhen Xu, and Xiaowei Han. Feng Qiao、Lizhen Xu、Xiaowei Han。 0.66
2018. Modularized and attention-based recurrent convolutional neural network for automatic academic paper aspect In International Conference on Web Inscoring. 2018. モジュール化と注意に基づくリカレント畳み込みニューラルネットワーク : 国際ウェブインスコーリング会議における自動学術論文の側面 0.82
formation Systems and Applications, pages 68–76. 構成 システムおよび適用、68-76ページ。 0.68
Springer. Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Springer Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever 0.63
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.72
OpenAI blog, 1(8):9. OpenAIブログ、1(8):9。 0.81
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, and T. Lillicrap. Jack W. Rae、Anna Potapenko、Siddhant M. Jayakumar、T. Lillicrap。 0.83
2020. Compressive transformers for long-range sequence modelling. 2020. 長距離シーケンスモデリングのための圧縮変圧器 0.75
ArXiv, abs/1911.05507. ArXiv, abs/1911.05507。 0.59
Anna Rogers and Isabelle Augenstein. アンナ・ロジャースと イザベル・アウゲンシュタイン 0.58
2020. What can In Findwe do to improve peer review in NLP? 2020. In FindweはNLPのピアレビューを改善するために何ができるのか? 0.78
ings of the Association for Computational Linguistics: EMNLP 2020, pages 1256–1262, Online. ings of the association for computational linguistics: emnlp 2020, pages 1256–1262, online (英語) 0.81
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Reuven Y Rubinstein and Dirk P Kroese. Reuven Y RubinsteinとDirk P Kroese。 0.76
2013. The cross-entropy method: a unified approach to combinatorial optimization, Monte-Carlo simulation and machine learning. 2013. クロスエントロピー法:組合せ最適化のための統一的なアプローチ、モンテカルロシミュレーション、機械学習。 0.78
Springer Science & Business Media. Springer Science & Business Mediaの略。 0.76
R. Smith. 2006. R.スミス。 2006. 0.75
Peer review: A flawed process at the heart of science and journals. Peer Review: 科学とジャーナルの中心にある欠陥のあるプロセス。 0.70
Journal of the Royal Society of Medicine, 99:178 – 182. The Royal Society of Medicine, 99:178 - 182。 0.71
Gabriel Stanovsky, Noah A. Smith, and Luke Zettlemoyer. Gabriel Stanovsky、Noah A. Smith、Luke Zettlemoyer。 0.74
2019. Evaluating gender bias in machine translation. 2019. 機械翻訳におけるジェンダーバイアスの評価 0.82
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1679–1684, Florence, Italy. The 57th Annual Meeting of the Association for Computational Linguistics, page 1679–1684, イタリア・フィレンツェ。 0.75
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ivan Stelmakh, Nihar Shah, and Aarti Singh. Ivan Stelmakh、Nihar Shah、Aarti Singh。 0.68
2019. On testing for biases in peer review. 2019. ピアレビューにおけるバイアステストについて。 0.71
In Advances in Neural Information Processing Systems, pages 5286– 5296. ニューラル情報処理システムの進歩では、ページ5286 - 5296。 0.79
Sandeep Subramanian, Raymond Li, Jonathan Pilault, and Christopher Pal. Sandeep Subramanian、Raymond Li、Jonathan Pilault、Christopher Pal。 0.67
2019. On extractive and abstractive neural document summarization with transformer language models. 2019. トランスフォーマー言語モデルを用いた抽出および抽象的ニューラル文書要約について 0.78
arXiv preprint arXiv:1909.03186. arXiv preprint arXiv:1909.03186 0.72
Albert N Tabah. Albert N Tabah 0.62
1999. Literature dynamics: Studies on growth, diffusion, and epidemics. 1999. 文学のダイナミクス:成長、拡散、流行に関する研究。 0.79
Annual review of information science and technology (ARIST), 34:249–86. 情報科学と技術(ARIST)の年次レビュー、34:249-86。 0.74
Andrew Tomkins, Min Zhang, and William D Heavlin. Andrew Tomkins、Min Zhang、William D Heavlin。 0.68
2017. Reviewer bias in single-versus double-blind peer review. 2017. シングル対ダブルブラインピアレビューにおけるレビュアーバイアス。 0.75
Proceedings of the National Academy of Sciences, 114(48):12708–12713. 国立科学アカデミー114年(48):12708–12713年。 0.61
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Sukasz Kaiser、Illia Polosukhin。 0.63
2017. Attention is all In Advances in neural information proyou need. 2017. 注意はすべて、必要なニューラルネットワークの進歩にある。 0.74
cessing systems, pages 5998–6008. セッシングシステム、5998-6008ページ。 0.69
英語(論文から抽出)日本語訳スコア
Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez, and Kai-Wei Chang. Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez、Kai-Wei Chang。 0.68
2018. Gender bias in coreference resolution: Evaluation and debiasing methods. 2018. coreference resolution: evaluation and debiasing method におけるジェンダーバイアス 0.83
arXiv preprint arXiv:1804.06876. arXiv preprint arXiv:1804.06876 0.72
Carven Von Bearnensquash. カーベン・フォン・ベアネンスカッシュ(Carven Von Bearnensquash)。 0.45
2010. Paper gestalt. 2010. 紙のゲシュタルト。 0.72
Secret Proceedings of Computer Vision and Pattern Recognition (CVPR). CVPR (Secret Proceedings of Computer Vision and Pattern Recognition) の略。 0.79
David Wadden, Shanchuan Lin, Kyle Lo, Lucy Lu Wang, Madeleine van Zuylen, Arman Cohan, and Hannaneh Hajishirzi. David Wadden, Shanchuan Lin, Kyle Lo, Lucy Lu Wang, Madeleine van Zuylen, Arman Cohan, Hannaneh Hajishirzi。 0.77
2020. Fact or fiction: VerifyIn Proceedings of the 2020 ing scientific claims. 2020. Fact or fiction: VerifyIn Proceedings of the 2020 ing scientific claims。 0.84
Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 7534–7550, Online. 自然言語処理における経験的手法に関する会議(emnlp)7534-7550ページオンライン。 0.72
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ke Wang and Xiaojun Wan. Ke WangとXiaojun Wan。 0.76
2018. Sentiment analysis of peer review texts for scholarly papers. 2018. 学術論文におけるピアレビューテキストの感性分析 0.72
In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, pages 175– 184. 41th International ACM SIGIR Conference on Research & Development in Information Retrievalで、175–184ページ。 0.81
Qingyun Wang, Qi Zeng, Lifu Huang, Kevin Knight, Heng Ji, and Nazneen Fatema Rajani. Qingyun Wang, Qi Zeng, Lifu Huang, Kevin Knight, Heng Ji, Nazneen Fatema Rajani。 0.75
2020. Reviewrobot: Explainable paper review generation In Proceedings of based on knowledge synthesis. 2020. reviewrobot: explainsable paper review generation in proceedings of based on knowledge synthesis(英語) 0.82
INLG. Wen Xiao and Giuseppe Carenini. INLG所属。 Wen Xiao と Giuseppe Carenini。 0.78
2019. Extractive summarization of long documents by combining global and local context. 2019. グローバルコンテキストとローカルコンテキストを組み合わせた長い文書の抽出的要約 0.82
ArXiv, abs/1909.08089. ArXiv, abs/1909.08089。 0.60
Xinyu Xing, Xiaosheng Fan, and Xiaojun Wan. Xinyu Xing、Xiaosheng Fan、Xiaojun Wan。 0.64
2020. Automatic generation of citation texts in scholarly papers: A pilot study. 2020. 学術論文における引用テキストの自動生成:パイロット研究。 0.81
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 6181–6190, Online. 第58回計算言語学会年次総会の進行において、6181-6190ページ、オンライン。 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Wenting Xiong and Diane Litman. Wenting XiongとDiane Litman。 0.76
2011. AutomatIn Proically predicting peer-review helpfulness. 2011. Automat ピアレビューの有用性を予測する。 0.70
ceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pages 502–507, Portland, Oregon, USA. アメリカオレゴン州ポートランドにある第49回コンピュータ言語学会年次総会(Human Language Technologies、502–507ページ)の開催。 0.67
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Michihiro Yasunaga, Jungo Kasai, Rui Zhang, A. R. Fabbri, Irene Li, D. Friedman, and Dragomir R. Radev. 安永道弘、香西淳吾、周、A・R・ファブリ、アイリーン・リー、D・フリードマン、ドラゴミール・R・ラデフ。
訳抜け防止モード: Michihiro Yasunaga, Jungo Kasai, Rui Zhang, A. R. Fabbri Irene Li , D. Friedman, Dragomir R. Radev
0.86
2019a. Scisummnet: A large annotated corpus and content-impact models for scientific paper summarization with citation networks. 2019年。 Scisummnet:引用ネットワークによる学術論文要約のための大きな注釈付きコーパスおよびコンテンツインパクトモデル。 0.76
In AAAI. Michihiro Yasunaga, Jungo Kasai, Rui Zhang, Alexander R. Fabbri, Irene Li, Dan Friedman, and Dragomir R. Radev. AAAI出身。 安永道弘、加西順吾、張ルイ、アレクサンダー・R・ファブリ、アイリーン・リー、ダン・フリードマン、ドラゴミール・R・ラデフ。 0.65
2019b. Scisummnet: A large annotated corpus and content-impact models for scientific paper summarization with citation networks. 2019年。 Scisummnet:引用ネットワークによる学術論文要約のための大きな注釈付きコーパスおよびコンテンツインパクトモデル。 0.72
In The Thirty-Third AAAI Conference on Artificial Intelligence, AAAI 2019, The Thirty-First Innovative Applications of Artificial Intelligence Conference, IAAI 2019, The Ninth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019, Honolulu, Hawaii, USA, January 27 - February 1, 2019, pages 7386–7393. The Thirty-Third AAAI Conference on Artificial Intelligence, AAAI 2019, The Thirty-First Innovative Applications of Artificial Intelligence Conference, IAAI 2019, The Ninth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019, Honolul, Hawaii, USA, January 27 - February 1, 2019, page 7386–7393 0.90
AAAI Press. Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q Weinberger, and Yoav Artzi. AAAIプレス。 Tianyi Zhang、Varsha Kishore、Felix Wu、Kilian Q Weinberger、Yoav Artzi。 0.70
2019. Bertscore: Evaluating text generation with bert. 2019. Bertscore: bertによるテキスト生成の評価。 0.83
arXiv, pages arXiv– 1904. arXiv, page arXiv– 1904。 0.93
英語(論文から抽出)日本語訳スコア
A Appendices A.1 Reviews of this Paper Written by Our a appendices a.1 この論文のレビュー 0.56
Model Notably, the following review is generated based on the paper without this review as well as the TL;QR section (The original version can be found here: https://drive.google .com/file/d/ 1nC4kCaaeqKRiajcvK75 g421Ku9Jog1n9/view? モデル このレビューとTL;QRセクション(オリジナルのバージョンは、https://drive.google .com/file/d/ 1nC4kCaaeqKRiajcvK75 g421Ku9Jog1n9/view? 0.77
usp=sharing). And we directly put the system output here without any grammar check. usp=共有)。 そして、システム出力を文法チェックなしで直接ここに配置します。 0.69
Summary : This paper presents an approach to evaluate the quality of reviews generated by an automatic summarization system for scientific papers . 要約:本稿は,科学論文の自動要約システムによって生成されたレビューの質を評価するための手法である。 0.74
The authors build a dataset of reviews , named ASAP-Review1 , from machine learning domain , and make fine-grained annotations of aspect information for each review , which provides the possibility for a richer evaluation of generated reviews . 著者らは、機械学習ドメインからasap-review1と呼ばれるレビューのデータセットを構築し、レビュー毎にアスペクト情報の細かなアノテーションを作成し、生成されたレビューをよりリッチに評価する可能性を提供する。 0.65
They train a summarization model to generate reviews from scientific papers , and evaluate the output according to our evaluation metrics described above . 研究論文からレビューを生成するために要約モデルを訓練し, 上記の評価指標に基づいて評価を行った。 0.71
They propose different architectural designs for this model , which they dub ReviewAdvisor , and comprehensively evaluate them , interpreting their relative advantages and disadvantages . 彼らは、ReviewAdvisorをダブしたこのモデルの異なるアーキテクチャ設計を提案し、それらを包括的に評価し、相対的な利点とデメリットを解釈します。 0.52
They find that both human and automatic reviewers exhibit varying degrees of bias regarding native English speakers vs non-native English speakers , and find that native speakers tend to obtain higher scores on “ Clarity ” and “ Potential Impact ” . 彼らは、人間と自動レビュアーの両方がネイティブの英語話者と非ネイティブの英語話者に関するさまざまな偏見を示し、ネイティブの話者は「クラリティ」と「潜在的な影響」でより高いスコアを得る傾向があります。 0.71
The paper is well-written and easy to follow . ペーパーはよく書き、続くこと容易です。 0.66
Strengths : 1 . The proposed approach is novel and interesting . 強さ:1。 提案されたアプローチは新しくて興味深い。 0.67
2 .The paper is easy to read and well-organized . 2) 読みやすく, 整理が容易であった。 0.68
3 .The evaluation metrics are wellmotivated . 3. 評価指標は好意的だ。 0.67
4 .The authors have done a good job of evaluating the proposed approach . 4) 著者らは,提案手法の評価を良好に行なった。 0.75
Weaknesses : 1 ) The evaluation metrics used in this paper are not well-defined . 弱点: 1 ) 本論文で用いる評価指標は明確に定義されていない。 0.66
For example , what is the definition of “ good review quality ” ? 例えば、“良質なレビュー品質”の定義とは何でしょう? 0.80
What is the criteria for a good review ? 良いレビューの基準は何ですか? 0.65
2 ) It is not clear to me how the authors define “ factually correct ” , “ fair ” or “ non-factual ” in Section 3.2 . 2) 著者が「実際正しい」,「公正」,「非事実」をセクション3.2でどのように定義しているかは私には明らかではない。 0.73
3 ) The authors should provide more details about the evaluation metrics in the paper . 3) 著者は論文で評価指標についてより詳しく説明する必要がある。 0.77
For instance , what are the criteria used in Table 1 and Table 2 ? 例えば、テーブル1とテーブル2で使用される基準は何ですか? 0.82
What are the metrics used for the evaluation in Table 3 and Table 4 ? 表3および表4の評価に使用されるメトリクスは何ですか? 0.83
4 ) It would be better if the authors can provide more explanations about the results of Table 2 and Table 3 . 4 ) 著者が表2および表3の結果についてより多くの説明を提供できればよいです。 0.78
5 ) In Table 3 , the authors mentioned that “ we found the constructed automatic review system generates nonfactual state- 5) 表3では,「構築された自動レビューシステムが非現実的状態を生成することがわかった。 0.78
ments regarding many aspects of the paper assess1ASpect-enhanc ed-Anced Peer Review dataset , which is a serious flaw in a high-stakes setting such as reviewing . ASpect-enhanced-Ance d Peer Reviewデータセットの評価1ASpect-Anced Peer Reviewデータセットの多くの側面に関する要素。 0.56
However , there are some bright points as well . しかし、いくつかの明るい点もあります。 0.74
” However , it is unclear to me why the authors found this problem . しかし、なぜ著者がこの問題を発見したのかは不明です。 0.68
6 ) In Section 4.3 , it seems that the authors did not provide any explanation about why the human reviewers are biased . 6) 第4.3節では,人間レビュー者がなぜ偏っているのか,著者らは説明しなかったようである。 0.70
7 ) In Figure 1 , it would be good to provide more information about the training data . 7) 図1では、トレーニングデータについてもっと情報を提供するのがよいでしょう。 0.80
8 ) In section 4.4 , it will be better to provide some explanation about how the human reviews are generated . 8)セクション4.4では、人間のレビューがどのように生成されるかを説明することをお勧めします。 0.64
A.2 Screenshot of Our Demo System A.3 Details for Evaluation Metrics REC In §2.2, the REC function we define corresponds to the recommendation sentiment of a review, with {−1, 0, 1} representing negative, neutral and positive. A.2 デモシステムのスクリーンショット A.3 評価指標の詳細 REC A.2.2 で定義するREC関数はレビューの推奨感情に対応しており、{−1, 0, 1} はネガティブ、ニュートラル、ポジティブを表す。 0.80
To decide the sentiment of a reference review, we use the rating information from reviewers: (i) if the rating corresponds to marginal accept or marginal reject, then we regard it as neutral; (ii) if the rating is above marginal accept, then we regard it as positive; (iii) otherwise, we regard it as negative. 参照レビューの感情を決定するために、私たちはレビュアーからのレーティング情報を使用します:(i)レーティングがマージン受け入れまたはマージン拒否に対応している場合は、それを中立と見なします;(ii)レーティングがマージン受け入れを超える場合は、それをポジティブと見なします;(iii)そうでなければ、それをネガティブと見なします。 0.70
To decide the sentiment of a generated review, two members of the project team judged the sentiment polarity of a review. 生成したレビューの感情を決定するために、プロジェクトチームの2人のメンバーがレビューのポーラリティを判断した。 0.65
If they agreed with each other, then we uses the agreed-upon sentiment, if they disagreed with each other, then we label the sentiment of that review as neutral. もし彼らが互いに同意しあうなら、私たちは合意された感情を使い、お互いに意見が一致しないなら、レビューの感情は中立であるとラベル付けします。 0.65
The Cohen kappa of two annotators is 0.5778, which is commonly referred to as “moderate” agreement. 2つのアノテーションのコーエンカッパは0.5778であり、一般に「モデレート」合意と呼ばれる。 0.67
INFO The judgement of evidence for negative aspects was conducted by a member of the project team, who judged whether each identified negative aspect was accompanied by evidence irrespective of the correctness of the evidence. 資料 否定的な側面に対する証拠の判断は、プロジェクトチームのメンバーによって行われ、それぞれの特定された否定的な側面が証拠の正確性に関係なく証拠を伴うかどうかを判断した。 0.61
In other words, as long as there is a reason, we count that as an evidence. 言い換えれば、理由がある限り、私たちはそれを証拠として数えます。 0.71
SACC & ACON The judgement of summary accuracy and valid support for negative aspects are performed by one of the first authors of the reviewed paper. SACC & ACON 要約精度の判断と否定的側面の有効なサポートは、レビュー論文の最初の著者の一人によって行われる。 0.70
Summary and each negative aspect in the review should be scored 0, 0.5 or 1 which represent agree, partially agree and disagree respectively. 要約とレビューの否定的な側面はそれぞれ0,0.5,1で、それぞれ同意し、部分的に同意し、同意しない。 0.68
We provide authors with the following instructions: 著者に次の指示を提供します。 0.57
“We have created a Google doc for your paper, and われわれはあなたの新聞にGoogleドキュメントを作成した。 0.64
英語(論文から抽出)日本語訳スコア
Figure 8: Generated reviews with aspects by our ReviewAdvisor demo associated with evidence sentences from the paper “Deep Residual Learning for Image Recognition” (He et al., 2016). 図8: 論文「Deep Residual Learning for Image Recognition」(He et al., 2016)のエビデンス文に関連するReviewAdvisorデモによる側面によるレビューを生成しました。 0.80
英語(論文から抽出)日本語訳スコア
"1" denotes you can score the summary as well as each aspect with its corresponding comments inside the red brackets. 「1」は 要約と各アスペクトを、対応するコメントを赤い括弧に入れてスコア付けすることができる。 0.75
agree, "0.5" denotes partially agree, "0" denotes disagree. 0.5"は部分的に一致し、"0"は反対を表す。 0.69
only need to assign a score based on your judgment. あなたの判断に基づいて スコアを割り当てるだけです 0.60
agree means that you think it’s factually correct. 同意とは、それが事実正しいと考えることを意味する。 0.76
For each aspect, agree means that you think the strength/weakness the reviewer points out is reasonable or constructive.” それぞれの側面について、レビュアーが指摘する強さや弱さは合理的か建設的だと考えることを意味します。 0.47
For summary, You BERTScore Regarding BERTScore, we apply the same rescaling procedure following Zhang et al. 要するに。 あなた BERTScore BERTScore については Zhang などと同じ再スケーリング手順を適用する。 0.63
(2019), which does not affect the ranking ability of BERTScore, but make the scores more discriminative. (2019)は、bertscoreのランク付け能力には影響を与えないが、スコアをより差別的にする。
訳抜け防止モード: (2019年) BERTScoreのランキング能力に影響を与えませんが、スコアをより差別的にします。
0.78
A.4 Training of Aspect Tagger We formulate the annotation process as a sequence labeling problem where the input is a sequence consisting of n words S = w1,··· , wn, and the target is a sequence of tags one for each word T = t1,··· , tn. A.4 アスペクトタグのトレーニング 入力が n ワード S = w1, ... , wn からなるシーケンスであり、ターゲットは各単語 T = t1, ... , tn のタグ 1 のシーケンスであるシーケンスラベル問題としてアノテーション処理を定式化する。 0.83
We aim to find a mapping f such that T = f (S) can convey reasonable aspect information in the input sequence. T = f(S) が入力シーケンス内の合理的なアスペクト情報を伝達できるマッピング f を見つけることを目指しています。 0.81
We first segment each review into multiple sentences and consider each sentence as an individual training example.26 For a tokenized sequence contains n tokens (w1, w2,··· , wn), we use BERT to get a contextualized representation for each token (e1, e2,··· , en), where ei represents the vector for i-th token. 最初に各レビューを複数の文に分割し、各文を個々のトレーニング例として考慮します.26 トークン化されたシーケンスにnトークン(w1、w2、······、wn)が含まれている場合、BERTを使用して各トークン(e1、e2、·····、en)のコンテキスト化された表現を取得し、eiはi番目のトークンのベクトルを表します。
訳抜け防止モード: まず、各レビューを複数の文に分割し、各文章を個別のトレーニング例とみなす。26 トークン化されたシーケンスには、n個のトークン(w1,)が含まれる。 w2, · · ·, wn ) 各トークン (e1, e2) の文脈化表現を得るために BERT を用いる。 · · · ·, en ) ei は i - th トークンのベクトルを表す。
0.69
Then those contextualized representations can be used as features for token classification: 次に、これらのコンテキスト化された表現をトークン分類の機能として使用できる。 0.52
pi = softmax(Wei + b) pi = ソフトマックス(Wei + b) 0.87
where W and b are tunable parameters of the multilayer perceptron. ここで w と b は多層パーセプトロンの可変パラメータである。 0.69
pi is a vector that represents the probability of token i being assigned to different aspects. pi は、トークン i が異なる側面に割り当てられる確率を表すベクトルである。 0.78
26We also tried using larger context such as paragraph, but found out the results less satisfying since the model identified fewer aspects. 26 段落などのより大きな文脈も試したが,本モデルではアスペクトが少なかったため,結果の満足度は低かった。 0.72
We use the negative log likelihood of the correct 我々は正の負の対数確率を用いる 0.67
labels as training loss: トレーニングロスとしてのラベル: 0.58
L = −(cid:88) L = −(cid:88) 0.92
t∈T log ptj t∈T log ptj 0.72
where j is the label of token t, and T denotes all the tokens. ここで j はトークン t のラベルであり、T はすべてのトークンを表す。 0.79
We used 900 annotated reviews for training and 100 for validation which is equivalent to using 16,543 training data and 1,700 validation data since we consider sentence as the basic individual training sample. 文章を基本的個人訓練サンプルとみなすため, 900件の注釈付きレビューと, 16,543件のトレーニングデータと1,700件の検証データに相当する100件の検証を行った。 0.75
The initial BERT checkpoint we used is “bert-large-cased” which is the large version of BERT with an uncased vocabulary. 私たちが使った最初のBERTチェックポイントは“bert-large-cased”で、未解決の語彙を持つBERTの大きなバージョンです。 0.57
We used Adam optimizer (Kingma and Ba, 2014) with a learning rate of 5e−5 to finetune our model. 我々はAdam Optimizationr (Kingma and Ba, 2014) を学習率5e−5で使用してモデルを微調整した。 0.82
We trained for 5 epochs and saved the model that achieved lowest loss on validation set as our aspect tagger. 我々は5つのエポックをトレーニングし、アスペクトタグとしてバリデーションセットで最小の損失を達成したモデルを省いた。 0.60
A.5 Heuristics for Refining Prediction A.5 精製予測のためのヒューリスティックス 0.60
Results The seven heuristic rules used for refining the prediction results are listed below. 結果 予測結果の精錬に用いられる7つのヒューリスティックな規則を以下に示す。 0.73
Examples of those rules are shown in Tab. これらのルールの例をタブに示します。 0.75
9. 1. If there are no other tags (they are tagged as “O” which stands for Outside) between two “summary” tags, then replace all tags between them with “summary” tag. 9. 1. 2つの“summary”タグの間に他のタグ(“O”としてタグ付けされている)がない場合、その間にすべてのタグを“summary”タグに置き換える。 0.84
2. If there are multiple discontinuous text spans tagged as “summary”, we keep the first one and discard others. 2. とタグ付けされた複数の不連続テキストがある場合、最初のテキストを保持し、他のテキストを捨てる。 0.70
3. If the punctuation is separately tagged and is different from its neighbors, we replace its tag to “O”. 3. 句読点が別々にタグ付けされ、隣人とは異なる場合は、そのタグを「O」に置き換えます。 0.77
4. If two identical tags are separated by a single other tag, then replace this tag with its right neighbor’s tag. 4. 2つの同一タグが1つの他のタグによって分離された場合、このタグをその隣人のタグに置き換える。 0.79
5. If there exists a single token with a tag and its neighbors are “O”, then replace this tag to ‘O”. 5. タグを持つ単一のトークンが存在し、その隣人が「O」である場合は、このタグを「O」に置き換えます。 0.82
6. For a “non-summary” “non-O” tag span, if its neighbors are “O” and the start/end of this span is not special symbol (for example, punctuations or other symbols that have 1 length), then we expand from its start/end until we meet other “non-O” tag or special symbol. 6. 非サマリー」の「非O」タグスパンの場合、隣人が「O」であり、このスパンの開始/終了が特別なシンボル(例えば、句読点または長さ1の他のシンボル)ではない場合は、開始/終了から他の「非O」タグまたは特別なシンボルに出会うまで拡張します。 0.80
英語(論文から抽出)日本語訳スコア
Heuristics ヒューリスティックス 0.45
Before After 1 2 3 前 その後 1 2 3 0.77
4 5 6 7 The authors present a method for learning Hamiltonian functions[Summary] ··· [O] this is[Summary] ··· [O] that maps past observations to a latent p, q space in a VAE-like fashion. 4 5 6 7 著者らは、ハミルトニアン函数 [summary] ··· [o] これは[summary] ··· [o] であり、過去の観測をvaeのような方法で潜在 p, q 空間に写像する。 0.81
[Summary] The authors present a method for learning Hamiltonian functions ··· this is ··· that maps past observations to a latent p, q space in a VAE-like fashion. 【概要】 著者らはハミルトン関数・・これを学ぶ方法を提示し、過去の観測をVAEのような方法で潜在p, q空間にマップする。 0.64
[Summary] This paper proposes a new representation learning model for graph optimization, Graph2Seq . 【概要】 本稿では,グラフ最適化のための新しい表現学習モデルGraph2Seqを提案する。 0.66
[Summary] ··· the theorems are very interesting . [要約] ··· 定理は非常に興味深い。 0.63
[Positive Originality] ··· The performance of Graph2Seq is remarkable. 正の独創性]···· graph2seqのパフォーマンスは目覚ましい。 0.67
[Summary] This paper proposes a new representation learning model for graph optimization, Graph2Seq . 【概要】 本稿では,グラフ最適化のための新しい表現学習モデルGraph2Seqを提案する。 0.66
[Summary] ··· the theorems are very interesting . [要約] ··· 定理は非常に興味深い。 0.63
[Positive Originality] ··· The performance of Graph2Seq is remarkable. 正の独創性]···· graph2seqのパフォーマンスは目覚ましい。 0.67
[O] The proposed idea is novel[Positive Originality] . 【O】 提案されたアイデアは小説[ポジティブオリジナリティ]です。 0.65
[Positive Motivation] The paper is well written and easy to follow. [肯定的な動機]論文はよく書かれており、従うのが簡単です。 0.55
[Positive Clarity] The overall notion of[Positive Originality] learnning[O] a Hamiltonian network directly is a great one. [肯定的明快さ] ハミルトンのネットワークを直接学習する[正の独創性]という概念は素晴らしいものです。 0.61
[Positive Originality] It is[O] clearly[Positive Clarity] geared towards DNN practitioners. 【正の独創性】 DNNの実践者を対象にした、[O]明らかに[Positive Clarity]です。 0.60
[O] In contrast , this aspect[O] is missing from other work on ML[Negative Meaningful Comparison] for optimization. 【O】 対照的に、この側面[O]は最適化のためのML[ネガティブ平均比較]の他の仕事から欠けています。 0.64
[O] The authors propose a novel approach to estimate unbalanced optimal transport between sampled measures that scales well in the dimension and in the number of samples ··· The effectiveness of the approach[Summary] is shown on some tasks. 【O】 著者らは、寸法とサンプル数でよくスケールするサンプル測定値間の不均衡な最適輸送を推定する新しいアプローチを提案します ·· アプローチの有効性は、いくつかのタスクで示されています。 0.73
[O] The proposed idea is novel[Positive Originality] . 【O】 提案されたアイデアは小説[ポジティブオリジナリティ]です。 0.65
[O] The paper is well written and easy to follow. [O]紙はよく書かれており、従うのが簡単です。 0.72
[Positive Clarity] The overall notion of learning a Hamiltonian network directly is a great one. [肯定的明快さ] ハミルトンのネットワークを直接学習するという全体的な概念は素晴らしいものです。 0.67
[Positive Originality] It is clearly geared towards DNN practitioners. 【正の独創性】 明らかにDNNの実践者向けである。 0.64
[O] In contrast, this aspect is missing from other work on ML for optimization. 【O】 対照的に、最適化のためのMLの他の作業では、この側面は欠落しています。 0.57
[Negative Meaningful Comp.] [否定的な意味の備考] 0.46
The authors propose a novel approach to estimate unbalanced optimal transport between sampled measures that scales well in the dimension and in the in the number of samples ··· The effectiveness of the approach is shown on some tasks. 著者らは、寸法とサンプル数でよくスケールするサンプリングされた測定値間の不均衡な最適輸送を推定する新しいアプローチを提案します···アプローチの有効性は、いくつかのタスクで示されています。 0.71
[Summary] Table 9: Examples of seven heuristic rules used for refineing prediction results. 【概要】 表9: 予測結果を洗練するための7つのヒューリスティックなルールの例。 0.63
7. If the “summary” span does not end with a period, then we truncate or extend it at most five words to make it ends with a period. 7. サマリー」スパンが期間で終わらなければ、我々はそれを期間で終わるようにするために、少なくとも5つの単語でそれを切り離すか、または拡張します。
訳抜け防止モード: 7. 要約」の期間が期間で終わっていない場合は、 5つの単語で切り離したり 拡張したりします ある期間で終わるようにします
0.77
A.6 An Example of Automatically Annotated A.6 自動アノテーションの例 0.89
Reviews Tab. 10 illustrates an annotated review after using our trained aspect tagger and heuristic refining rules in Appendix A.5. レビュー Tab。 Appendix A.5.10は、トレーニングを受けたアスペクトタグガーとヒューリスティックなリファインルールを使用した後の注釈付きレビューを示しています。 0.68
Although here we do not add separate polarity tags to avoid visual burden, the polarity of each aspect the model predicts is correct. ここでは、視覚的負担を避けるために別々の極性タグを追加しないが、モデルが予測する各側面の極性は正しい。 0.71
A.7 Calculation of Aspect Precision and A.7 アスペクト精度の計算と計算 0.70
Aspect Recall To measure aspect precision, we asked three annotators to decide whether each aspect span the model predicted is accurate. アスペクトリコール アスペクト精度を測定するために、3つのアノテーションーにモデルが予測される各アスペクトスパンが正確かどうかを尋ねました。 0.52
They were asked to delete a tagged span if they regarded it as inappropriate. 彼らは、タグ付きスパンを不適切なものとみなす場合、削除するよう求められた。 0.51
We denote all prediction spans as M, and the filtered spans from annotators as F1, F2 and F3. 我々は、全ての予測範囲を M と表現し、フィルタされたアノテータを F1, F2, F3 と表現する。 0.62
We represent nS as the total number of text spans in S. Here we define correct spans as 私たち S のテキストスパンの総数として nS を表現します。 ここでは正しいスパンを定義します。 0.64
C = {l|l ∈ F1, l ∈ F2, l ∈ F3} C = {l|l ∈ F1, l ∈ F2, l ∈ F3} 0.90
The aspect precision is calculated using Formula 5. アスペクト精度は式5で計算される。 0.74
Precision = nC nM (5) 精度= nC nM (5) 0.81
For measuring aspect recall, we asked three annotators to label aspect spans that they identified while the model ignored. アスペクトリコールを測定するため、3つのアノテータに、モデルが無視している間に識別したアスペクトスパンのラベル付けを依頼した。
訳抜け防止モード: アスペクトリコールの測定のために 3人の注釈官に モデルを無視しながら識別したアスペクトスパンをラベル付ける。
0.56
We denote the additional labeled spans from one annotator as A where A = {a1, a2,··· , anA}, ai represents a text span. A = {a1, a2, ... , anA}, ai はテキストスパンを表す。
訳抜け防止モード: 1つのアノテータから追加のラベル付きスパンを a = { a1, } と示す。 a2, · · ·, ana }, ai はテキストスパンを表す。
0.68
We denote the additional labeled spans from other two annotators as B and C. 他の2つのアノテータのラベルスパンを B と C と表記します。 0.65
We define common ignored spans for every two annotators as below. 2 つのアノテータごとに共通の無視スパンを定義します。 0.53
| · | denotes the number of tokens in a span and ∩ takes the intersect span | · | はスパンのトークンの数を表わし、s はインターセクトスパンを取る 0.60
英語(論文から抽出)日本語訳スコア
summary originality clarity 概要 独創性 clarity 0.66
meaningful comparison motivation 意味のある比較 動機 0.65
substance This paper studies the graph embedding problem by using encoder-decoder method . substance 本稿では,エンコーダデコーダ法によるグラフ埋め込み問題について検討する。 0.74
The experimental study on real network data sets show the features extracted by the proposed model is good forclassification . 実ネットワークデータセットに関する実験的研究は,提案モデルによって抽出された特徴が分類に適していることを示す。
訳抜け防止モード: 実ネットワークデータセットの実験的研究 提案モデルによって抽出された特徴は分類に適している。
0.84
Strong points of this paper: 1. この論文の強いポイント:1。 0.69
The idea of using the methods from natural language processing to graph mining is quite interesting . 自然言語処理からグラフマイニングまで,この手法を用いるというアイデアはとても興味深い。 0.72
2. The organization of the paper is clear Weak points of this paper: 1. 2. 論文の組織化は、この論文の弱点を明確化している。 0.72
Comparisons with state-of-art-methods ( Graph Kernels ) is missing . state-of-art-methods (グラフカーネル)との比較は欠落している。 0.52
2. The problem is not well motivated, are there any application of this . 2. 問題は十分に動機付けられていません、これの適用はあります。 0.72
What is the difference from the graph kernel methods ? graph kernelメソッドとの違いは何ですか? 0.85
The comparison with graph kernel is missing . graph kernelとの比較は欠落している。 0.71
3. Need more experiment to demonstrate the power of their feature extraction methods . 3. 特徴抽出手法の威力を示すには、さらなる実験が必要です。 0.79
( Clustering, Search, Prediction etc.) (クラスタリング、検索、予測等) 0.65
4. Presentation of the paper is weak . 4. ペーパーの提示は弱いです。 0.72
There are lots of typos and unclear statements. タイプミスや不明瞭な記述がたくさんあります。 0.57
Table 10: An example of automatically labeled reviews. 表10: 自動ラベル付きレビューの例。 0.69
between two spans. I1 = {ai ∩ bj| 2つのスパンの間に I1 = {ai s bj| 0.63
I2 = {bi ∩ cj| I2 = {bi s cj| 0.72
I3 = {ai ∩ cj| I3 = {ai > cj| 0.76
|ai ∩ bj| |bi ∩ cj| |ai/bj| cj| (複数形 cj|s) 0.38
min{|ai|,|bj|} > 0.5} min{|bi|,|cj|} > 0.5} min{|ai|,|cj|} > 0.5} min{|ai|,|bj|} > 0.5} min{|bi|,|cj|} > 0.5} min{|ai|,|cj|} > 0.5} 0.82
|ai ∩ cj| We also define common ignored spans for three 但し、cj| 3つの共通無視スパンも定義します 0.61
annotators as below. 下記のアノテーションです 0.34
|ai ∩ bj ∩ ck| 略】〔a〕bj〔j〕ck〔ck〕 0.20
I = {ai ∩ bj ∩ ck| I = {ai > bj > ck| 0.64
min{|ai|,|bj|,|ck|} > 0.3} where ai, bj, ck are text spans from A, B, C respectively. min{|ai|,|bj|,|ck|} > 0.3} ここで ai, bj, ck はそれぞれ A, B, C のテキストである。 0.86
We assume all the spans the model predicts are correct. モデルが予測する範囲がすべて正しいと仮定します。 0.79
Then we can calculate total number of spans using Formula 6. そして、式6を用いてスパンの総数を計算できる。 0.70
n =nM + nA + nB + nC − nI1 − nI2− n =nM + nA + nB + nC − nI1 − nI2− 0.90
nI3 + nI (6) nI3 + nI (6) 0.90
The aspect recall is calculated using Formula 7. アスペクトリコールは、式7で計算される。 0.60
Recall = nM n リコール= nM n 0.72
(7) A.8 Adjusting BART for Long Documents The first attempts we made to directly adjust BART for long text either expanded its positional encodings or segmented the input text and dealt with each segment individually. (7) A.8 BART for Long Documents BARTを直接長文に調整する最初の試みは、その位置エンコーディングを拡張するか、入力テキストをセグメント化して各セグメントを個別に処理することであった。 0.79
Below are three ways we attempted. 以下は私たちが試みた3つの方法です。 0.55
Arc-I: Position Encoding Expanded BART Since the original BART model is pretrained on 512 sequence length and fintuned on 1024 sequence Arc-I: Position Encoding Expanded BART オリジナルの BART モデルは 512 のシーケンス長で事前訓練され、1024 のシーケンスで調整される 0.79
length.27 We followed this approach and tried copying the first 1024 position encodings periodically for longer sequence and finetuned the model on our own dataset. length.27 このアプローチに従い、最初の1024の位置エンコーディングを長いシーケンスで定期的にコピーし、自身のデータセットでモデルを微調整しました。 0.65
Arc-II: Independently-window ed BART In this architecture, we simply chunked the documents into multiple windows with 1024 window size, and then use BART to encode them separately. Arc-II: Independently-window ed BART このアーキテクチャでは、ドキュメントを1024ウィンドウサイズで複数のウィンドウにチャンクし、BARTを使用して個別にエンコードしました。 0.78
The final output of the encoder side is the concatenation of those window outputs. エンコーダ側の最終的な出力は、それらのウィンドウ出力の連結です。 0.84
The decoder can then generate texts as normal while attending to the whole input representations. デコーダは入力表現全体に参加しながら、通常どおりテキストを生成することができる。 0.71
Arc-III: Dependently-windowed BART In Arc-II, we ignore the interdependence between each chunk which may lead to incoherence in generated texts. Arc-III: 依存ウィンドウのBART Arc-IIでは、各チャンク間の相互依存を無視します。 0.65
Here, to model the inter-window dependencies, we followed the approach introduced in Rae et al. ここでは、ウィンドウ間の依存関係をモデル化するために、Rae et alで導入されたアプローチに従った。 0.58
(2020). We kept a compressive memory of the past and used this memory to compute the representation of new window. (2020). 我々は過去の圧縮メモリを保持し、このメモリを使って新しいウィンドウの表現を計算した。 0.85
The final output of the encoder side is the concatenation of those window outputs as in Arc-II. エンコーダ側の最終的な出力は、Arc-IIのようなウィンドウ出力の連結である。 0.84
However, we found that none of these adjustments could generate satisfying fluent and coherent texts according to our experiments. しかし,本実験では,これらの調整が不完全かつ一貫性のあるテキストを生成できないことが判明した。 0.66
Common problems include interchanges between first and third person narration (They... Our model...), contradiction between consecutive sentences, more descriptive texts and fewer opinions, etc. 一般的な問題としては、第1と第3のナレーションの交換(They...我々のモデル...)、連続した文間の矛盾、より記述的な文章、より少ない意見などがあります。 0.53
A.9 CE Extraction Details sentence The ASAP-Review dataset A.9 CE extract details sentence The ASAP-Review dataset 0.78
basic statistics our is listed in Tab. 基本 統計 本誌はTabに載っている。 0.65
12. of 27https://github.com /pytorch/fairseq/iss ues/1413 12. ですから 27https://github.com /pytorch/fairseq/iss ues/1413 0.55
英語(論文から抽出)日本語訳スコア
KEYWORDS find show imply study bound apply KEYWORDS find show imply study bound apply 0.85
prove design reduce metric better result 設計がメトリクスをより良くすることを示す 0.54
examine explore propose observe present develop examine explore proposed observe present development(英語) 0.71
address analyze explain benefit compare measure 宛先分析 利益比較尺度の説明 0.73
baseline suggest achieve maximize perform minimize increase improve decrease dataset evaluate discover ベースラインの提案が最大化 最小化 改善 削減 データセット 評価 発見 0.79
optimize efficient effective introduce interpret experiment 効率的な導入実験の最適化 0.74
outperform generalize understand investigate demonstrate state-of-the-art overperform generalize understand studyが最先端を実証 0.70
Table 11: Predefined keywords for filtering sentences. 表11: 文をフィルタリングするための事前定義されたキーワード。 0.54
Avg. Sentence Num. Avg。 Sentence Num 0.66
ICLR NeurIPS Both 216 209 ICLR NeurIPS 216 209 0.69
198 Table 12: Sentence statistics of ASAPReview dataset. 198 表12: ASAPReviewデータセットの文統計。 0.83
“Avg. Sentence Num.” denotes average sentence number in a paper. 「Avg。 Sentence Num.”は、論文の平均文数を表す。 0.75
We use two steps to extract salient sentences from a source document: (i) Keywords filtering, (ii) Cross-entropy method A.9.1 Keywords Filtering We have predefined 48 keywords and in the first stage, we select sentences containing those keywords as well as their inflections. i) キーワードフィルタリング (ii) クロスエントロピーメソッド a.9.1 キーワードフィルタリング (a.9.1 キーワードフィルタリング) 事前定義された48のキーワードがあり、第1段階ではこれらのキーワードを含む文をインフレクションとともに選択する。 0.80
The 48 keywords are shown in Tab. 48のキーワードはタブに表示されます。 0.70
11. After applying keywords filtering, the statistics of selected sentences are shown in Tab. 11. キーワードフィルタリングを適用すると、選択した文の統計がタブに表示される。 0.76
13. Avg. Sentence Num. 13. Avg。 Sentence Num 0.72
ICLR NeurIPS Both 92 ICLR NeurIPS と 92 0.78
97 85 Table 13: Sentence statistics of selected sentences after keywords filtering. 97 85 表13:キーワードフィルタリング後の選択文の文統計。 0.84
“Avg. Sentence Num.” denotes average selected sentence number in a paper. 「Avg。 Sentence Num.」は、論文の平均選択文数を表します。 0.72
A.9.2 Cross Entropy Method Following Feigenblat et al. A.9.2 Feigenblatなどに続くクロスエントロピー法 0.72
(2017)’s approach in unsupervised summaization. (2017) の非教師的要約に対するアプローチ。 0.60
We formalize the sentence extraction problem as a combinatorial optimization problem. 文抽出問題を組合せ最適化問題として定式化する。 0.65
Specifically, we define the performance function R as below. 具体的には、パフォーマンス関数 R を次のように定義する。 0.70
performance function is that we want to select sentences that can cover more diverse words. パフォーマンス関数は、より多様な単語をカバーできる文を選択したいということです。 0.69
Note that when calculating R(S), we do preprocessing steps (i.e. 注意: R(S) を計算するとき、前処理のステップ(すなわち)を行う。 0.67
lowercasing, removing punctuation, removing stop words etc.). 減らすこと、句読点を取除くこと、停止の言葉を取除くこと等)。 0.56
For each paper containing n sentences, we aim to find a binary vector p = (p1,··· , pn) in which pi indicates whether the i-th sentence is selected such that the conbination of selected sentences achieves highest performance score and also contains fewer than 3028 sentences. n文を含む各論文において、i文が選択されているかどうかを示す2進ベクトル p = (p1,······, pn) を、選択された文のコンビネーションが最高性能スコアを達成し、また3028文未満を含むように見つけることを目的とする。 0.64
We did this by using Cross Entropy Method (Rubinstein and Kroese, 2013). 我々はクロスエントロピー法(Rubinstein and Kroese, 2013)を用いてこれを行った。 0.82
The algorithm is shown below. アルゴリズムを以下に示します。 0.75
1. For each paper containing n sentences, we first assume that each sentence is equally likely to be selected. 1. n文を含む各論文について、まず各文が等しく選択される可能性が高いと仮定します。 0.71
We start with p0 = (1/2, 1/2, ..., 1/2). p0 = (1/2, 1/2, ..., 1/2) から始める。 0.79
Let t := 1. t := 1 とする。 0.65
2. Draw a sample X1,··· , XN of Bernoulli vectors with success probability vector pt−1. 2. 成功確率ベクトル pt−1 を持つベルヌーイベクトルのサンプル X1,··· , XN を描く。 0.85
For each vector, concatenate the sentences selected and get N sequences S1,··· , SN . 各ベクトルについて、選択された文を連結し、N 列 S1,··· , SN を得る。 0.64
Calculate the performance scores R(Si) for all i, and order them from smallest to biggest, R(1) ≤ R(2) ≤ ··· ≤ R(N ). すべての i に対するパフォーマンススコア R(Si) を計算し、最小値から最大値 R(1) ≤ R(2) ≤ ·· ≤ R(N ) に順序付けします。 0.89
Let γt be (1 − ρ) sample quantile of the performances: γt = R((cid:100)(1−ρ)N(cid:101)). γt = r((cid:100)(1−ρ)n(cid:101)) である。 0.49
3. Use the same sample to calculate ˆpt = 3. 同じサンプルを使って spt = を計算します 0.81
(ˆpt,1,··· , ˆpt,n) via (pt,1,····· , ^pt,n)経由 0.87
(cid:80)N (cid:80)N (cid:80)N (cid:80)N 0.84
R(S) = −(cid:88) R(S) = −(cid:88) 0.98
w∈S pS(w) = w∈S pS(w) = 0.72
Count(w) Len(S) Count(w) Len(S) 0.85
pS(w) log pS(w) pS(w) log pS(w) 0.85
ˆpt,j = i=1 I{R(Si)≥γt}I{Xij =1} シュプット、j = i=1 I{R(Si)≥γt}I{Xij =1} 0.80
i=1 I{R(Si)≥γt} i=1 I{R(Si)≥γt} 0.90
(10) (8) (9) (10) (8) (9) 0.85
where I{c} takes the value 1 if c is satisfied, otherwise 0. ここで I{c} は c が満たされたときの値 1 を取る。 0.74
4. Perform a smoothed update. 4. スムーズな更新を行う。 0.78
Where S represents the concatenation of selected sentences, Len(S) represents the number of words in S while Count(w) represents the number of times w appears in S. The intuition behind this S が選択された文の連結を表す場合、Len(S) は S の単語数を表し、Count(w) は S に現れる w の回数を表す。 0.74
pt = α ˆpt + (1 − α)pt−1 pt = α spt + (1 − α)pt−1 0.98
(11) 28This number is chosen according to our empirical observations. (11)この数字は経験的観測によって選択される。 0.76
We need to extract sentences that can fit BART’s input length (1024). BARTの入力長に合った文章を抽出する必要があります(1024)。 0.72
英語(論文から抽出)日本語訳スコア
4. When it generates meaningful comparison, it 4. 意味のある比較を生成すると 0.82
will attend to places contains “et al.” 参加する場所は"et al"を含む。 0.69
A.11 Calculation of Aspect Score For accepted (rejected) papers, we calculate the average aspect score for each aspect. A.11 Aspect Score For accepted (rejected) papers, we calculated the average aspect score for each aspects。 0.76
The aspect score of a review is calculated as レビューのアスペクトスコアが計算される 0.55
follows. • If an aspect does not appear in a review, then we count the score for this aspect as 0.5 (which stands for neutral) 次だ • アスペクトがレビューに表示されない場合は、このアスペクトのスコアを0.5としてカウントします(これは中立を表します)。 0.62
• If an aspect appears in a review, we denote its occurrences as O = {o1, o2,··· , on} where n is the total number of occurrences. • アスペクトがレビューに現れると、その発生は O = {o1, o2, ... , on} として表される。
訳抜け防止モード: • アスペクトがレビューに現れると、その発生を o = { o1, と表現する。 o2, · · · ·, on } ここで n は発生回数の合計である。
0.72
And we denote the positive occurrences of this aspect as Op = {op1, op2,··· , opn} where pn is the total number of positive occurrences. そして、この側面の正の出現を、pn が正の出現の総数である Op = {op1, op2,··· , opn} と表す。 0.64
The aspect score is calculated using Formula 12. アスペクトスコアは式12で計算される。 0.69
Aspect Score = アスペクトスコア = 0.55
pn n (12) A.12 Bias Analysis for All Models Here, following the methods we proposed in §5.3.1, we list the bias analysis for all models in Fig. pnn (12) 図5.3.1で提案した手法に従って、図中のすべてのモデルのバイアス分析をリストアップします。 0.68
10, Fig. 11, Tab. 10位。 11、タブ。 0.54
14, Tab. 15. 14、タブ。 15. 0.75
B Supplemental Material B.1 Dataset Annotation Guideline The for ing aspects can be https://github.com/n eulab/ReviewAdvisor/ blob/main/materials/ AnnotationGuideline. pdf B Supplemental Material B.1 Dataset Annotation Guideline for ing aspects can be https://github.com/n eulab/ReviewAdvisor/ blob/main/materials/ AnnotationGuideline. pdf 0.59
in reviews annotatfound at in review annotatfound (複数形 annotatfounds) 0.56
annotation guideline 5. 注釈 ガイドライン 5. 0.75
If the value of γt hasn’t changed for 3 iterations, then stop. γt の値が 3 回のイテレーションで変更されていない場合、停止する。 0.78
Otherwise, set t := t + 1 and return to step 2. さもなくば、t := t + 1 とし、ステップ 2 に戻る。 0.73
The elements in pt will converge to either very close to 0 or very close to 1. pt の要素は 0 に非常に近いか 1 に非常に近いかのいずれかに収束します。 0.75
And we can sample from the converged pt to get our extraction. そして、収束したptからサンプルを採取して抽出することもできます。 0.61
We chose N = 1000, ρ = 0.05 and α = 0.7 when we ran this algorithm. このアルゴリズムの実行時に n = 1000, ρ = 0.05, α = 0.7 を選択した。 0.75
If we happen to select more than 30 sentences in a sample, we drop this sample. サンプルで30以上の文を選択した場合には、このサンプルをドロップします。 0.79
Note that we slightly decrease the initial probability when there are more than 90 sentences after filtering to ensure enough sample number in the first few iterations. 注意すべきは、最初の数回のイテレーションで十分なサンプル数を確保するために、フィルタリング後に90文以上ある場合の初期確率をわずかに下げることである。
訳抜け防止モード: 初期確率を少し減らすことに注意。 最初の数回で十分なサンプル番号を確保するため、フィルタリング後に90以上の文があります。
0.81
A.10 Detailed Analysis and Case Study We take our aspect-enhanced model using CE extraction to conduct case study. A.10 詳細な分析とケーススタディCE抽出を用いたアスペクト強化モデルを用いてケーススタディを実施する。
訳抜け防止モード: A.10 詳細な分析とケーススタディ CE抽出を用いた強化モデル ケーススタディを行うため。
0.76
Tab. 16 lists five examples for each aspect the model mentions. Tab。 モデルが言及する各アスペクトについて、5つの例を挙げる。 0.70
It can be seen that the language use of generated reviews are pretty close to real reviewers. 生成されたレビューの言語使用は、実際のレビュワーにかなり近いことがわかります。 0.76
Evidence-sensitive For aspect-enhanced model, It would also be interesting to trace back to the evidence when the model generates a specific aspect. エビデンスに敏感なアスペクトエンハンスモデルでは、モデルが特定のアスペクトを生成する場合のエビデンスを追跡することも興味深い。 0.62
To do that we inspect where the model attends when it generates a specific aspect by looking at the attention values with respect to the source input.29 And interestingly, we found that the model attends to the reasonable place when it generates a specific aspect. そこで本研究では,モデルが特定のアスペクトを生成する際に,ソース入力に対する注意値を見ることによって,モデルが特定のアスペクトを生成する際に,どの位置に出席しているかを検査する。 0.73
Fig. 9 presents the attention heatmap of several segment texts, the bottom of the figure shows aspects the model generates. フィギュア。 9は、いくつかのセグメントテキストの注目熱マップを示し、図の下部は、モデルが生成する側面を示しています。 0.51
There are some common patterns we found when we examined the attention values between the source input and output. ソース入力と出力の間の注意値を調べると、よく見られるパターンがいくつか見つかった。 0.74
1. When the model generates summary, 1. モデルが要約を生成するとき 0.83
it will attend to sentences that contain strong indicators like “we propose” or “we introduce”. 提案”や“導入”といった強力な指標を含む文に出席する。
訳抜け防止モード: のような強い指標を含む文に出席する。 と提案する。 あるいは“紹介する”。
0.63
2. When it generates originality, it will attend to previous work part as well as places describing contributions of this work. 2. 独創性を生み出すと、以前の作業部分や、この作品の貢献を記した場所にも参加する。 0.74
3. When it generates substance, it will attend to experiment settings and number of experiments conducted; 3. 物質を発生させると、実験の設定や実施された実験の数に出席する。 0.77
29The way we aggregate attention values is to take the maximum, no matter is to aggregate tokens to a word or to aggregate different attention heads or to aggregate words to an aspect. 29 注意値を集約する方法は、単語に対するトークンを集約するか、異なる注意ヘッドを集約するか、あるいはアスペクトに単語を集約するかに関わらず、最大値を取ることです。 0.68
英語(論文から抽出)日本語訳スコア
Figure 9: Attention heatmap between source document and generated reviews. 図9: ソースドキュメントと生成されたレビューの間の注目ヒートマップ。 0.64
+ denotes positive sentiment and − denotes negative sentiment. + はポジティブな感情を表し、- はネガティブな感情を表す。 0.58
Figure 10: Spider chart of aspect scores for all models with regard to nativeness. 図10: ネイティブ性に関するすべてのモデルのアスペクトスコアのスパイダーチャート。 0.66
INTRO INTRO+ASPECT CE CE+ASPECT ABSTRACT+CE ABSTRACT+CE+ASPECT Intro INTRO+ASPECT CE+ASPECT ABSTRACT+CE ABSTRACT+CE+ASPECT 0.49
MOT -0.72 +3.12 +2.56 +1.13 +1.77 +1.72 MOT -0.72 +3.12 +2.56 +1.13 +1.77 +1.72 0.59
ORI +18.71 +15.75 +18.33 +24.77 +23.01 +22.23 織 +18.71 +15.75 +18.33 +24.77 +23.01 +22.23 0.33
SOU +3.84 +6.14 +11.16 +28.78 +3.79 +12.94 宗 +3.84 +6.14 +11.16 +28.78 +3.79 +12.94 0.35
SUB -3.66 +0.66 -13.41 -2.92 +0.44 -8.30 SUB -3.66 +0.66 -13.41 -2.92 +0.44 -8.30 0.59
REP +0.73 -10.61 -3.71 -3.18 +0.37 -0.38 REP +0.73 -10.61 -3.71 -3.18 +0.37 -0.38 0.59
CLA -13.32 -13.50 -9.94 -12.02 -15.18 -13.40 CLA -13.32 -13.50 -9.94 -12.02 -15.18 -13.40 0.59
CMP +2.40 +19.05 +13.49 +18.36 -2.13 +0.89 CMP +2.40 +19.05 +13.49 +18.36 -2.13 +0.89 0.59
Total 43.39 68.84 72.58 91.18 46.69 59.86 総 43.39 68.84 72.58 91.18 46.69 59.86 0.52
Table 14: Disparity differences regarding nativeness. 表14: ネイティブ性に関する差異。 0.78
Total is the sum of absolute value of disparity difference. 合計は差分差の絶対値の和である。 0.77
MOTORISOUSUBREPCLACM PNativeNon-native(d) Reference reviews(b) Generated reviews.MOTORISOUSUB REPCLACMPMOTORISOUSU BREPCLACMPMOTORISOUS UBREPCLACMPMOTORISOU SUBREPCLACMPMOTORISO USUBREPCLACMPMOTORIS OUSUBREPCLACMP(a) Introduction(b) Introduction + aspect(c) CE(e) CE + aspect(f) Abstract + CE(g) Abstract + CE + aspect motoRISOUSUBREPCLACM PNativeNon-native(d) 参照レビュー(b) 生成レビュー(b) 生成レビュー(b) 概要 + CE(g) 概要 + CE(g) 概要 + CE(g) 概要 + CE(g) 概要 + CE(g) 0.60
英語(論文から抽出)日本語訳スコア
Figure 11: Spider chart of aspect scores for all models with regard to anonymity. 図11:匿名性に関するすべてのモデルのアスペクトスコアのスパイダーチャート。 0.70
INTRO INTRO + ASPECT CE CE+ASPECT ABSTRACT+CE ABSTRACT+CE+ASPECT INTRO INTRO+ASPECT CE+ASPECT ABSTRACT+CE ABSTRACT+CE+ASPECT 0.66
MOT -5.69 -3.53 +1.89 -4.20 +3.18 +5.45 MOT -5.69 -3.53 +1.89 -4.20 +3.18 +5.45 0.59
ORI -4.43 -1.65 -1.18 -12.32 -0.05 +2.49 織 -4.43 -1.65 -1.18 -12.32 -0.05 +2.49 0.33
SOU +2.76 +7.85 +0.05 -0.52 -7.96 +2.80 宗 +2.76 +7.85 +0.05 -0.52 -7.96 +2.80 0.35
SUB -0.64 +0.01 -0.44 -2.57 -3.73 +5.69 SUB -0.64 +0.01 -0.44 -2.57 -3.73 +5.69 0.59
REP +5.65 +5.93 +13.09 +2.70 +2.25 +1.33 REP +5.65 +5.93 +13.09 +2.70 +2.25 +1.33 0.59
CLA +5.80 +11.02 +8.00 +8.75 +8.69 +8.03 CLA +5.80 +11.02 +8.00 +8.75 +8.69 +8.03 0.59
CMP +3.02 +4.20 -2.56 -10.31 -12.02 -3.79 CMP +3.02 +4.20 -2.56 -10.31 -12.02 -3.79 0.59
Total 28.00 34.20 27.21 41.37 37.88 29.59 総 28.00 34.20 27.21 41.37 37.88 29.59 0.52
Table 15: Disparity differences regarding anonymity. 表15:匿名性に関する差異。 0.77
Total is the sum of absolute value of disparity difference. 合計は差分差の絶対値の和である。 0.77
MOTORISOUSUBREPCLACM PAnonymousNon-anonym ous(d) Reference reviewsMOTORISOUSUBR EPCLACMPMOTORISOUSUB REPCLACMPMOTORISOUSU BREPCLACMPMOTORISOUS UBREPCLACMPMOTORISOU SUBREPCLACMPMOTORISO USUBREPCLACMP(a) Introduction(b) Introduction + aspect(c) CE(e) CE + aspect(f) Abstract + CE(g) Abstract + CE + aspect MOTORISOUSUBREPCLACM PMP匿名(d)参照レビューMOTORISOUREPCLACMPMO TORISOUREPCLACMPMOTO RISOUREPCLACMPMOTORI SOUSUBREPCLACMPMOTOR ISOUREPCLACMPMOTORIS OUREPCLAMPMPMP(a)紹介(b)導入+アスペクト(c)CE(e)CE +アスペクト(f)抽象+CE(g)CE +アスペクト 0.31
英語(論文から抽出)日本語訳スコア
Motivation 1. The motivation of using the conditional prior is unclear. 動機1。 条件付き事前の使用の動機は不明確である。 0.62
2. I think this paper will be of interest to the NeurIPS community. 2. この論文はNeurIPSコミュニティにとって興味深いものだと思います。 0.79
3. The idea of continual learning is interesting and the method is well motivated. 3. 継続的学習のアイデアは興味深く、その方法のモチベーションも高い。 0.77
4. Overall, I think this paper is a good contribution to the field of adversarial robustness. 4. 全体として、この論文は敵対的堅牢性の分野への良い貢献だと思います。 0.76
5. It is hard to understand the motivation of the paper and the motivation behind the proposed methods. 5. 論文の動機と提案手法の背後にある動機を理解するのは難しい。 0.71
Originality 1. This paper presents a novel approach to cross-lingual language model learning. オリジナル1。 本稿では,言語間モデル学習における新しいアプローチを提案する。 0.70
2. The novelty of the paper is limited . 2. 論文の目新しさは限られている。 0.73
The idea of using low rank matrices is not new. 低ランク行列を使うという考えは新しいものではない。 0.70
3. The proposed method seems to be very similar to the method of Dong et al. 3. 提案手法はDong et alの手法と非常によく似ているようである。 0.77
( 2018 ). 4. ( 2018 ). 4. 0.85
The idea of using neural networks to learn edit representations is interesting and novel . ニューラルネットワークを使って編集表現を学ぶという考えは興味深く、新しい。 0.68
5. The proposed method seems to be a simple extension of the batched-E-step method proposed by Shazeer 5. 提案手法はshazeerが提案するバッチeステップ法の簡易拡張であると考えられる。 0.82
et al. Soundness 1. This assumption is not true in practice . など。 健全性1。 この仮定は実際には当てはまりません。 0.55
2. The experimental results are not very convincing . 2. 実験結果はあまり説得力がない。 0.80
3. But the authors do not provide any theoretical justification for this claim. 3. しかし、著者はこの主張を理論的に正当化していない。 0.74
4. The theoretical results are sound and the experimental results are convincing. 4. 理論的結果は健全であり、実験結果は説得力がある。 0.76
5. The paper does not provide any insights on the reasons for the success of the supervised methods. 5. この論文は、監督された方法の成功理由についての洞察を提供していない。 0.74
Substance 1. The experiments are well-conducted. 物質1。 実験は順調に進んでいる。 0.60
2. The ablation study in Section A.1.1 is not sufficient. 2. セクションA.1.1のアブレーション研究は不十分である。 0.75
3. It would be better to show the performance on a larger dataset. 3. より大きなデータセットでパフォーマンスを示す方がよいでしょう。 0.79
4. The authors should show the performance on more difficult problems. 4. 著者は、より困難な問題のパフォーマンスを示すべきです。 0.78
5. The experiments are extensive and show the effectiveness of the proposed method. 5. 実験は広範囲に渡り,提案手法の有効性を示す。 0.84
Replicability 1. It is not clear how the network is trained. 再現性1。 ネットワークがどのように訓練されているかは明らかではない。 0.57
2. The authors should provide more details about the experiments. 2. 著者は実験の詳細を提供する必要がある。 0.83
3. The authors should provide more details about the hyperparameters. 3. 著者はハイパーパラメータの詳細を提供する必要がある。 0.76
4. The authors should provide more details about the training procedure. 4. 著者は、トレーニング手順の詳細を提供する必要がある。 0.74
5. It would be better if the authors can provide more details about the hyperparameters of LST. 5. LSTのハイパーパラメータについて、著者がもっと詳しく説明できればよいでしょう。 0.74
Meaningful Comparison 1. 意味のある比較 1。 0.66
The author should compare with [ 1 , 2 , 3 ] and [ 4 ] . 著者は [ 1 , 2 , 3 ] と [ 4 ] と比較すべきである。 0.82
2. The authors should compare the proposed method with existing methods . 2. 提案手法を既存手法と比較すべきである。 0.73
3. It would be more convincing if the authors can compare with other methods such as AdaGrad. 3. 著者がAdaGradのような他の方法と比較できれば、より説得力があります。 0.73
4. authors should compare the performance with the state-of-the-art methods in real-world applications . 4. 著者は実世界の適用の最先端の方法と性能を比較するべきです。 0.61
5. I also think the paper should compare the performance of intrinsic fear with the other methods proposed 5. また、本論文は、本質的な恐怖を他の方法と比較すべきである。 0.71
in [ 1 , 2 , 3 , 4 , 5 ]. in [ 1 , 2 , 3 , 4 , 5 ]. 0.79
Clarity 1. There are some typos in the paper. 明快さ1。 紙にはいくつかのタイプミスがあります。 0.53
2. The paper is well-written and easy to follow. 2. 紙はよく書かれており、従うのが簡単です。 0.72
3. It is not clear to me how to interpret the results in Table 1. 3. 結果を表1でどのように解釈するかは私にはわからない。 0.85
4. It would be better if the authors can provide a more detailed explanation of the difference. 4. 著者がこの違いについてより詳細な説明を提供できればよいでしょう。 0.74
5. The paper is not well organized . 5. ペーパーはよく整理されません。 0.79
It is hard to follow the description of the proposed method. 提案手法の説明に従うのは難しい。 0.55
Table 16: Examples for different aspect mention from generated reviews. 表16: 生成したレビューと異なるアスペクトの言及の例。 0.77
                                                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。