論文の概要、ライセンス

# (参考訳) e-CARE: 説明可能な因果推論のための新しいデータセット [全文訳有]

e-CARE: a New Dataset for Exploring Explainable Causal Reasoning ( http://arxiv.org/abs/2205.05849v1 )

ライセンス: CC BY 4.0
Li Du, Xiao Ding, Kai Xiong, Ting Liu, and Bing Qin(参考訳) 因果関係を理解することは、様々な自然言語処理(NLP)アプリケーションにとって極めて重要である。 ラベル付き例を超えて、因果関係の概念的な説明は因果的事実の深い理解を提供し、因果的推論プロセスを促進する。 しかし、これらの説明情報は既存の因果推論資源にはまだ残っていない。 本稿では,21K以上の因果推論質問を含む人間記述型Causal Reasoningデータセット(e-CARE)と,因果的疑問の自然言語による説明によって,このギャップを埋める。 実験の結果, 因果的事実に対する正当な説明の生成は, いまだに最先端のモデルでは特に困難であり, 因果的推論モデルの正確性と安定性の促進に有用であることがわかった。

Understanding causality has vital importance for various Natural Language Processing (NLP) applications. Beyond the labeled instances, conceptual explanations of the causality can provide deep understanding of the causal facts to facilitate the causal reasoning process. However, such explanation information still remains absent in existing causal reasoning resources. In this paper, we fill this gap by presenting a human-annotated explainable CAusal REasoning dataset (e-CARE), which contains over 21K causal reasoning questions, together with natural language formed explanations of the causal questions. Experimental results show that generating valid explanations for causal facts still remains especially challenging for the state-of-the-art models, and the explanation information can be helpful for promoting the accuracy and stability of causal reasoning models.
公開日: Thu, 12 May 2022 02:41:48 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
e-CARE: a New Dataset for Exploring Explainable Causal Reasoning e-CARE: 説明可能な因果推論のための新しいデータセット 0.63
Li Du, Xiao Ding∗, Kai Xiong, Ting Liu, and Bing Qin 李デュ、Xiao Ding∗、開王、Ting Liu、Bing Qin 0.30
Research Center for Social Computing and Information Retrieval ソーシャルコンピューティングと情報検索研究センター 0.67
Harbin Institute of Technology, China 中国・ハルビン工科大学 0.53
{ldu, xding, kxiong, tliu,qinb}@ir.hit.edu.cn du, xding, kxiong, tliu,qinb}@ir.hit.edu.cn 0.41
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] I A . s c [ 【私】 A! sc [ 0.50
1 v 9 4 8 5 0 1 v 9 4 8 5 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract Understanding causality has vital importance for various Natural Language Processing (NLP) applications. 概要 因果関係を理解することは、様々な自然言語処理(NLP)アプリケーションにとって極めて重要である。 0.50
Beyond the labeled instances, conceptual explanations of the causality can provide deep understanding of the causal facts to facilitate the causal reasoning process. ラベル付き例を超えて、因果関係の概念的な説明は因果的事実の深い理解を提供し、因果的推論プロセスを促進する。 0.60
However, such explanation information still remains absent in existing causal reasoning resources. しかし、これらの説明情報は既存の因果推論資源にはまだ残っていない。 0.59
In this paper, we fill this gap by presenting a human-annotated explainable CAusal REasoning dataset (e-CARE), which contains over 21K causal reasoning questions, together with natural language formed explanations of the causal questions. 本稿では,21K以上の因果推論質問を含む人間記述型Causal Reasoningデータセット(e-CARE)と,因果的疑問の自然言語による説明によって,このギャップを埋める。 0.80
Experimental results show that generating valid explanations for causal facts still remains especially challenging for the state-of-the-art models, and the explanation information can be helpful for promoting the accuracy and stability of causal reasoning models. 実験の結果, 因果的事実に対する正当な説明の生成は, いまだに最先端のモデルでは特に困難であり, 因果的推論モデルの正確性と安定性の促進に有用であることがわかった。 0.68
1 Introduction Causal reasoning is one of the most central cognitive abilities of human beings (Waldmann and Hagmayer, 2013; Jonassen et al , 2008), which enables one to understand the observed facts and predict the future. 1 はじめに 因果推論は人間の最も中心的な認知能力の1つである(Waldmann and Hagmayer, 2013; Jonassen et al , 2008)。
訳抜け防止モード: 1 はじめに 因果推論は人間の最も中心的な認知能力の1つである(ウォルドマンとハグマイヤー)。 2013 ; Jonassen et al, 2008 )。 観察された事実を理解し 未来を予測することができます
0.57
However, although recent causal reasoning models have achieved impressive performances on certain hand-crafted datasets, there still remains a considerable gap compared to human performances, as they cannot achieve stable performances across different datasets and are susceptible to adversarial attacks (McCoy et al , 2019; Poliak et al , 2018; Gururangan et al , 2018). しかしながら、最近の因果推論モデルは、特定の手作りデータセットで印象的なパフォーマンスを達成しているが、異なるデータセット間で安定したパフォーマンスを達成できず、敵攻撃を受けやすいため、人間のパフォーマンスと比較して大きなギャップが残っている(McCoy et al , 2019; Poliak et al , 2018; Gururangan et al , 2018)。 0.70
One key factor leading to such drastic contrast is that, present causal reasoning models only learn to induce empirical causal patterns that are predictive to the label, while human beings seek for deep and conceptual understanding of the causality to explain the observed causal facts. このような劇的なコントラストにつながる重要な要因の1つは、現在の因果推論モデルはラベルに予測可能な経験的因果パターンを誘導することしか学ばず、人間は観察された因果事実を説明するために因果性の深い概念的理解を求めることである。 0.73
The conceptual ∗Corresponding author Figure 1: Conceptual explanations of observed causality can be helpful for understanding the unseen causal facts. 概念 ∗対応作家 図1: 観察された因果関係の概念的な説明は、未知の因果事実を理解するのに役立ちます。 0.47
explanations can not only serve as a touchstone to examine whether the underlying causal mechanism has been thoroughly understood, but it can also in turn support the causal reasoning process. 説明は、基礎となる因果メカニズムが完全に理解されているかどうかを調べるための手掛かりとなるだけでなく、因果推論プロセスをサポートすることもできる。 0.70
As illustrated in Figure 1, observing the causal fact C1: adding rock into hydrochloric acid causes E1: rock dissolved, one may further ask why such a causal relationship exists and reach the plausible conceptual explanation that Acid is corrosive, which goes beyond the isolated facts and reaches the conceptual nature to reveal the principle of the causal mechanism. 図1に示すように、塩酸に岩を加えるとe1:岩が溶解するので、なぜそのような因果関係が存在するのかを問うことができ、酸は腐食性であり、孤立した事実を超え、因果機構の原理を明らかにする概念的性質に到達できる。 0.75
However, despite the critical importance of conceptual explanations in causal reasoning, there is still a lack of such an explainable causal reasoning dataset. しかし、因果推論における概念的説明の重要さにもかかわらず、説明可能な因果推論データセットは依然として欠如している。 0.64
To fill this gap, we contribute an explainable CAusal REasoning dataset (eCARE),together with a new causal explanation generation task, and a novel Causal Explanation Quality (CEQ) evaluation metric. このギャップを埋めるために、説明可能なCausal Reasoning dataset(eCARE)、新しい因果説明生成タスク、および新しいCausal Explanation Quality(CEQ)評価指標を提案する。
訳抜け防止モード: このギャップを埋めるために,説明可能な因果推論データセット(ecare)を,新たな因果説明生成タスクとともに提供します。 新たな因果説明品質(ceq)評価指標。
0.74
The e-CARE dataset is constructed by crowdsourcing and contains over 21K multiple-choice causal reasoning questions, which makes e-CARE the largest human-annotated commonsense causal reasoning dataset to the best of our knowledge. e-CAREデータセットはクラウドソーシングによって構築され、21万件以上の複数選択因果推論質問を含んでいる。 0.43
In addition to the causal reasoning question itself, eCARE also provides a free-text-formed conceptual explanation for each causal question to explain why the causation exists. 因果推論問題自体に加えて、eCAREは因果関係が存在する理由を説明するために、各因果関係問題に対して自由テキスト形式の概念的説明を提供する。 0.57
On this basis, we propose a new causal explanation generation task that requires models not only to choose the correct causal fact but also to generate the ex- そこで本研究では,モデルが正しい因果事実を選択するだけでなく,元を生成することを要求する新たな因果説明生成タスクを提案する。 0.73
CauseEffectCausalRel ationshipConceptual ExplanationObserved Causal FactC1: Adding rock into hydrochloric acid E1: Rock dissolvedAcid is corrosive 因果関係 因果関係 概念説明 因果関係 ファクトC1:塩酸E1に岩石を添加 溶存酸は腐食性 0.63
英語(論文から抽出)日本語訳スコア
planation for the choice. In addition, to directly measure the quality of generated explanations, we propose a novel causal explanation quality evaluation metric (namely, CEQ score). 選択を計画する。 さらに,生成した説明の質を直接測定するために,新しい因果的説明品質評価指標(ceqスコア)を提案する。 0.71
Compared to conventional text generation evaluation metrics such as BLEU (Papineni et al , 2002) and ROUGE (Lin, 2004) which mainly evaluate the textual or semantic similarity between generated explanations with golden annotations, CEQ score focuses on evaluating how much promotion an explanation can bring to understanding the causal mechanism. BLEU (Papineni et al , 2002) やROUGE (Lin, 2004) などの従来のテキスト生成評価指標と比較して, CEQスコアは, 説明が因果メカニズムの理解にどの程度の促進をもたらすかを評価することに焦点を当てている。 0.71
The dataset is publicly available at https: //github.com/Waste-W ood/e-CARE/. データセットはhttps: //github.com/Waste-W ood/e-CARE/で公開されている。 0.41
Experimental results demonstrate that the causal questions of e-CARE are still challenging for the state-of-the-art (SOTA) pretrained language models, indicating the effectiveness of the e-CARE dataset in evaluating the causal learning ability of models. 実験 結果は e-CAREの因果問題はまだ、最先端(SOTA)事前訓練言語モデルでは難しい問題であり、モデルの因果学習能力を評価する上でのe-CAREデータセットの有効性を示している。 0.63
In addition, the explanation signal received in the training process can enhance the performance and the stability of the reasoning model, while the SOTA baselines still have trouble in explaining the causal facts at a conceptual level. また、学習プロセスで受信された説明信号は推論モデルの性能と安定性を高めることができるが、somaベースラインは依然として因果事実を概念レベルで説明するのに苦労している。 0.65
These analyses highlight the importance of the conceptual explanations in causal reasoning, and suggest an avenue for future researches. これらの分析は因果推論における概念的説明の重要性を強調し、将来の研究への道筋を示唆している。 0.64
2 Related Work 2.1 Commonsense Causal Reasoning 2 関連作業 2.1 常識因果推論 0.82
Datasets Existing commonsense causal reasoning corpora differ in their annotation guidelines and how they are constructed: (1) whether the corpus is automatically constructed or built by human annotation; (2) whether the annotation unit of the corpus is word-level, phrase-level, or sentence-level. データセット 既存のコモンセンス因果推論コーパスは,(1) コーパスが自動で構築されるか,あるいは人的アノテーションによって構築されるか,(2) コーパスのアノテーションユニットが単語レベル,フレーズレベル,文レベルであるか,というガイドラインと構築方法が異なる。 0.68
To obtain abundant causal knowledge, a natural way is extracting causal knowledge using heuristic rules from large-scale open-domain web text corpora (Luo et al , 2016; Li et al , 2020; Sap et al , 2019). 豊富な因果知識を得るために、大規模オープンドメインWebテキストコーパス(Luo et al , 2016; Li et al , 2020; Sap et al , 2019)からヒューリスティックルールを用いて因果知識を抽出する自然な方法がある。 0.76
However, the reporting bias may challenge both the coverage and quality of the extracted causal knowledge. しかし、レポートバイアスは抽出された因果知識のカバレッジと品質の両方に挑戦する可能性がある。 0.59
Different from automatic construction, human annotation can endow datasets with higher precision. 自動構築とは異なり、ヒューマンアノテーションはデータセットを高い精度で付与することができる。 0.57
A line of work focuses on providing word-level causality knowledge (Girju et al , 2007; Mostafazadeh et al , 2016; Do et al , 2011; Hendrickx et al , 2019). 単語レベルの因果関係の知識の提供に焦点が当てられている(Girju et al , 2007; Mostafazadeh et al , 2016; Do et al , 2011; Hendrickx et al , 2019)。 0.83
However, a word is not a complete semantic unit, which may limit the integrity of causal expressions and lead to ambi- しかし、単語は完全な意味単位ではなく、因果表現の完全性を制限し、アンビにつながる可能性がある 0.73
Anno. Unit Size Expl. アンノ 単位サイズ Expl。 0.52
W 11M N P 314M N W 11M N P 314M N 0.46
Dataset Automatically-Built Dataset CausalNet (Luo et al , 2016) CausalBank (Li et al , 2020) Human-Annotated Dataset N SemEval-2007 T4 (Girju et al , 2007) N CaTeRS (Mostafazadeh et al , 2016) EventCausalityData (Do et al , 2011) N SemEval-2010 T8 (Hendrickx et al , 2019) W 1,003 N 117 N ESC (Caselli and Vossen, 2017) 271 N T-CBank (Bethard and Martin, 2008) 318 CausalTimeBank (Mirza et al , 2014) N 1,803 N BECauSE 2.0 (Dunietz et al , 2017) 172 TCR (Ning et al , 2019) N 1,000 N COPA (Roemmele et al , 2011) e-CARE 21K Y Dataset Automatically-Built Dataset CausalNet (Luo et al , 2016) CausalBank (Li et al , 2020) Human-Annotated Dataset N SemEval-2007 T4 (Girju et al , 2007) N CaTeRS (Mostafazadeh et al , 2016) EventCausalityData (Do et al , 2011) N SemEval-2010 T8 (Hendrickx et al , 2019) W 1,003 N 117 N ESC (Caselli and Vossen, 2017) 271 N T-CBank (Bethard and Martin, 2008) 318 CausalTimeBank (Mirza et al , 2014) N 1,803 N BECauSE 2.0 (Dunietz et al , 2017) 172 TCR (Ning et al , 2019) N 1,000 N COPA (Roemmele et al , 2011) e-CARE 21K Y 0.50
W 220 W 488 W 580 W 220 W 488 W 580 0.42
P P P P S S S P P P P S S S 0.42
Table 1: A list of previous commonsense causal reasoning datasets. 表1: 以前のcommonsense因果推論データセットのリスト。 0.75
In the column “Annotation Unit”, “W”, “P” and “S” are abbreviation of word, phrase and sentence, respectively. 列 “アノテーション単位” では、"W" と "P" と "S" はそれぞれ、単語、フレーズ、文の略語である。 0.75
“Expl.” is the abbreviation of “Explanation”. Expl.”は“Explanation”の略です。 0.67
guity. To address this issue, other datasets are constructed to provide phrase-level (Caselli and Vossen, 2017; Bethard and Martin, 2008; Mirza et al , 2014; Dunietz et al , 2017) and sentencelevel (Ning et al , 2019; Roemmele et al , 2011) causal knowledge. ギーティ この問題に対処するため、他のデータセットはフレーズレベル(Caselli and Vossen, 2017; Bethard and Martin, 2008; Mirza et al , 2014; Dunietz et al , 2017)と文レベル(Ning et al , 2019; Roemmele et al , 2011)を提供するために構築されている。 0.64
Among these datasets, COPA (Roemmele et al , 2011) has become a widely adopted benchmark. これらのデータセットのうち、COPA(Roemmele et al , 2011)は広く採用されているベンチマークである。 0.61
Nevertheless, the size of COPA is rather limited, which may result in overfitting and arouse concerns about the confidence of the results. それにもかかわらず、COPAのサイズはかなり限られており、結果の信頼性に対する過度な適合と懸念を引き起こす可能性がある。 0.61
In this paper, we introduce an explainable CAusal REasoning dataset (e-CARE). 本稿では,説明可能なCAusal Reasoningデータセット(e-CARE)を紹介する。 0.67
As shown in Table 1, to the best of our knowledge, e-CARE is the largest human-annotated causal reasoning dataset. 表1に示すように、e-CAREは人間による最大の因果推論データセットである。 0.64
With more than 21,000 instances, the eCARE dataset can serve as a more reliable benchmark. 21,000以上のインスタンスで、eCAREデータセットはより信頼性の高いベンチマークとして機能する。 0.54
Furthermore, compared to previous work, e-CARE can provide additional explanation information, which plays a critical role in learning the underlying mechanism of causal knowledge. さらに,e-CAREは従来の研究と比較して,因果知識の基盤となるメカニズムを学ぶ上で重要な役割を担う説明情報を提供することができる。 0.74
2.2 Explainable Textual Inference Recently, an increasing amount of datasets have been proposed to address the explainability of textual inference tasks, such as textual entailment inference (Camburu et al , 2018), questionanswering (QA) (DeYoung et al , 2019; Perez et al , 2019) and multi-hop QA (Ye et al , 2020). 2.2 説明可能なテキスト推論 最近、テキスト補完推論(camburu et al , 2018)、qwering (qa) (deyoung et al , 2019; perez et al , 2019)、マルチホップqa (ye et al , 2020)のようなテキスト推論タスクの説明可能性に対処するために、データセットが増えている。 0.65
The form and content of the explanations vary with the nature of specific tasks. 説明の形式と内容は、特定のタスクの性質によって異なる。 0.74
The QA task requires a model to answer the question based on evidences within given texts. QAタスクは、与えられたテキスト内のエビデンスに基づいた質問に答えるモデルを必要とする。 0.66
Therefore, the explanation for this task should de- したがって、このタスクの説明は廃止されるべきである。 0.47
英語(論文から抽出)日本語訳スコア
Number Causal Questions Uniq. Explanations 背番号はUniq。 解説 0.51
Train 14,928 10,491 14,928,491列車 0.59
Dev 2,132 2,102 Dev 2,132 2,102 0.29
Test 4,264 3,814 テスト4,264,814 0.61
Total 21,324 13,048 全21,324,048人 0.41
Table 2: Corpus level statistics of the e-CARE dataset. 表2: e-CAREデータセットのコーパスレベル統計。 0.84
Uniq. Explanations refer to the explanations that only correspond to a single causal fact. ユニク 説明は一つの因果的事実のみに対応する説明を指す。 0.66
scribe where and how an answer can be found (Wiegreffe and Marasovi´c, 2021). どこでどのように答えが見つかるかを記述する(Wiegreffe and Marasovi ́c, 2021)。 0.83
The explanations can have various forms, including answerbearing sentences (Perez et al , 2019), structured information connecting the question and answer (Hancock et al , 2018; Ye et al , 2020), or even human-annotated free-formed sentences (Camburu et al , 2018; Rajani et al , 2019). 説明書には、回答文(Perez et al , 2019)、質問と回答を繋ぐ構造化情報(Hancock et al , 2018; Ye et al , 2020)、さらには人間による注釈付き自由形文(Camburu et al , 2018; Rajani et al , 2019)など、さまざまな形式がある。 0.85
In contrast, the multi-hop QA task requires the model to infer the correct answer through multiple reasoning steps. 対照的に、マルチホップQAタスクでは、複数の推論ステップを通じて正しい回答を推論する必要がある。
訳抜け防止モード: 対照的に、マルチホップQAタスクはモデルを必要とする 正しい答えを複数の推論ステップで推測します
0.78
Hence, the explanation of this task needs to provide the specific reasoning paths (Wiegreffe and Marasovi´c, 2021; Jhamtani and Clark, 2020). したがって、このタスクの説明は特定の推論経路を提供する必要がある(Wiegreffe and Marasovi ́c, 2021; Jhamtani and Clark, 2020)。 0.89
Our work is quite different from previous work. 私たちの仕事は以前の仕事とは全く異なる。 0.69
We notice that all of these previous work only offer explanations that explain a specific question. これらの先行研究はすべて、特定の質問を説明する説明しか提供していないことに気付きました。 0.51
Whereas we aim at providing a conceptual understanding of the causality, which has the potential to explain a set of related causal observations, rather than only explain a specific causal fact. 我々は因果関係を概念的に理解することを目指しているが、これは特定の因果関係の事実だけを説明するのではなく、関連する因果関係の観察のセットを説明する可能性を持っている。
訳抜け防止モード: 因果関係を概念的に理解することを目指す。 可能性を秘めています 特定の因果的事実を説明するだけでなく、関連する因果的観察のセットを説明すること。
0.61
3 e-CARE: an Explainable Causal Reasoning Dataset 3 e-CARE: 説明可能な因果推論データセット 0.51
e-CARE contains a total of 21,324 instances, corresponding to 13,048 unique explanations. e-CAREには合計21,324のインスタンスがあり、13,048のユニークな説明に対応している。 0.51
This also makes e-CARE the largest human-annotated commonsense causal reasoning benchmark. また、e-CAREは人間による注釈付きコモンセンス因果推論ベンチマークとしては最大である。 0.36
The corpus-level statistics of the e-CARE dataset are shown in Table 2. e-CAREデータセットのコーパスレベル統計を表2に示す。 0.82
As shown in Table 3, each instance of the eCARE dataset is constituted by two components: (1) a multiple-choice causal reasoning question, composed of a premise and two hypotheses, and one of the hypotheses can form a valid causal fact with the premise; (2) a conceptual explanation about the essential condition that enables the existence of the causal fact. 表3に示すように、eCAREデータセットの各インスタンスは、(1)前提と2つの仮説からなる多重選択因果推論問題と、その前提と有効因果事実を形成する仮説の1つ、(2)因果事実の存在を可能にする必須条件に関する概念的説明の2つの要素から構成される。 0.81
For example, as Table 3 shows, the explanation points out the nature of copper that Copper is a good thermal conductor, so that holding copper on fire will make fingers feel burnt immediately. 例えば、表3が示すように、銅は優れた熱伝導体であり、銅を燃やすことで指をすぐに焼くことができるという銅の性質が説明されている。 0.86
The appendix provides more discussion about the explanations within eCARE. 付録は、eCARE内の説明についてさらに議論する。 0.57
On this basis, we introduce two tasks: Causal Reasoning Task We formulate the causal 因果推論タスク 私たちは因果関係を定式化する。 0.34
Premise: Tom holds a copper block by hand and 前提:トムは手で銅のブロックを保持し、 0.77
heats it on fire. Ask-for: Effect Hypothesis 1: His fingers feel burnt immediately. 火で暖める。 ask-for: 効果仮説1: 彼の指はすぐに燃え尽きる。 0.62
(!) Hypothesis 2: The copper block keeps the same. (!) 仮説2:銅ブロックは同じである。 0.54
(×) Explanation: Copper is a good thermal conductor. (×)説明:銅は優れた熱伝導体である。 0.87
Table 3: An instance from the e-CARE dataset. 表3: e-CAREデータセットのインスタンス。 0.78
reasoning task as a multiple-choice task: given a premise event, one needs to choose a more plausible hypothesis from two candidates, so that the premise and the correct hypothesis can form into a valid causal fact. 多重選択タスクとしての推論タスク: 前提イベントが与えられた場合、前提と正しい仮説が有効な因果事実となるように、2つの候補からより妥当な仮説を選択する必要がある。 0.78
Explanation Generation Task It requires the model to generate a free-text-formed explanation for a given causal fact (composed of a premise and the corresponding correct hypothesis). 説明生成タスク 与えられた因果的事実(前提と対応する正しい仮説からなる)に対して、自由テキスト形式の説明を生成するモデルが必要です。 0.80
3.1 Data Annotation To construct the e-CARE dataset, we start by collecting statements that describe conceptual understandings of world knowledge. 3.1 データアノテーション e-CAREデータセットを構築するために、世界知識の概念的理解を記述する文を収集することから始める。 0.65
Then given a statement, we ask different annotators to generate causal facts that can be explained by the statement, and build causal questions based on these causal facts. そして、文が与えられたら、異なる注釈者に、その文で説明できる因果事実を生成し、これらの因果事実に基づいて因果問題を構築するよう依頼する。 0.56
This is because we hope to provide conceptual explanations with more generality, that can explain a set of correlated causal facts, instead of only applicable to a certain isolated causal fact. これは、ある孤立因果事実にのみ適用するのではなく、関係する因果事実の集合を説明することができる、より一般的な概念的な説明を提供したいと考えているためである。 0.59
Moreover, the statements can serve as clues to help the annotators to come up with causal facts. さらに、これらのステートメントは、注釈者が因果的事実を導き出すのに役立つ手掛かりとなり得る。 0.56
Collecting Potential Explanations Two key issues remain in collecting statements as potential explanations: (1) what kind of statements can be potential conceptual explanations of the causal facts; (2) where to find the appropriate statements. 潜在的説明の収集には,(1)因果的事実の潜在的な概念的説明となる可能性のある文の収集,(2)適切な文を見つける場所,という2つの重要な課題が残っている。 0.71
For the first question, Jonassen et al (2008) concluded that, the explanation of causality mainly describes three categories of information: (1) the nature or attributes of the objectives involved in the causal facts; (2) forces or actions that cause changes and drive transient motions; (3) the goals, intentions, motives or purposes of the causal agents. 最初の質問として、jonassen et al (2008) は、因果関係の説明は、(1)因果的事実に関連する目的の性質または特性、(2)変化を引き起こし、過渡的な動きを引き起こす力または行動、(3)因果的エージェントの目的、意図、動機または目的の3つのカテゴリを主に記述していると結論づけた。 0.79
In addition, to be the conceptual explanation of a causal fact, the statement should be able to involve with a category of objects or people, but not only focus on a specific object or person (Sembugamoorthy and Chandrasekaran, 1986). さらに、因果的事実の概念的な説明として、この言明は、特定の対象や人物(sembugamoorthy and chandrasekaran, 1986)にのみ焦点をあてるのではなく、対象や人物のカテゴリに含めることができるべきである。 0.71
in general, Following these principles, we notice that there are already several available knowledge bases containing statements about such generic world knowledge, including ConceptNet (Speer 一般的には これらの原則に従うと、ConceptNet(Speer)など、このような一般的な世界知識に関する記述を含む知識ベースがすでにいくつか存在することが分かる。 0.69
英語(論文から抽出)日本語訳スコア
and Havasi, 2013), WordNet (Fellbaum, 2010), Atomic (Sap et al , 2019) and GenericsKB (Bhakthavatsalam et al , 2020). and Havasi, 2013), WordNet (Fellbaum, 2010), Atomic (Sap et al , 2019), GenericsKB (Bhakthavatsalam et al , 2020)。
訳抜け防止モード: そしてHabasi, 2013 )、WordNet (Fellbaum, 2010 )。 Atomic (Sap et al, 2019 ) と GenericsKB (Bhakthavatsalam et al, 2020 )。
0.74
However, ConceptNet and WordNet are structured knowledge graphs, containing only triplet-structured statements with a limited number of predicates. しかし、ConceptNetとWordNetは構造化知識グラフであり、限定的な述語数を持つ三重構造文のみを含む。 0.75
The scope of Atomic is limited in the activities of human beings. 原子の範囲は人間の活動に限られている。 0.68
Compared to these knowledge bases, GenericsKB is an open-domain, large-scale knowledge base, containing rich generic world knowledge described in free-form text. これらの知識ベースと比較すると、GenericsKBはオープンドメインで大規模な知識ベースであり、自由形式のテキストで記述された豊富な汎用世界知識を含んでいる。 0.55
Therefore, we collect the statements from GenericsKB to ensure the coverage and diversity of the potential explanations. そこで我々はGenericsKBからステートメントを収集し、潜在的な説明のカバレッジと多様性を保証する。 0.65
Specifically, we filter out 具体的には フィルターを外して 0.62
the statements in GenericsKB with low reliability, and the statements that may disobey the above-mentioned three principles. 信頼性の低いGenericsKBのステートメント及び上記の3つの原則に反する可能性のあるステートメント 0.72
More details are provided in the Appendix. 詳細はAppendixに記載されている。 0.72
Thereafter, a total of 19,746 statements are left to form into a potential explanation set, which is further provided to the annotators to generate the causal questions. その後、19,746の文が潜在的な説明セットとして残され、アノテータが因果問題を生成するためにさらに提供される。 0.66
Annotating Causal Reasoning Questions Given the potential explanation set, annotators were recruited to generate corresponding causal questions. 因果的推論問題 潜在的な説明セットから、注釈者は対応する因果的質問を生成するために雇われた。 0.55
Specifically, a causal question is generated by two steps: 具体的には、2つのステップによって因果問題が発生する。 0.58
First, an annotator was presented with a statement as a potential explanation, and was instructed to write a causal fact (composed of a cause and an effect), so that the causal fact can be interpreted by the given statement. まず、注釈者が潜在的な説明として文を提示され、因果的事実(原因と効果からなる)を書き、因果的事実を与えられた文で解釈するように指示された。 0.68
In this step, a key issue is controlling the quality of generated causal facts. このステップでは、生成した因果事実の品質を制御することが重要な問題である。 0.64
Thus we demonstrated illustrative examples to guide the annotators to avoid the following mistakes: そこで我々は、以下の誤りを避けるためにアノテータを導くための例を示した。 0.58
(1) The created cause and effect are not in a 1) 生成した原因と効果は,その中にない 0.85
valid causal relationship; (2) The created causal fact cannot be explained 正当な因果関係 2)創始された因果事実は説明できない 0.67
by the provided statement; 提供された声明により 0.51
(3) There are factual errors or imaginary con- 3) 事実的誤りまたは想像上の誤り- 0.87
tents in the created causal facts. 生み出した因果関係の事実のテント。 0.64
In the causal fact generation process, each statement is randomly distributed to 1-3 annotators, so that we can find some statements that could explain multiple causal facts. 因果事実生成プロセスでは、各ステートメントがランダムに1-3アノテータに分散され、複数の因果事実を説明できるステートメントが見つかる。 0.70
Note that, in this process, we do not assume all statements are necessary to be a valid explanation. このプロセスでは、すべての文が妥当な説明である必要があるとは仮定しない。 0.63
In other words, we do not require that the annotators must generate a causal fact for each given statement. 言い換えれば、アノテータが与えられた各文に対して因果的事実を生成する必要はないということです。 0.58
Instead, we leave it to the judgment of annotators. 代わりに、アノテータの判断に任せます。 0.44
In this way, the unreliable statements can be further excluded to promote the quality of our dataset. このように、信頼できないステートメントは、データセットの品質を促進するために、さらに除外することができる。 0.59
Model Random GPT2 (Radford et al , 2018) RoBERTa (Liu et al , 2019) BERT (Devlin et al , 2019) Model Random GPT2 (Radford et al , 2018) RoBERTa (Liu et al , 2019) BERT (Devlin et al , 2019) 0.44
Dev 50.1 57.17 58.38 56.19 Dev 50.1 57.17 58.38 56.19 0.25
Test 50.1 56.30 56.42 54.45 試験 50.1 56.30 56.42 54.45 0.47
Table 4: Model’s accuracy (%) of choosing the correct hypothesis without the premise. 表4: 前提なしに正しい仮説を選択する際のモデルの正確さ(%)。 0.83
After the generation of causal facts, an askfor indicator a ∈ [“cause”, “effect”] was randomly generated, where a = “cause” (“effect”) means that the cause (effect) event is the hypothesis, and the effect (cause) event is the premise of the causal question, respectively. 因果的事実の生成後、askforインジケータa ∈ [“ because”, “effect”] がランダムに生成され、a = “ reasons” (“effect”) は因果(効果)イベントが仮説であり、効果(原因)イベントがそれぞれ因果的質問の前提となることを意味する。 0.71
Then given the ask-for indicator, in order to control the grammar and writing style consistency, the same annotator was prompted to write a distract cause (effect) as the implausible hypothesis according to the askfor indicator. 次に、質問指示器が与えられたとき、文法と書体スタイルの整合性を制御するために、同じ注釈器が、質問指示器に従って不明瞭な仮説(効果)を書くように促された。
訳抜け防止モード: その後、順番に指示を尋ねられる。 文法と文体整合性を制御するためです 同じアノテーターが to write a distract cause ( effect ) as the implausible hypothesis according the askfor indicator。
0.66
In this process, the annotators were instructed to create the implausible hypothesis as close as possible to the true hypothesis, meanwhile prevent creating uninformative distractors (such as simply adding a “not” into the true hypothesis). この過程において、アノテータは真の仮説にできるだけ近づき、一方、(単に「ノー」を真の仮説に加えるなど)非形式的な散逸を生じさせないよう指示された。
訳抜け防止モード: この過程でアノテーションが指示された 真実の仮説に できるだけ近い仮説を作るのです 一方、非形式的な注意散らしを作るのを防ぎます(例えば、単に "not" を真の仮説に追加するなど)。
0.72
3.2 Refinement and Analysis of the e-CARE 3.2 e-CARE の精製と解析 0.78
Dataset A significant challenge in dataset construction is avoiding introducing superficial cues into the dataset (Gururangan et al , 2018; Poliak et al , 2018), which refers to the unintentional features that leak the label information. データセット データセット構築における重要な課題は、ラベル情報を漏洩する意図しない特徴を指すデータセット(Gururangan et al , 2018; Poliak et al , 2018)に表面的なキューを導入することを避けることである。 0.68
To address this issue, following Bhagavatula et al (2019) and Sakaguchi et al (2020), we employ an adversarial filtering algorithm to replace the implausible hypotheses that can easily be distinguished with the correct hypotheses using the superficial clues. この問題に対処するために,bhagavatula et al (2019) とsakaguchi et al (2020) に続いて,表面的手がかりを用いて,正しい仮説と容易に区別できる不可解な仮説を,逆フィルタリングアルゴリズムを用いて置き換える。 0.78
More details about the adversarial filtering are provided in the Appendix. 逆フィルタリングの詳細はAppendixで提供されている。 0.66
As Table 4 shows, after the adversarial filtering, without the existence of the premise, the SOTA pretrained language models can hardly distinguish two candidate hypotheses, which indicates that to predict the correct label, a model must understand the causal relationship between the premise and hypothesis, rather than only depend on the superficial cues within the two hypotheses. 表4が示すように、敵のフィルタリングの後、前提の存在なしに、SOTA事前訓練された言語モデルは2つの仮説を区別することがほとんどなく、正しいラベルを予測するためには、モデルは2つの仮説の中の表面的な手がかりにのみ依存するのではなく、前提と仮説の間の因果関係を理解する必要がある。 0.73
After the refinement, we evaluate the quality of the annotated causal questions and collected explanations through crowdsourcing. 改良後,注釈付き因果質問の品質を評価し,クラウドソーシングによる説明を収集した。 0.71
We assess the quality of causal questions by testing if there is agreement among human raters on the answer of causal questions. 因果的質問に対する回答に人格者間の合意があるかどうかを検証し,因果的質問の品質を評価する。 0.55
Specifically, we randomly sampled 200 causal questions from e-CARE, and en- 具体的には、e-CAREとen-から200の因果質問をランダムにサンプリングした。 0.52
英語(論文から抽出)日本語訳スコア
listed 10 annotators to answer the causal questions. 因果的質問に答える注釈者10名をリストアップした。 0.48
In this process, each causal question was evaluated by three annotators. この過程で、各因果質問は3つのアノテータによって評価された。 0.52
When answering the causal questions, the raters were allowed to choose an additional option “None of the above” if neither hypothesis was deemed plausible. 因果的質問に答えるとき、テーラーは、どちらの仮説も妥当であると見なされない場合、追加の選択肢を「上記のうちの1つ」を選ぶことを許された。
訳抜け防止モード: 因果関係の質問に答えると いずれの仮説も有理ではないと判断された場合、追加のオプションを “no of the above ” として選択する。
0.60
The human annotators achieve a 92% accuracy with a high agreement (Cohen’s κ = 0.935) (Cohen, 1960). 人間のアノテータは、高い一致(コーエンのκ = 0.935)で92%の精度を達成する(コーエン、1960)。
訳抜け防止モード: 人間のアノテータは、高い一致で92%の精度を達成する。 コーエンのκ = 0.935) ( Cohen , 1960 ) .
0.85
To validate the quality of explanations, we enlisted volunteers to determine whether or not the explanations can explain corresponding causal facts. 説明の質を検証するため,説明が対応する因果事実を説明できるかどうかをボランティアに依頼した。 0.72
In total 200 causal facts with corresponding explanations were sampled and distributed to 10 volunteers, and each explanation was evaluated by three volunteers. 合計200件の因果関係を抽出し,10名のボランティアに配布し,各説明を3名のボランティアに評価した。 0.68
After the evaluation, on average 89.5% of the explanations were deemed as valid (Cohen’s κ = 0.832), showcasing the quality of the explanations in e-CARE. 評価後、平均89.5%の説明が有効であると判断された(コーエンのκ = 0.832)。
訳抜け防止モード: 評価後、説明の89.5パーセントが有効とみなされた。 (コーエンのκ = 0.832) e - care で説明の質を示す。
0.66
4 Causal Explanation Quality (CEQ) 4 因果説明品質(ceq) 0.71
Score A number of automatic scores have been proposed to evaluate the quality of generated explanations, such as BLEU (Papineni et al , 2002) and ROUGE (Lin, 2004). スコア BLEU (Papineni et al , 2002) やROUGE (Lin, 2004) など、生成された説明の質を評価するために、いくつかの自動スコアが提案されている。 0.69
However, these metrics evaluate the quality of the generated explanations only through comparing the textual or semantic similarity between the generated explanations and the golden annotation. しかし、これらの指標は、生成した説明と黄金の注釈とのテキスト的・意味的類似性を比較することで、生成した説明の質を評価する。 0.54
Alternatively, an ideal causal explanation quality evaluation metric should directly measure if the causal fact is appropriately explained by the explanation. あるいは、理想的な因果的説明品質評価基準は、因果的事実が適切に説明されているかどうかを直接測定する必要がある。 0.59
Hence, we propose a novel causal explanation quality evaluation metric (namely, CEQ score) as a step towards directly measuring the quality of generated explanations. そこで我々は,生成した説明の質を直接測定するステップとして,因果的説明品質評価尺度(CEQスコア)を提案する。 0.82
We devise the CEQ score based on the consideration that a better explanation should provide more information for understanding the causality, so that the prediction model can more accurately estimate the reasonableness of the causal fact. 我々は,よりよい説明は因果関係を理解するためのより多くの情報を提供するべきであり,予測モデルが因果事実の合理性をより正確に推定できるように,ceqスコアを考案する。 0.80
Previous literature characterized such reasonableness as the causal strength of the given causal fact (Roemmele et al , 2011; Luo et al , 2016), where the causal strength is a score in [0, 1]. これまでの文献では, [0, 1] において因果強さがスコアとなる因果的事実の因果的強さ(Roemmele et al , 2011; Luo et al , 2016)のような合理的さが特徴であった。 0.75
Hence, in theory, for a valid causal fact, its causal strength should be equal to 1. したがって、理論的には、正当な因果的事実に対して、その因果的強さは 1 に等しいはずである。 0.60
Given a valid causal fact, an explanation should help to increase its estimated causal strength to the groundtruth value 1. 正当な因果事実が与えられると、説明は、推定因果強度を基礎値1に増加させるのに役立つ。 0.67
Therefore, we can evaluate the quality of a なので aの質を評価できます 0.73
generated explanation by measuring the increase of causal strength brought by the explanation. 説明によって引き起こされる因果強度の増大を計測して生成された説明。 0.68
Specifically, let C, E, and X denote the cause, the effect and the generated explanation, respectively. 具体的には、C、E、Xはそれぞれ原因、効果、および生成された説明を示す。 0.78
Formally, the CEQ score is defined as: 正式には、CEQスコアは次のように定義される。 0.57
CEQ = ∆cs = cs(C, E|X) − cs(C, E), ceq = cs(c, e|x) − cs(c, e) である。 0.77
(1) where cs(C, E) is the original causal strength between C and E; cs(C, E|X) is the causal strength after involvement of the additional explanation information. (1) cs(C, E) は C と E の間の因果強度であり、cs(C, E|X) は追加説明情報の関与後の因果強さである。 0.62
The explanation enhanced causal strength cs(C, E|X) is defined as: cs(C, E|X) = max[cs(C + X, E), cs(C, E + X)], 説明強化因果強度 cs(C, E|X) は、cs(C, E|X) = max[cs(C + X, E), cs(C, E + X)] と定義される。 0.86
(2) where “+” denotes the string concatenate operation. (2) ここで "+" は文字列連結演算を表す。 0.58
Therefore, the CEQ score is positively related to the increase of causal strength between C and E after the involvement of the explanation X. In this paper, we employ a widely-adopted model-agnostic method proposed by Luo et al (2016) to calculate the causal strength. したがって,ceqスコアは説明xの関与後のcとeの因果強度の増加と正の相関関係にある。本論文では,luo et al (2016) が提案する広く採用されているモデル非依存法を用いて因果強度の算出を行う。 0.73
The model-agnostic nature enable us to avoid reliance on certain models and keep the fairness of evaluation. モデルに依存しない性質により、特定のモデルへの依存を避け、評価の公平性を維持することができる。
訳抜け防止モード: モデル - 不可知的な性質が有効である 特定のモデルへの依存を避け 評価の公平さを維持するために
0.62
Specifically, the phrase-level causal strength is derived through synthesizing the word-level causality. 具体的には、句レベルの因果強度は単語レベルの因果性合成によって導出される。 0.52
(cid:88) cs(CA, EB ) = (cid:88) cs(CA, EB ) = 0.41
1 NCA + NEB 1 NCA + NEB 0.43
wi∈CA,wj ∈EB wiıCA,wj ∈EB 0.46
cs(wi , wj ), cs(wi , wj ) 0.35
(3) where (CA, EB ) is an arbitrary causal fact; NCA and NEB are the number of words within CA and EB, respectively; cs(wi, wj) is the causal strength between word wi and wj, which is estimated from a large corpus as: (3) ここで (CA, EB ) は任意の因果事実であり、NAA と NEB はそれぞれ CA と EB 内の単語数であり、cs(wi, wj) は単語 wi と wj の間の因果強さであり、これは大きなコーパスから推定される。 0.61
cs(wi, wj) = cs(wi, wj) = 0.43
Count(wi, wj) count (複数形 counts) 0.58
Count(wi)Count(wj)α , Count(wi)Count(wj)α , 0.43
(4) where α is a penalty coefficient and Luo et al (2016) empirically set α = 0.66. (4) α はペナルティ係数であり、Luo et al (2016) は経験的に α = 0.66 とする。 0.58
5 Experiments and Results We examine the performance of state-of-the-art pretrained language models on the causal reasoning task and the explanation generation task. 5 実験と結果 因果推論タスクと説明生成タスクにおける最先端事前訓練言語モデルの性能について検討する。 0.74
Furthermore, we investigate the specific role of explanations in causal reasoning by: (1) a predictand-generate experiment, which requires models to conduct the causal reasoning task and generate corresponding explanations simultaneously; (2) a stability analysis using adversarial attacks. さらに, 因果推論における説明の役割を(1) 因果推論タスクを実行し, 対応する説明を同時に生成するモデルを必要とする予測生成実験, (2) 逆攻撃を用いた安定性解析により検討した。 0.86
英語(論文から抽出)日本語訳スコア
Model GPT2 (Radford et al , 2019) RoBERTa (Liu et al , 2019) BART (Lewis et al , 2020) XLNET (Yang et al , 2019) BERT (Devlin et al , 2019) ALBERT (Lan et al , 2019) Human Performance Model GPT2 (Radford et al , 2019) RoBERTa (Liu et al , 2019) BART (Lewis et al , 2020) XLNET (Yang et al , 2019) BERT (Devlin et al , 2019) ALBERT (Lan et al , 2019) 人間のパフォーマンス 0.44
Accuracy (%) 69.51 70.73 71.65 74.58 75.38 74.60 92.00 正確さ (%) 69.51 70.73 71.65 74.58 75.38 74.60 92.00 0.57
Table 5: Performance of pretrained language models on the test set of the causal reasoning task. 表5:因果推論タスクのテストセットにおける事前訓練された言語モデルのパフォーマンス。 0.87
5.1 Causal Reasoning Settings We cast the causal reasoning task as a prediction problem: The input of the model is a candidate causal fact composed of a premise and one of the corresponding candidate hypotheses. 5.1因果推論 設定 因果推論タスクを予測問題とみなす:モデルの入力は前提と対応する候補仮説の1つから構成される候補因果事実である。 0.69
The output is a score measuring the reasonableness of the candidate causal fact. 出力は、候補因果事実の妥当性を測定するスコアである。 0.79
We evaluate the causal reasoning ability of several SOTA pretrained language models, including discriminative pretrained language models BERT (Devlin et al , 2019), RoBERTa (Liu et al , 2019), XLNet (Yang et al , 2019), and ALBERT (Lan et al , 2019); as well as autoregressive generative pretrained language models GPT2 (Radford et al , 2019) and BART (Lewis et al , 2020), which can also be adapted to the predictive causal reasoning task. 我々は、差別的事前学習言語モデルBERT(Devlin et al , 2019)、RoBERTa(Liu et al , 2019)、XLNet(Yang et al , 2019)、ALBERT(Lan et al , 2019)、自動回帰生成事前学習言語モデルGPT2(Radford et al , 2019)、BART(Lewis et al , 2020)など、いくつかのSOTA事前学習言語モデルの因果推論能力を評価する。
訳抜け防止モード: 我々は,複数のSOTA事前学習言語モデルの因果推論能力を評価する。 差別的な事前訓練言語モデル BERT (Devlin et al, 2019 )を含む。 RoBERTa(Liu et al, 2019)、XLNet(Yang et al, 2019) ALBERT (Lan et al, 2019 ) と自己回帰生成事前訓練言語モデル GPT2 (Radford et al, 2019 ) である。 そしてBART(Lewis et al, 2020)は 因果推論にも適応できるのです
0.79
In this section and the following parts, all experiments are conducted using the base-sized version of the pretrained language models. 本節および以下の部分では,事前学習した言語モデルのベースサイズ版を用いて,すべての実験を行う。 0.83
Additional details about experimental settings are provided in the Appendix. 実験的な設定に関する詳細はAppendixで提供されている。 0.70
Results As shown in Table 5, ALBERT achieves the highest accuracy of 73.86% on the causal reasoning task of e-CARE. 結果:表5に示すように、ALBERTは、e-CAREの因果推論タスクにおいて73.86%の精度を達成する。 0.63
However, ALBERT can achieve an accuracy of 86.0% on the widely adopted causal reasoning benchmark COPA by our implementation. しかし、ALBERTは、広く採用されている因果推論ベンチマークCOPAで86.0%の精度が得られる。 0.61
This is mainly because, on one hand, previous causal reasoning datasets are too small to evaluate the genuine reasoning ability of the model. これは主に、以前の因果推論データセットがモデルの真の推論能力を評価するには小さすぎるためである。 0.74
On the other hand, previous datasets may provide some superficial cues for the reasoning models to achieve superb performances. 一方、以前のデータセットは、推論モデルがスーパーbパフォーマンスを達成するための表面的ヒントを提供するかもしれない。 0.59
In contrast, e-CARE is the largest causal reasoning dataset that can provide enough test instances to evaluate the actual ability of the model. 対照的に、e-CAREは、モデルの実際の能力を評価するのに十分なテストインスタンスを提供できる最大の因果推論データセットである。 0.68
Moreover, in the annotating process of e-CARE, we introduced an adversarial filtering process to avoid the influence of superficial cues on the performances of reasoning models. さらに,e-CAREのアノテートプロセスにおいて,解析モデルの性能に及ぼす表面的手がかりの影響を回避するために,逆フィルタリングプロセスを導入した。 0.75
Hence, we believe that e-CARE dataset can serve as a new benchmark for effectively evaluating models’ causal rea- したがって、e-CAREデータセットはモデルの因果レアを効果的に評価するための新しいベンチマークとして機能すると考えている。
訳抜け防止モード: それゆえ私たちは e - careデータセットは、モデルの効果的評価のための新しいベンチマークとして機能する-’causal rea-
0.56
soning ability. We also notice that human beings can achieve an accuracy of 92.00% on the e-CARE dataset. ソニング能力 また、人間はe-careデータセット上で92.00%の精度を達成できることに気付きました。 0.52
The large gap between the human performance and the pretrained language models suggests that the causal reasoning questions provided in our dataset still remain challenging, and calls for more powerful causal reasoning models. 人間のパフォーマンスと事前学習された言語モデルの間の大きなギャップは、データセットで提供される因果推論の問題は依然として困難であり、より強力な因果推論モデルを要求することを示唆している。
訳抜け防止モード: 人間のパフォーマンスと事前学習された言語モデルの間の大きなギャップは 私たちのデータセットで提供される因果推論の質問は依然として困難です。 より強力な因果推論モデルを求めます
0.75
5.2 Explanation Generation We investigate whether the model can generate correct explanations for given valid causal facts by training a GRU-based Seq2Seq model (Chung et al , 2014), and finetuning a generative pretrained language model GPT2 (Radford et al , 2019) on the e-CARE dataset. 5.2 GRUをベースとしたSeq2Seqモデル(Chung et al , 2014)をトレーニングし,e-CAREデータセット上で生成事前学習言語モデルGPT2(Radford et al , 2019)を微調整することにより,有効な因果関係の正しい説明を生成できるかどうかを検討する。 0.76
Both models take the concatenation of the cause and effect as input. どちらのモデルも原因と効果を入力として結合する。 0.73
Please refer to the Appendix for more details. 詳細はAppendixを参照してください。 0.71
Evaluation Metrics We automatically evaluate the quality of generated explanations using average-BLEU (n=4) (Papineni et al , 2002), ROUGE-l (Lin, 2004), Perplexity (Horgan, 1995), together with our proposed CEQ score. 評価基準 平均BLEU (n=4) (Papineni et al , 2002), ROUGE-l (Lin, 2004), Perplexity (Horgan, 1995) を用いて,提案したCEQスコアとともに,生成した説明の質を自動評価する。 0.89
Human Evaluation We also assess the quality of model-generated explanations through human evaluation. 人的評価では,人的評価によるモデル生成の説明の質も評価する。 0.71
Specifically, we sampled 200 explanations generated by each method. 具体的には,各手法で生成した200の説明をサンプリングした。 0.58
Then three workers were shown with the generated explanations, together with corresponding causal facts, and were asked to label whether the generated explanation can explain the corresponding causal fact. その後、3人の作業員が生成された説明と対応する因果事実を合わせて示され、生成された説明が対応する因果事実を説明できるかどうかをラベル付けするように求められた。 0.60
Quantitative Results As shown in Table 6, 89.5% of human-written explanations are found to be valid, while the generative pretrained language model GPT2 only achieves a correctness of 20.0%. 定量的結果 表6に示すように、人間による説明の89.5%が有効であり、生成事前学習言語モデルGPT2は20.0%の正確性しか達成していない。 0.71
The last row of Table 6 reports the score of heldout human-written explanations, which serves as a ceiling for model performance. 表6の最後の列は、保持された人文による説明のスコアを報告し、これはモデル性能の天井となる。 0.66
The significant gap indicates that, although GPT2 can achieve impressive performance on various natural language generation tasks, it still remains especially challenging for GPT2 to deeply understand the causal facts and then generate explanations like human beings. 重要なギャップは、gpt2は様々な自然言語生成タスクで印象的なパフォーマンスを達成することができるが、gpt2が因果的事実を深く理解し、人間のような説明を生成することは依然として特に困難であることを示している。
訳抜け防止モード: 差は大きいが GPT2は、様々な自然言語生成タスクにおいて素晴らしいパフォーマンスを達成することができる。 GPT2ではまだ特に難しいです 因果的事実を深く理解し、人間のような説明を生み出すのです
0.69
This may be one of the main obstacles hindering the further improvement of present causal reasoning models. これは、現在の因果推論モデルのさらなる改善を妨げる主要な障害の1つかもしれない。 0.67
Moreover, we measure the similarity between the automatic scores with the results of human evaluation using the Spearman correlation coefficient. また,スピアマン相関係数を用いた人体評価の結果から,自動スコアの類似度を測定した。 0.75
As Table 7 shows, ROUGH-l and averageBLEU barely have a correlation with the results of human evaluation. 表7に示すように、ROUGH-lと平均BLEUは人間による評価結果とはほとんど相関がない。 0.67
This is because average-BLEU これは平均ブラウが 0.53
英語(論文から抽出)日本語訳スコア
Model GRU-Seq2Seq GPT2 (Radford et al , 2019) Human Generation モデル gru-seq2seq gpt2 (radford et al, 2019) 人間世代 0.67
AVG-BLEU ROUGE-l AVG-BLEUルージュ-l 0.46
18.66 32.04 35.51 18.66 32.04 35.51 0.24
21.32 31.47 33.46 21.32 31.47 33.46 0.24
PPL 33.71 7.14 PPL 33.71 7.14 0.29
- CEQ Human Evaluation (%) 0.024 0.105 0.144 - CEQ Human Evaluation (%) 0.024 0.105 0.144 0.40
20.0 89.5 0 20.0 89.5 0 0.34
Table 6: Model performance on the explanation generation task. 表6: 説明生成タスクにおけるモデルパフォーマンス。 0.82
AVG-BLEU ROUGE-l CEQ AVG-BLEUルージュlシーク 0.52
Corr. Coef with Human Eval. Corr 人間のエバルと交尾する。 0.31
0.032 0.021 0.247 0.032 0.021 0.247 0.24
P-value 0.749 0.836 0.013* P値 0.749 0.836 0.013* 0.53
Table 7: Pearson Correlation coefficients between human evaluation and automatic scores. 表7:人間の評価と自動スコアのピアソン相関係数 0.70
“*” denotes P-value < 0.05. * は P 値 < 0.05 を表す。 0.80
and ROUGH-l only implicitly evaluate the quality of generated explanations by measuring the textual similarity with the golden annotations. そしてROUGH-lは黄金のアノテーションとテキストの類似性を測定することによって生成した説明の質を暗黙的に評価するのみである。 0.55
Compared to average-BLEU and ROUGH-l, the CEQ score has a significant positive relationship with the human evaluation results. 平均BLEUおよびROUGH-lと比較して,CEQスコアはヒトの評価結果と有意な正の相関を示した。 0.71
This indicates the efficiency of the CEQ score in evaluating the quality of generated explanations. これは、生成した説明の質を評価する際のCEQスコアの効率を示す。 0.72
Qualitative Analysis In Table 8, we provide examples of explanations generated by GPT2. 表8の定性解析では、gpt2によって生成された説明の例を示す。 0.64
We observe that GPT2 can generate a reasonable explanation for some causal facts, while the generated explanations may still contain factual mistakes, or be totally irrelevant to the given causal fact (highlighted in yellow and pink, respectively). GPT2はいくつかの因果的事実に対して合理的な説明を生成できるが、生成された説明は依然として事実的誤りを含むか、あるいは与えられた因果的事実(それぞれ黄色とピンクでハイライトされる)と全く無関係である。 0.68
This indicate that the explanation generation still remains challenging for the GPT2 model. これは、GPT2モデルでは説明生成が依然として難しいことを示している。 0.57
5.3 Joint Causal Reasoning and Explanation Generation 5.3 共同因果推論と説明生成 0.31
To investigate the role of causal explanations in the causal reasoning process, we trained models to jointly conduct these two tasks. 因果的推論過程における因果的説明の役割を調べるため,これらの2つのタスクを共同で行うようモデルを訓練した。 0.67
Settings Since this task requires a model to predict a label meanwhile generate an explanation, we conduct the experiments using the GPT2 model, which can be adapted to conduct the predictive causal reasoning task and explanation generation simultaneously. 設定 このタスクではラベルを予測して説明を生成するモデルが必要であるため、予測因果推論タスクと説明生成を同時に行うことができるGPT2モデルを用いて実験を行う。 0.81
We denote this multi-task finetuned GPT2 model as GPT2CR-GE. このマルチタスク微調整GPT2モデルをGPT2CR-GEと呼ぶ。 0.58
Details for training GPT2CR-GE is provided in the Appendix. GPT2CR-GEのトレーニングの詳細はAppendixで提供されている。 0.57
To make the performance comparable, when evaluating the performance of GPT2CR-GE on the causal expatiations generation task, the same as the settings in the explanation generation task, the premise and the correct hypothesis are taken as the input of GPT2CR-GE for generating explanations. 因果拡散生成タスクにおけるGPT2CR-GEの性能を評価する際には、説明生成タスクの設定と同様、説明を生成するためのGPT2CR-GEの入力として前提と正しい仮説を採る。 0.74
Results We measure the quality of generated explanations using the same automatic scores and 結果 生成した説明の質を同じ自動スコアを用いて測定する。 0.76
human evaluation settings as the Explanation Generation experiment. 説明生成実験としての人間評価設定 0.78
The performance of causal reasoning is also measured using accuracy. 因果推論の性能も精度を用いて測定する。 0.75
The results are shown in Table 9, where GPT2CR denotes the GPT2 model finetuned for the causal reasoning task, and GPT2EG refers to the GPT2 model finetuned for the explanation generation task. GPT2CRは因果推論タスクに微調整されたGPT2モデルを示し、GPT2EGは説明生成タスクに微調整されたGPT2モデルを示す。 0.70
We observe that compared with GPT2CR, the improved performance of GPT2CR-EG on causal reasoning indicates that the additional explanation can be helpful for the causal reasoning task, as it prompts model to have a deep understanding of the causal mechanisms. gpt2crと比較して, 因果推論におけるgpt2cr-egの性能向上は, モデルに因果機構の深い理解を促すため, 因果推論タスクに付加的な説明が有用であることを示す。 0.80
Interestingly, by comparing with GPT2EG and GPT2CR-EG, we find that learning to predict the label can also be helpful for the explanation generation process. 興味深いことに、GPT2EGとGPT2CR-EGを比較することで、ラベル予測の学習も説明生成プロセスに役立つことが分かる。 0.68
This indicates the synergistic effect of the causal reasoning and the explanation generation on promoting models’ understanding of causal mechanism. これは因果推論の相乗効果と説明生成がモデルによる因果メカニズムの理解を促進することを示している。 0.83
5.4 Stability Analysis Previous studies indicate that models may utilize some superficial cues within the dataset to predict the label. 5.4 安定性解析 過去の研究では、モデルがデータセット内のいくつかの表面的手がかりを使用してラベルを予測することが示されている。
訳抜け防止モード: 5.4 安定性解析 以前の研究では モデルはデータセット内のいくつかの表面的な手がかりを使用してラベルを予測する。
0.62
This leads to the vulnerability of models when facing adversarial attacks (Poliak et al , 2018; McCoy et al , 2019). これは、敵対的攻撃に直面する際のモデルの脆弱性につながる(Poliak et al , 2018; McCoy et al , 2019)。 0.81
Learning to generate the additional conceptual explanation may promote the understanding of causality to increase the stability of the reasoning model. 新たな概念的説明を生成するための学習は、因果関係の理解を促進し、推論モデルの安定性を高める。
訳抜け防止モード: 新たな概念的説明を生み出すための学習 因果関係の理解を促進し 推論モデルの安定性を高めるためです
0.78
Hence, we conduct a stability analysis to examine the specific effect of additional explanations. したがって,追加説明の具体的効果を検討するため,安定性解析を行う。 0.85
Following Bekoulis et al (2018) and Yasunaga et al (2018), we attack the causal reasoning system by adding a perturbation term on the word embeddings of inputs. bekoulis et al (2018) と yasunaga et al (2018) に続いて、入力の単語埋め込みに摂動項を追加することによって因果推論システムを攻撃する。 0.76
The perturbation term is derived using the gradient-based FGM method (Miyato et al , 2016). 摂動項は勾配に基づくFGM法(Miyato et al , 2016)を用いて導出される。 0.81
Table 9 shows the change of causal reasoning accuracy (∆Accu.) brought by the adversarial attack. 表9は、敵の攻撃によって引き起こされた因果推論精度の変化を示す。 0.70
For example, ∆ = −6.40 means a 6.40% decrease of prediction accuracy after the adversarial attack. 例えば、 = −6.40 は敵攻撃後の予測精度を 6.40% 減少させることを意味する。 0.66
We find that, compared to the vanilla GPT2CR model, the explanation enhanced GPT2 model GPT2CR-EG demonstrates stronger stability. 我々は,バニラGPT2CRモデルと比較して,改良GPT2CR-EGはより安定した安定性を示した。 0.65
This suggests that, by training reasoning models to generate correct ex- これは、推論モデルをトレーニングすることで正しい元を生成することを示唆する。 0.56
英語(論文から抽出)日本語訳スコア
Causal Facts Cause: He was infected with gram-positive bacteria. 原因:グラム陽性菌に感染した。 0.52
Effect: The doctor raised the lysozyme in his body. 効果:医師はリゾザイムを体に上げました。 0.61
Cause: Pneumonia pervaded in this area. 原因:この地域で肺炎が流行した。 0.70
Effect: Many people died of Pneumonia. 影響:多くの人が肺炎で死亡した。 0.70
Cause: Tom wanted to prevent cancer. 原因:トムはがんの予防を望んだ。 0.68
Effect: The doctor told him to eat more foods containing Vitamin C. エフェクト:医師はビタミンCを含む食品をもっと食べなさいと彼に言った。 0.68
(Generated) Explanation Lysozyme is a chemical produced by the bacterium Bacillus thuringiensis to kill bacteria. (創始) リゾザイム(lysozyme)は、bacillus thuringiensisが細菌を殺すために作り出す化学物質である。 0.52
Pneumonia is a leading infectious disease caused by a bacterium called Pseudomonas aeruginosa. 肺炎はpseudomonas aeruginosaと呼ばれる細菌によって引き起こされる主要な感染症である。 0.70
Vitamin C is a naturally occurring amino acid found in many foods. ビタミンCは多くの食品に天然に存在するアミノ酸である。 0.82
Human Annotation Lysozyme destroys cell wall of bacteria. ヒトアノテーションLysozymeは細菌の細胞壁を破壊する。 0.80
Pneumonia is the most common infectious disease leading to death. 肺炎は死に至る最も一般的な感染症である。 0.74
Vitamin C slow the growth of small cell lung cancer cells. ビタミンCは小細胞肺癌細胞の増殖を遅くする。 0.80
CEQ 0.193 0.069 CEQ0.193 0.069 0.31
0.012 Table 8: Examples of explanations generated by GPT2. 0.012 表8: GPT2で生成された説明の例。 0.52
We highlighted the factual mistakes within the generated explanations and the totally irrelevant explanation in yellow and pink, respectively. 生成した説明の事実的誤りと、黄色とピンクで完全に無関係な説明を強調した。 0.74
Accu (%) AVG-BLEU ROUGE-l CEQ Human Eval. Accu (%) AVG-BLEU ROUGE-l CEQ Human Eval 0.43
(%) ∆Accu. (%) after Adv. %)であった。 (%)であった。 0.57
Attack Model GPT2CR GPT2EG GPT2CR-EG 攻撃 モデルGPT2CR GPT2EG GPT2CR-EG 0.60
69.51 - 71.06 69.51 - 71.06 0.34
- 32.04 34.83 - 32.04 34.83 0.34
- 31.47 34.22 - 31.47 34.22 0.34
- 0.035 0.042 - 0.035 0.042 0.34
- 20.0 26.5 - 20.0 26.5 0.34
-6.40 - -5.49 -6.40 - -5.49 0.30
Table 9: Model performance on the test set of Joint Causal Reasoning and Explanation Generation task. 表9: 共同因果推論と説明生成タスクのテストセットにおけるモデルパフォーマンス。 0.80
Dataset EventStoryLine 0.9 BECauSE 2.1 COPA CommonsenseQA Dataset EventStoryLine 0.9 BECause 2.1 COPA CommonsenseQA 0.38
Metric F1 (%) メートル法 f1 (%) 0.76
Accu. (%) Accu. Accu (%)accu。 0.28
(%) Accu. (%) (%)accu。 (%) 0.37
BERT BERTE 68.1 66.5 81.0 76.8 75.4 70.4 56.4 52.6 BERT BERTE 68.1 66.5 81.0 76.8 75.4 70.4 56.4 52.6 0.24
Table 10: Performance of e-CARE-enhanced BERT. 表10:e-CARE強化BERTの性能 0.73
planations of the causal facts, the understanding of the causality can be promoted, and then the stability of model performance can be increased. 因果事実の計画、因果関係の理解を促進し、モデル性能の安定性を高めることができる。 0.54
Figure 2: Conceptual explanations of observed causality can be helpful for understanding the unseen causal facts. 図2: 観察された因果関係の概念的な説明は、未知の因果事実を理解するのに役立ちます。 0.58
5.5 Enhancing Pretrained Language Model 5.5 事前訓練言語モデルの強化 0.66
with e-CARE 6 Discussion e-CARE 6 討論 0.34
Causal knowledge is critical for various NLP applications. 因果知識は様々なNLPアプリケーションに不可欠である。 0.69
In this section, we investigate if the causality knowledge provided by e-CARE can be used as a resource to boost model performance on other causal-related tasks. 本稿では,e-careが提供する因果関係の知識を,他の因果関係タスクにおけるモデル性能向上のための資源として使用できるかを検討する。 0.63
To this end, we apply transfer learning by first finetuning a BERT model on e-CARE, then adapting the eCARE-enhanced model (denoted as BERTE) on a causal extraction task EventStoryLine 0.9 (Caselli and Vossen, 2017), two causal reasoning tasks BECauSE 2.0 (Dunietz et al , 2017) and COPA (Roemmele et al , 2011), as well as a commonsense reasoning dataset CommonsenseQA (Talmor et al , 2019). この目的のために、まずe-CARE上でBERTモデルを微調整し、次に因果抽出タスクEventStoryLine 0.9(Caselli and Vossen, 2017),2つの因果推論タスクBECauSE 2.0(Dunietz et al , 2017),COPA(Roemmele et al , 2011),および常識推論データセットCommonsenseQA(Talmor et al , 2019)にeCARE強化モデル(BERTE)を適用する。 0.71
On the EventStoryLine 0.9 dataset, we conduct experiment only on the instances about within-sentence causal relationship. EventStoryLine 0.9データセットでは、文内因果関係についてのみ実験を行う。 0.75
The results are shown in Table 10. 結果は表10に示されています。 0.77
We observe that the additional training process on e-CARE can consistently increase the model performance on all four tasks. 我々は,e-CAREにおける追加トレーニングプロセスが,4つのタスクのモデル性能を継続的に向上させることができることを観察した。 0.57
This indicates the potential of eCARE in providing necessary causality information for promoting causal-related tasks in multiple domains. これは、複数のドメインにおける因果関係タスクを促進するために必要な因果関係情報を提供するためのeCAREの可能性を示している。 0.52
In this paper, we introduce additional explanation information for the causal reasoning process, and propose a corresponding explanation generation task. 本稿では,因果推論のための追加説明情報を導入し,それに対応する説明生成タスクを提案する。 0.76
Previous literature concluded the explanation generation process as an abductive reasoning process (Hanson, 1958; Peirce, 1974) and highlighted the importance of the abdutive explanation generation, as it may interact with the causal reasoning process to promote the understanding of causal mechanism, and increase the efficiency and reliability of causal reasoning. 従来の文献では、説明生成プロセスは帰納的推論プロセス(Hanson, 1958; Peirce, 1974)として結論付けられ、因果的推論プロセスと相互作用し、因果的推論の理解を促進し、因果的推論の効率性と信頼性を高めることの重要性を強調した。 0.81
For example, as Figure 2 shows, one may have an observation that C1: adding rock into hydrochloric acid caused E1: rock dissolved. 例えば、図2が示すように、c1:塩酸に岩を加えるとe1:岩が溶解する観察がある。 0.75
Through abductive reasoning, one may come up with a conceptual explanation for the observation that acid is corrosive. 帰納的推論を通じて、酸は腐食性であるという観察の概念的な説明を導き出すことができる。 0.73
After that, one can confirm or rectify the explanation by experiments, or resorting to external references. その後、実験によって説明を確認するか、修正するか、外部参照に頼ることができる。 0.68
In this way, new ideas about causality can be involved for understanding the observed causal fact. このようにして、観察された因果事実を理解するために因果関係に関する新しい考えが関与できる。 0.60
Then if the explanation is confirmed, it can be further utilized to support the causal reasoning process by helping そして、その説明が確定すれば、さらに活用して因果推論プロセスを支援することができる。 0.67
英語(論文から抽出)日本語訳スコア
to explain and validate other related causal facts, such as C2: adding rust into sulphuric acid may lead to E2: rust dissolved. C2 のような他の関連する因果事実を説明・検証するために、硫酸にさびを加えると E2: さびが溶解する。 0.68
This analysis highlights the pivotal role of conceptual explanation in learning and inferring causality. この分析は、因果関係の学習と推論における概念的説明の重要な役割を強調する。 0.59
In this paper, we introduce the e-CARE dataset to provide causal explanations and support future research towards stronger human-like causal reasoning systems. 本稿では,e-careデータセットを導入し,因果説明を提供し,より強力な人間型因果推論システムに向けた今後の研究を支援する。 0.55
7 Conclusion In this paper, we present an explainable CAusal REeasoning dataset e-CARE, which contains over 21K causal questions, together with over 13K unique conceptual explanations about the deep understanding of the causal facts, which also makes e-CARE the largest causal reasoning benchmark. 7 結論 本稿では,21K以上の因果的質問を含む説明可能なCAUSal Reeasoningデータセットe-CAREと,その因果的事実の深い理解に関する13K以上のユニークな概念的説明を行い,e-CAREを最大の因果的推論ベンチマークとした。 0.72
Experimental results show that both the causal reasoning task and especially the explanation generation task remain challenging for the SOTA pretrained language models. 実験結果から,SOTA事前学習言語モデルでは因果推論タスクと,特に説明生成タスクが依然として困難であることが示唆された。
訳抜け防止モード: 実験の結果 因果推論タスクと特に説明生成タスクは,SOTA事前訓練言語モデルでは依然として困難である。
0.79
Moreover, the additional explanation signal can promote both the prediction accuracy and stability of models, highlighting the vital importance of the conceptual explanations in causal reasoning. さらに、追加の説明信号はモデルの予測精度と安定性の両方を促進し、因果推論における概念的説明の重要性を強調する。 0.80
8 Acknowledgments We thank the anonymous reviewers for their constructive comments, and gratefully acknowledge the support of the New Generation Artificial Intelligence of China (2020AAA0106501), and the National Natural Science Foundation of China (62176079, 61976073). 認定8件 我々は、その建設的なコメントに対して匿名レビュアーに感謝し、新世代の中国人工知能(2020aaa0106501)と中国国立自然科学財団(62176079,61976073)の支援に感謝する。
訳抜け防止モード: 認定8件 我々は匿名のレビュアーたちに彼らの建設的なコメントを感謝し、新世代人工知能(2020AAA0106501)の支持を喜んで認めます。 そして中国国立自然科学財団(62176079, 6 1976073)。
0.67
References Giannis Bekoulis, Johannes Deleu, Thomas Demeester, and Chris Develder. 参照: Giannis Bekoulis、Johannes Deleu、Thomas Demeester、Chris Develder。 0.73
2018. Adversarial training for multi-context joint entity and relation extraction. 2018. マルチコンテクスト・ジョイント・エンティティの逆訓練と関係抽出 0.54
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2830–2836. 自然言語処理における経験的手法に関する2018年会議の議題2830-2836頁。 0.70
Steven Bethard and James H Martin. スティーブン・ベサードとジェームズ・H・マーティン。 0.62
2008. Learning semantic links from a corpus of parallel temporal In Proceedings of ACL-08: and causal relations. 2008. acl-08の手続きにおける並列時間コーパスからの意味的リンクの学習と因果関係 0.57
HLT, Short Papers, pages 177–180. hlt, short papers, 177-180頁。 0.74
Chandra Bhagavatula, Ronan Le Bras, Chaitanya Malaviya, Keisuke Sakaguchi, Ari Holtzman, Hannah Rashkin, Doug Downey, Wen-tau Yih, and Yejin Choi. Chandra Bhagavatula, Ronan Le Bras, Chaitanya Malaviya, Keisuke Sakaguchi, Ari Holtzman, Hannah Rashkin, Doug Downey, Wen-tau Yih, Yejin Choi
訳抜け防止モード: チャンドラ・バガヴァトゥラ、ロナン・ル・ブラス、シャイタニア・マラヴィヤ、坂口慶助 ari holtzman, hannah rashkin, doug downey, wen - tau yih, そして イジンチョイ。
0.61
2019. Abductive commonsense reasoning. 2019. アブダプティブ・コモンセンスの推論。 0.40
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
Sumithra Bhakthavatsalam, Chloe Anastasiades, and Genericskb: A knowlarXiv preprint sumithra bhakthavatsalam, chloe anastasiades, and genericskb: a knowlarxiv preprint 0.36
Peter Clark. ピーター・クラーク。 0.73
2020. edge base of generic statements. 2020. ジェネリックステートメントのエッジベース。 0.46
arXiv:2005.00660. arxiv: 2005.00660。 0.11
Oana-Maria Camburu, Tim Rockt¨aschel, Thomas Lukasiewicz, and Phil Blunsom. オアナ=マリア・カンブル、ティム・ロッケ、トーマス・ルカシエヴィチ、フィル・ブランサム。 0.43
2018. e-snli: Natural language inference with natural language explanations. 2018. e-snli: 自然言語の説明による自然言語推論。 0.60
In NeurIPS. NeurIPSに登場。 0.80
Tommaso Caselli and Piek Vossen. Tommaso CaselliとPiek Vossen。 0.38
2017. The event storyline corpus: A new benchmark for causal and temporal relation extraction. 2017. イベントストーリーラインコーパス:因果関係と時間関係の抽出のための新しいベンチマーク。 0.53
In Proceedings of the Events and Stories in the News Workshop, pages 77– 86. ニュースワークショップのイベントとストーリーの議事録には、77-86ページがある。 0.74
Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Yoshua Bengio. ジュニョンチュン、カグラー・ガルセール、チョンヒョンチョ、ヨシュア・ベンジオ。 0.47
2014. Empirical evaluation of gated recurrent neural networks on sequence modeling. 2014. シーケンスモデリングにおけるゲートリカレントニューラルネットワークの実験的評価 0.60
arXiv preprint arXiv:1412.3555. arXiv preprint arXiv:1412.3555 0.36
Jacob Cohen. ジェイコブ・コーエン。 0.55
1960. A coefficient of agreement for Educational and psychological 1960. 教育と心理学の合意の係数 0.55
nominal scales. measurement, 20(1):37–46. 名目上のスケール 測定値:20(1):37-46。 0.58
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2019. Bert: Pre-training of deep bidirectional transformers for language understanding. 2019. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.61
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186。
訳抜け防止モード: 計算言語学会北米支部2019年大会の成果 : ヒューマン・ランゲージ・テクノロジー Volume 1 (Long and Short Papers ) 4171–4186頁。
0.54
Jay DeYoung, Sarthak Jain, Nazneen Fatema Rajani, Eric Lehman, Caiming Xiong, Richard Socher, and Byron C Wallace. Jay DeYoung, Sarthak Jain, Nazneen Fatema Rajani, Eric Lehman, Caiming Xiong, Richard Socher, Byron C Wallace 0.37
2019. Eraser: A benchmark to arXiv preprint evaluate rationalized nlp models. 2019. Eraser: arXivプリプリントのためのベンチマークは、合理化されたnlpモデルを評価します。 0.45
arXiv:1911.03429. arXiv:1911.03429。 0.49
Quang Do, Yee Seng Chan, and Dan Roth. Quang Do, Yee Seng Chan, Dan Roth。 0.36
2011. Minimally supervised event causality identification. 2011. イベント因果関係の最小化。 0.53
In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 294–303. 自然言語処理における経験的手法に関する2011年の会議では、294-303ページを扱っている。
訳抜け防止モード: 自然言語処理における実証的手法に関する2011年会議のまとめ 294-303頁。
0.76
Jesse Dunietz, Lori Levin, and Jaime G Carbonell. Jesse Dunietz、Lori Levin、Jaime G Carbonell。 0.64
2017. The because corpus 2.0: Annotating causalIn Proceedings of ity and overlapping relations. 2017. The because corpus 2.0: Annotating causalIn Proceedings of ity and overlapping relations。 0.44
the 11th Linguistic Annotation Workshop, pages 95– 104. 第11回言語アノテーションワークショップ、95-104頁。 0.63
Christiane Fellbaum. クリスチャン・フェルバウム。 0.47
2010. Wordnet. 2010. ワードネット 0.50
In Theory and applications of ontology: computer applications, pages 231–243. オントロジーの理論と応用:コンピュータ応用、231–243ページ。 0.73
Springer. Roxana Girju, Preslav Nakov, Vivi Nastase, Stan Szpakowicz, Peter Turney, and Deniz Yuret. Springer Roxana Girju、Preslav Nakov、Vivi Nastase、Stan Szpakowicz、Peter Turney、Denis Yuret。 0.31
2007. Semeval-2007 task 04: Classification of semantic relations between nominals. 2007. Semeval-2007 Task 04: 名詞間の意味関係の分類。 0.58
In Proceedings of the Fourth International Workshop on Semantic Evaluations (SemEval-2007), pages 13–18. The Proceedings of the Fourth International Workshop on Semantic Evaluations (SemEval-2007) において、13-18頁。 0.74
Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel Bowman, and Noah A 例えば、gururangan、swabha swayamdipta、omer levy、roy schwartz、samuel bowman、noah aである。 0.59
英語(論文から抽出)日本語訳スコア
Smith. 2018. スミス 2018. 0.37
Annotation artifacts in natural lanIn Proceedings of the 2018 guage inference data. 2018年のguage推論データのNature lanIn Proceedingsのアノテーションアーティファクト。 0.59
Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 107–112. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), page 107–112。
訳抜け防止モード: 計算言語学会北米支部会議 : 人間言語技術 第2巻(短文)、107-112頁。
0.49
Braden Hancock, Martin Bringmann, Paroma Varma, Percy Liang, Stephanie Wang, and Christopher R´e. Braden Hancock, Martin Bringmann, Paroma Varma, Percy Liang, Stephanie Wang, Christopher R ́e 0.40
2018. Training classifiers with natural language explanations. 2018. 自然言語説明による分類器の訓練。 0.57
In Proceedings of the conference. 会議の議事録に登場。 0.70
Association for Computational Linguistics. Meeting, volume 2018, page 1884. 計算言語学会会員。 2018年、同上、1884頁。 0.43
NIH Public Access. NIHパブリックアクセス。 0.66
Norwood Russell Hanson. ノーウッド・ラッセル・ハンソン 0.47
1958. Patterns of discovery: An inquiry into the conceptual foundations of science, volume 251. 1958. 発見のパターン: 科学の概念的基礎に関する調査、第251巻。 0.57
CUP Archive. Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid O S´eaghdha, Sebastian Pad´o, Marco Pennacchiotti, Lorenza Romano, and Stan Szpakowicz. CUPアーカイブ。 Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid O S ́eaghdha, Sebastian Pad ́o, Marco Pennacchiotti, Lorenza Romano, Stan Szpakowicz 0.59
2019. Semeval-2010 task 8: Multi-way classification of semantic relaarXiv preprint tions between pairs of nominals. 2019. semeval-2010 task 8: 意味的relaarxivプレプリントのマルチウェイ分類。 0.49
arXiv:1911.10422. arXiv:1911.10422。 0.49
John Horgan. 1995. ジョン・モーガン。 1995. 0.49
From complexity to perplexity. 複雑化から複雑化までです 0.72
Scientific American, 272(6):104–109. 英語: scientific american, 272(6):104–109。 0.67
Harsh Jhamtani and Peter Clark. ジャムタニとピーター・クラーク 0.55
2020. Learning to explain: Datasets and models for identifying valid reasoning chains in multihop question-answering. 2020. 説明の学習:マルチホップ質問回答における有効な推論チェーンを特定するデータセットとモデル。 0.54
arXiv preprint arXiv:2010.03274. arXiv preprint arXiv:2010.03274 0.36
David H Jonassen, Ionas, and Gelu Ioan. David H Jonassen、Ionas、Gelu Ioan。 0.35
2008. Designing effective supports for causal reasoning. 2008. 因果推論のための効果的なサポートを設計する。 0.47
Educational Technology Research and Development, 56(3):287–308. 教育技術研究・開発 56(3):287–308。 0.83
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut 0.35
2019. Albert: A lite bert for self-supervised learnarXiv preprint ing of language representations. 2019. albert: 言語表現の自己教師付きlearnerxivプレプリントイングのためのlite bert。 0.57
arXiv:1909.11942. 略称1909.11942。 0.31
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer。 0.39
2020. Bart: Denoising sequence-to-sequence pretraining for natural language generation, translation, and comprehension. 2020. bart: 自然言語の生成、翻訳、理解のためのシーケンスからシーケンスへの事前学習。 0.52
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7871–7880. 第58回計算言語学会年次総会において、7871-7880頁。 0.52
Zhongyang Li, Xiao Ding, Ting Liu, J Edward Hu, and Benjamin Van Durme. zhongyang li、xiao ding、ting liu、j edward hu、benjamin van durme。 0.47
2020. Guided generation of cause and effect. 2020. 原因と効果の導出。 0.34
IJCAI. Chin-Yew Lin. ijcai所属。 Chin-Yew Lin 0.46
2004. Rouge: A package for automatic evaluation of summaries. 2004. rouge: 要約の自動評価のためのパッケージ。 0.61
In Text summarization branches out, pages 74–81. テキスト要約では74-81ページ。 0.59
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。
訳抜け防止モード: yinhan liu, myle ott, naman goyal, jingfei du, マンダー・ジョシ、ダンチー・チェン、オマー・レヴィ、マイク・ルイス ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
0.61
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.52
Zhiyi Luo, Yuchen Sha, Kenny Q Zhu, Seung-won Hwang, and Zhongyuan Wang. Zhiyi Luo, Yuchen Sha, Kenny Q Zhu, Seung-won Hwang, Zhongyuan Wang 0.38
2016. Commonsense causal reasoning between short texts. 2016. 短いテキスト間の共通因果推論。 0.58
In KR, pages 421–431. Tom McCoy, Ellie Pavlick, and Tal Linzen. 421-431頁。 トム・マッコイ、エリー・パヴリック、タル・リンゼン。 0.42
2019. Right for the wrong reasons: Diagnosing syntactic heuristics in natural language inference. 2019. 間違った理由:自然言語推論における構文的ヒューリスティックの診断。 0.60
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3428–3448. 第57回計算言語学会年次大会紀要3428-3448頁。
訳抜け防止モード: 第57回計算言語学会年次大会を終えて 3428-3448頁。
0.50
Paramita Mirza, Rachele Sprugnoli, Sara Tonelli, and Manuela Speranza. Paramita Mirza、Rachele Sprugnoli、Sara Tonelli、Manuela Speranza。 0.33
2014. Annotating causality In EACL 2014 Workin the tempeval-3 corpus. 2014. eacl 2014 におけるtempeval-3 コーパスにおける因果関係の注釈 0.50
shop on Computational Approaches to Causality in Language (CAtoCL), pages 10–19. shop on Computational Approaches to Causality in Language (CAtoCL) 10–19頁。 0.43
Association for Computational Linguistics. Takeru Miyato, Andrew M Dai, and Ian Goodfellow. 計算言語学会会員。 宮戸尊、アンドリュー・m・ダイ、イアン・グッドフェロー。 0.52
2016. Adversarial training methods for semi-supervised text classification. 2016. 半教師付きテキスト分類のためのadversarial training法 0.56
arXiv preprint arXiv:1605.07725. arXiv preprint arXiv:1605.07725 0.36
Nasrin Mostafazadeh, Alyson Grealish, Nathanael Chambers, James Allen, and Lucy Vanderwende. Nasrin Mostafazadeh, Alyson Grealish, Nathanael Chambers, James Allen, Lucy Vanderwende。 0.37
2016. Caters: Causal and temporal relation scheme for semantic annotation of event structures. 2016. カテゴリ:イベント構造の意味的アノテーションのための因果関係および時間関係スキーム。 0.59
In Proceedings of the Fourth Workshop on Events, pages 51–61. 第4回イベントワークショップの議事録51-61頁。 0.65
Qiang Ning, Zhili Feng, Hao Wu, and Dan Roth. Qiang Ning、Zhili Feng、Hao Wu、Dan Roth。 0.34
2019. Joint reasoning for temporal and causal relations. 2019. 時間的・因果関係に関する共同推論 0.57
arXiv preprint arXiv:1906.04941. arXiv preprint arXiv:1906.04941 0.35
Kishore Papineni, Salim Roukos, Todd Ward, and WeiJing Zhu. Kishore Papineni、Salim Roukos、Todd Ward、WeiJing Zhu。 0.30
2002. Bleu: a method for automatic evaluation of machine translation. 2002. bleu: 機械翻訳の自動評価方法。 0.52
In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318. 第40回計算言語学会年次大会(Proceedings of the 40th Year Meeting of the Association for Computational Linguistics)において、311-318頁。 0.55
Charles Sanders Peirce. チャールズ・サンダース・パース 0.63
1974. Collected papers of charles sanders peirce, volume 2. 1974. チャールズ・サンダース・パース (charles sanders peirce) 第2巻。 0.47
Harvard University Press. ハーバード大学出版局。 0.66
Ethan Perez, Siddharth Karamcheti, Rob Fergus, Jason Weston, Douwe Kiela, and Kyunghyun Cho. Ethan Perez, Siddharth Karamcheti, Rob Fergus, Jason Weston, Douwe Kiela, Kunghyun Cho 0.36
Finding generalizable evidence by learn2019. 総合的な証拠を2019年に発見。 0.45
arXiv preprint ing to convince q&a models. arXivの事前印刷でq&aモデルを納得させる。 0.75
arXiv:1909.05863. arXiv:1909.05863。 0.48
Adam Poliak, Aparajita Haldar, Rachel Rudinger, J Edward Hu, Ellie Pavlick, Aaron Steven White, and Benjamin Van Durme. アダム・ポリアック、アパラジタ・ハルダー、レイチェル・ラディンジャー、j・エドワード・ヒュー、エリー・パヴリック、アーロン・スティーブン・ホワイト、ベンジャミン・ヴァン・ダーム。 0.48
2018. Collecting diverse natural language inference problems for sentence representation evaluation. 2018. 文表現評価のための多様な自然言語推論問題収集 0.60
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 67–81. 自然言語処理における経験的手法に関する2018年会議の議題は67-81頁である。
訳抜け防止モード: 自然言語処理における実証的手法に関する2018年会議のまとめ 67-81頁。
0.72
Alec Radford, Karthik Narasimhan, Tim Salimans, and Improving language under- Alec Radford, Karthik Narasimhan, Tim Salimans, and Improving Language Under- 0.45
Ilya Sutskever. ilya sutskever所属。 0.67
2018. standing by generative pre-training. 2018. 生成前訓練による立位。 0.55
Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. アレク・ラドフォード、ジェフリー・ウー、レウォン・チャイルド、デイヴィッド・ルーアン、ダリオ・アモデイ、イリヤ・サツバー。 0.49
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.51
OpenAI blog, 1(8):9. OpenAIブログ、1(8):9。 0.81
英語(論文から抽出)日本語訳スコア
Nazneen Fatema Rajani, Bryan McCann, Caiming Xiong, and Richard Socher. Nazneen Fatema Rajani、Bryan McCann、Caiming Xiong、Richard Socher。 0.35
2019. Explain yourself! leveraging language models for commonsense reasoning. 2019. 言語モデルを常識推論に活用してください。 0.56
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4932–4942. 計算言語学会第57回年次大会紀要、4932-4942頁。 0.48
Melissa Roemmele, Cosmin Adrian Bejan, and Andrew S Gordon. メリッサ・ロエメレ、コスミン・エイドリアン・ベジャン、アンドリュー・s・ゴードン。 0.41
2011. Choice of plausible alternatives: An evaluation of commonsense causal reasoning. 2011. 妥当な代替案の選択:常識的因果推論の評価。 0.57
In AAAI Spring Symposium: Logical Formalizations of Commonsense Reasoning, pages 90–95. AAAI Spring Symposium: Logical Formalizations of Commonsense Reasoning, page 90–95。 0.41
Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. 坂口敬介、ロナン・ル・ブラス、チャンドラ・バガヴァトゥラ、エジン・チョイ。 0.43
2020. Winogrande: An adversarial winograd schema challenge at scale. 2020. Winogrande: スケールの逆のWinogradスキーマの問題です。 0.60
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 8732–8740. The Proceedings of the AAAI Conference on Artificial Intelligence, Volume 34, page 8732–8740。 0.43
Maarten Sap, Ronan Le Bras, Emily Allaway, Chandra Bhagavatula, Nicholas Lourie, Hannah Rashkin, Brendan Roof, Noah A Smith, and Yejin Choi. Maarten Sap, Ronan Le Bras, Emily Allaway, Chandra Bhagavatula, Nicholas Lourie, Hannah Rashkin, Brendan Roof, Noah A Smith, Yejin Choi
訳抜け防止モード: maarten sap, ronan le bras, emily allaway, chandra bhagavatula, ニコラス・ルーリー ハンナ・ラシュキン ブレンダンの屋根 ノア・ア・スミス そして イジンチョイ。
0.52
2019. Atomic: An atlas of machine commonsense for ifIn Proceedings of the AAAI Conthen reasoning. 2019. Atomic: ifIn Proceedings of the AAAI Conthen reasoningのマシンコモンセンスのアトラス。 0.57
ference on Artificial Intelligence, volume 33, pages 3027–3035. 人工知能に関する参照、巻33、3027-3035。 0.54
V Sembugamoorthy and B Chandrasekaran. セムガモオルティ(Sembugamoorthy)とB Chandrasekaran。 0.62
1986. Functional representation of devices and compilation of diagnostic problem-solving systems. 1986. デバイスの機能表現と診断問題解決システムの構築 0.58
Experience, memory and Reasoning, pages 47–73. 体験、記憶、推論、47-73頁。 0.68
Robert Speer and Catherine Havasi. ロバート・スピアとキャサリン・ハヴァシ。 0.63
2013. Conceptnet 5: A large semantic network for relational knowledge. 2013. Conceptnet 5: 関係知識のための巨大なセマンティックネットワーク。 0.66
In The People’s Web Meets NLP, pages 161– 176. 人民のwebでは、nlpは161-176ページである。 0.67
Springer. Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. Springer アロン・タルモル、ジョナサン・ヘルツィヒ、ニコラス・ルーリー、ジョナサン・ベラン。 0.38
2019. Commonsenseqa: A question answering challenge targeting commonsense knowledge. 2019. commonsenseqa: commonsenseの知識をターゲットとした質問応答チャレンジ。 0.58
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4149–4158. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4149–4158。
訳抜け防止モード: 計算言語学会北米支部2019年大会の成果 : ヒューマン・ランゲージ・テクノロジー 第1巻(長編・短編)4149-4158頁。
0.46
Michael R Waldmann and York Hagmayer. マイケル・R・ウォルドマンとヨーク・ハグマイヤー。 0.55
2013. Causal reasoning. 2013. 因果推論。 0.36
Sarah Wiegreffe and Ana Marasovi´c. Sarah Wiegreffe と Ana Marasovi の略。 0.81
2021. Teach me to explain: A review of datasets for explainable nlp. 2021. teach me to explain: 説明可能なnlpのためのデータセットのレビュー。 0.57
arXiv preprint arXiv:2102.12060. arXiv preprint arXiv:2102.12060 0.36
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V Le. Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Ruslan Salakhutdinov、Quoc V Le。 0.33
2019. Xlnet: Generalized autoregressive pretrainarXiv preprint ing for language understanding. 2019. xlnet: 言語理解のための一般化された自己回帰プレトレーナーxivプレプリントing。 0.46
arXiv:1906.08237. arXiv:1906.08237。 0.48
Michihiro Yasunaga, 安永通広(やすなながみちひろ) 0.23
Jungo Kasai, and Dragomir Radev. 香西順吾とラデフドラゴミル。 0.26
2018. Robust multilingual part-of-speech tagging via adversarial training. 2018. 対人訓練による頑健な多言語音声タグ付け 0.51
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 976–986. 2018年北米計算言語学会(英語版)の北米支部会議(英語版)において、Human Language Technologies, Volume 1 (Long Papers), page 976–986。 0.77
Qinyuan Ye, Xiao Huang, シンユン・イェ、シャオ・フアン。 0.46
2020. compositional arXiv:2005.00806. 2020. 作曲:2005.00806。 0.33
and Xiang Ren. そしてXiang Ren。 0.63
Teaching machine comprehension with arXiv preprint arXivプレプリントによる学習機械の理解 0.70
explanations. 9 More Discussions about the e-CARE 説明だ e-CAREに関する9つの議論 0.63
Dataset 9.1 The Generality of the Conceptual データセット 9.1 概念の一般性 0.76
Explanation In this paper, we construct the dataset by first obtaining the conceptual explanations, then obtaining the causal questions. 解説 本稿では,まず概念的説明を得た上で,因果的疑問を得たデータセットを構築する。 0.68
This is because, we also hope to find the conceptual explanations with more generality, that that can explain more than one causal fact, but can explain a set of correlated causal facts. これはまた、複数の因果事実を説明できるが、関連する因果事実の集合を説明できるという、より一般的な概念的な説明を見つけたいと思っています。 0.70
Table 11 demonstrate an example of such conceptual explanation. 表11はそのような概念的な説明の例を示している。 0.57
The explanation points out the nature of Copper that Copper is a good thermal conductor, so that holding copper on fire will make fingers feel burnt immediately. この説明は、銅が良い熱伝導体であることの銅の性質を指摘し、銅を火につけるとすぐに指が燃える。 0.83
Additionally, the same explanation can also provide insights about another causal fact seemingly totally different from the case in Table 3 (a), that putting copper tubes into computer can promote thermal dispersion. さらに、同じ説明が表3(a)と全く異なる別の因果関係についての洞察を与え、銅管をコンピュータに挿入することで熱分散を促進することができる。 0.81
This is because, the conceptual explanation points out the nature of copper, which drives a set of causal facts into existence. これは、概念的な説明が銅の性質を指摘し、因果的事実のセットが存在しているからである。 0.78
This example demonstrate the usefulness of the conceptual explanations in providing the deep understanding of causality to support the causal reasoning. この例は、因果推論を支援するために因果関係を深く理解するための概念的説明の有用性を示す。 0.74
However, note that in this paper, we do not assume all the statements we collected can explain multiple causal facts. しかし、本論文では、収集した全ての言明が複数の因果事実を説明できるとは考えていない。 0.67
Instead, we resort to the empirical knowledge of human annotators to find such explanations. 代わりに、人間のアノテーションの実証的な知識を利用して、このような説明を見つける。 0.55
Specifically, we distribute statements to several annotators, and require each annotator to generate a causal fact that can be explained by the statement. 具体的には、複数のアノテーションにステートメントを配布し、各アノテーションにそのステートメントで説明できる因果的事実を生成するように要求します。 0.59
For a certain statement, if it is distributed to multiple annotators and more than one annotator can generate a corresponding causal fact, then we assume that this statement can be a conceptual statement. あるステートメントに対して、複数のアノテータに分散され、複数のアノテータが対応する因果事実を生成できる場合、このステートメントは概念的なステートメントであると仮定する。 0.62
9.2 The Exhaustiveness of the Explanations 9.2 説明の暴露性 0.86
Another point we wish to elucidate is about the exhaustiveness of the explanations. 我々が解明したいもう1つのポイントは、説明の徹底性です。 0.60
In this paper, we only aim at providing plausible explanations that can explain the causal fact, but do not assume the provided explanations to be exhaustive or selfsufficient. 本稿では、因果事実を説明できるもっともらしい説明を提供することのみを目的としているが、提供された説明は徹底的あるいは自己充足的であると仮定しない。 0.62
英語(論文から抽出)日本語訳スコア
(a) Premise: Tom held a copper block by hand and heated it on fire. (a)前提:トムは銅ブロックを手で握り、火で加熱した。 0.75
Ask-for: Effect Hypothesis 1: His fingers felt burnt for a short time. ask-for: effect hypothesis 1: 彼の指は短期間燃え尽きた。 0.81
(!) Hypothesis 2: The copper block kept the same. (!) 仮説2:銅ブロックが同じであった。 0.57
(×) Explanation: Copper is a good thermal conductor. (×)説明:銅は優れた熱伝導体である。 0.87
(b) Premise:This computer’s heat dispersion performance is bad. (b)前提:このコンピュータの熱分散性能は悪い。 0.67
Ask-for: Effect Hypothesis 1: Designers add copper tubes into the computer. ask-for: effect hypothesis 1: デザイナーがコンピュータに銅管を追加する。 0.81
(!) Hypothesis 2: Designers put the computer into the ice water. (!) 仮説2: 設計者はコンピューターを氷の水に入れた。 0.59
(×) Explanation: Copper is a good thermal conductor. (×)説明:銅は優れた熱伝導体である。 0.87
Table 11: Two instances from the e-CARE dataset. 表11: e-CAREデータセットから2つのインスタンス。 0.72
9.3 The Relationship between the Unique 9.3 特異点の関係 0.84
Explanations and Causal Questions Due to the practical limits, to ensure the coverage of dataset, only a part of statements are distributed to multiple annotators, as described in Section 3.1. 説明と因果問題 実用上の限界、データセットのカバレッジを確保するため、第3.1節で述べられているように、ステートメントの一部のみが複数のアノテーションに分散される。 0.65
10 Data Collection Details データ収集の詳細10 0.85
10.1 Collection of Explanations We collect the potential explanations from a commonsense knowledge base GenericsKB (Bhakthavatsalam et al , 2020), which contains naturally occurring generic statements, such as “Trees remove carbon dioxide from the atmosphere”, collected from multiple corpora. 10.1 説明の収集 私たちは、複数のコーパスから収集された「大気から二酸化炭素を除去する」といった自然発生の一般的な言明を含むコモンセンス知識基盤GenericsKB(Bhakthava tsalam et al , 2020)から潜在的な説明を集めます。 0.78
We first filtered the statements according to their quality score s, which is a human-annotation based metric, provided in the GenericsKB and evaluating the correctness of each statement. 我々はまず,ジェネリックスKBで提供される人間の注釈に基づく指標である品質スコア s に従って文をフィルタリングし,各文の正当性を評価する。 0.78
To ensure the factual correctness of the potential explanations, we only kept the statements whose quality score are among the highest 1%. 潜在的な説明の事実的正確性を確保するため、品質スコアが最高1%であるステートメントだけを保持しました。 0.71
In addition, we also excluded the statements including: (1) Overly complex statements. さらに、(1)過剰に複雑なステートメントを含むステートメントも除外しました。 0.69
The statements with connective, and statements with more than 20 words are excluded. 接続性のある文と20語以上の文は除外される。 0.57
This is because, by observation, we found that the annotators always struggle with understand and generate plausible causal facts for the over complex explanations. これは、観察によって、アノテータが常に理解に苦慮し、複雑な説明に対して合理的な因果的事実を生み出すことが判明したからである。
訳抜け防止モード: これは観察によって アノテータは常に理解に苦労し、複雑な説明に対する正当な因果的事実を生み出します。
0.65
The number 20 is an empirical setting. 番号20は経験的な設定です。 0.72
(2) Statements describing named entities. (2) 名前付きエンティティを記述するステートメント。 0.76
(3) Statements describing the hypernymy or hyperonymy relationship between the subject and object. 3)被写体と被写体との間のハイパーニーミーまたはハイパー匿名関係を記述するステートメント。 0.67
For example, the statement Monkey is a kind of mammal. 例えば、Monkeyは哺乳類の一種です。 0.55
describes the hypernymy relationship between the subject monkey and object mammal. 対象猿と対象哺乳類のハイパーニーミー関係について記述する。 0.62
This kind of statement does not belong to the three kinds of information that a valid explanation contains, as mentioned in Section 3.1. この種の陳述は,第3.1項で述べたように,正当な説明に含まれている3種類の情報には属さない。 0.77
After the filtering process, totally 19K statements are remained to be the potential explanations. フィルター処理の後、完全な19K文が潜在的な説明として残っている。 0.68
Note that we do not assume that the statements after the filtering process are necessarily to be valid potential explanation and force the annotators to generate corresponding causal fact(s). フィルター処理後のステートメントが必ずしも有効な潜在的な説明であると仮定せず、アノテータに対応する因果事実を生成するよう強制する。 0.62
Instead, we left the judgment to the annotators. 代わりに、私たちはその判断を注釈者に委ねた。 0.58
If a statement has already been distributed to three annotators and no annotator can generate a corresponding causal question for this statement, then it is discarded. もしも ステートメントはすでに3つのアノテーションに配布されており、アノテータはこのステートメントに対して対応する因果問題を生成することはできない。 0.59
10.2 Collection of Causal Questions We guided the annotators using illustrative examples to avoid the following mistakes: (1) The generated cause and effect cannot be explained by the statement. 10.2 因果的質問の収集 私たちは、次のような間違いを避けるために、例示的な例を使って注釈を導いた: (1) 生成された原因と効果は、その文で説明できない。 0.59
• Wrong Case Explanation: Copper is a good The copper block was oxidized and the surface became dark. •誤例 説明:銅は良く、銅ブロックは酸化され、表面は暗くなった。 0.73
. Cause: Tom held a copper block and heated it on fire. . 原因: トムは銅の塊を持って火で暖めた。 0.59
Effect: The copper block was oxidized and the surface became dark. 効果:銅ブロックが酸化され、表面が暗くなった。 0.81
• Correct Case Explanation: Copper is a good thermal conductor. •正しい場合 説明:銅は優れた熱伝導体である。 0.74
Cause: Tom held a copper block by hand and heated it on fire. 原因:トムは銅ブロックを手で握り、火で加熱した。 0.78
Effect: His fingers felt burnt for a short time. 影響:彼の指は短期間燃えていた。 0.81
(2) The generated “cause” and “effect” do not form a valid causal relationship. 2) 生成された「原因」と「効果」は、有効な因果関係を形成しない。 0.82
• Wrong Case Explanation: Oncologists specialize in the treatment of cancer. •誤例 解説:腫瘍学者はがんの治療を専門とする。 0.65
Cause: Jerry suffered from cancer. 原因:ジェリーは癌を患った。 0.68
Effect: Jerry consulted many artists. 効果:ジェリーは多くのアーティストに相談した。 0.50
• Correct Case Explanation: Oncologists specialize in the treatment of cancer. •正しい場合 解説:腫瘍学者はがんの治療を専門とする。 0.65
Cause: Jerry suffered from cancer. 原因:ジェリーは癌を患った。 0.68
Effect: Jerry consulted many oncologists. 効果:jerryは多くの腫瘍学者に相談した。 0.43
英語(論文から抽出)日本語訳スコア
(3) The distractor can also form a causal relationship with the premise. (3) イントラクタは前提と因果関係を形成できる。 0.55
• Wrong Case Explanation: Oncologists specialize in the treatment of cancer. •誤例 解説:腫瘍学者はがんの治療を専門とする。 0.65
Cause: Jerry suffered from cancer. 原因:ジェリーは癌を患った。 0.68
Effect: Jerry consulted many oncologists. 効果:jerryは多くの腫瘍学者に相談した。 0.43
Disctractor Cause: traditional herbalists. Jerry consulted many 伝統草原学者。 ジェリーは多くの相談をした 0.31
Mi and (cid:104)pj, aj, h− k (cid:105), where δ k < 0 means model Mi favors h+ j to be the plausible hypothesis than the implausible hypothesis h− jk. Mi と (cid:104)pj, aj, h− k (cid:105) では、δ k < 0 はモデル Mi を意味し、h+j は証明不可能な仮説 h−jk よりも妥当な仮説である。 0.71
With probability ti, we replace h− j with the implausible that is j , i.e., h− j = h− hardest to distinguish with h+ jl, . 確率 ti では、h− j を j に置き換え、すなわち h− j = h− を h+ jl と区別するのが最も困難である。 0.88
In this way, in each iteration, l = arg minl δ the proportion of easy implausible hypotheses decreases, and then the adversary model is forced to capture more causality knowledge. このように、各反復において、l = arg minl δ は容易に証明できない仮説の比率が減少し、敵モデルはより多くの因果関係の知識を捕捉せざるを得なくなる。 0.60
Mi k (4) The generated distractor is uninformative. ミ・k (4) 生成したイントラクタは非形式的である。 0.50
• Wrong Case Explanation: Copper is a good thermal conductor. •誤例 説明:銅は優れた熱伝導体である。 0.74
Cause: Tom held a copper block by hand and heated it on fire. 原因:トムは銅ブロックを手で握り、火で加熱した。 0.78
Effect: His fingers felt burnt for a short time. 影響:彼の指は短期間燃えていた。 0.81
Disctractor Effect: His fingers did not feel burnt for a short time. 判別器効果:指が火傷を感じなかった。 0.50
11 Adversarial Filtering During the annotation process, some superficial clues may be incurred into the dataset, which makes the correct and implausible hypothesis can be distinguished merely using these annotation artifacts. 11 アノテーションプロセス中の逆フィルタリング 表層的なヒントがデータセットに反映される可能性があるため、これらのアノテーションアーティファクトのみを使用して、正しい、そして意味のない仮説を区別することができる。 0.61
To decrease the influence of potential annotation artifacts, we introduce an Adversarial Filtering algorithm (Bhagavatula et al , 2019) to refine our dataset. 潜在的なアノテーションアーティファクトの影響を低減するため、データセットを洗練するためのAdversarial Filteringアルゴリズム(Bhagavatula et al , 2019)を導入する。 0.77
In specific, for an arbitrary causal question (cid:104)p, a, h+, h−(cid:105), where p is the premise, a ∈ [“cause(cid:48)(cid:48 ), “ef f ect(cid:48)(cid:48)] is an ask-for annotator, h+ and h− is the correct and wrong hypothesis, respectively, if (cid:104)p, h+(cid:105) and (cid:104)p, h−(cid:105) can be easily distinguished by a predictive model, then we replace h− with another implausible hypothesis h−(cid:48) sampled from an implausible hypothesis set H, so that (cid:104)p, h−(cid:48)(cid:105) is harder to be distinguished from (cid:104)p, h+(cid:105). In specific, for an arbitrary causal question (cid:104)p, a, h+, h−(cid:105), where p is the premise, a ∈ [“cause(cid:48)(cid:48 ), “ef f ect(cid:48)(cid:48)] is an ask-for annotator, h+ and h− is the correct and wrong hypothesis, respectively, if (cid:104)p, h+(cid:105) and (cid:104)p, h−(cid:105) can be easily distinguished by a predictive model, then we replace h− with another implausible hypothesis h−(cid:48) sampled from an implausible hypothesis set H, so that (cid:104)p, h−(cid:48)(cid:105) is harder to be distinguished from (cid:104)p, h+(cid:105).
訳抜け防止モード: 具体的には、任意の因果問題 (cid:104)p, a, h+, h−(cid:105 ) について。 p が前提ならば a ∈ [ “ cause(cid:48)(cid:48 ) ef f ect(cid:48)(cid:48 ) ] is a ask - for annotator, h+ and h− is the correct and wrong hypothesis。 それぞれ (cid:104)p, h+(cid:105 ) および (cid:104)p, h−(cid:105 ) が予測モデルにより容易に区別できる。 すると、h− を別の不可解仮説 h−(cid:48 ) に置き換える。 したがって (cid:104)p, h−(cid:48)(cid:105 ) は (cid:104)p, h+(cid:105 )。
0.89
Where the implausible hypothesis set H is the collection of all wrong hypotheses within the dataset. 暗黙の仮説集合 h はデータセット内のすべての誤った仮説の集まりである。 0.72
Algorithm 1 provides a formal description of our adversarial filtering algorithm. アルゴリズム1は、我々の逆フィルタリングアルゴリズムの形式的記述を提供する。 0.67
Specifically, in each iteration i, we randomly split the dataset into a training set Ti and a validation set Vi. 具体的には、各イテレーション i において、データセットをトレーニングセット Ti と検証セット Vi にランダムに分割する。 0.81
Then a model Mi is trained on Ti to update Vi to make it more challenging for Mi. その後、モデルMiがTi上でトレーニングされ、Viを更新してMiをより難しくする。 0.75
To this j0(cid:105) ∈ Vi, we end, given an instance (cid:104)pj, aj, h+ randomly sample K more implausible hypotheses h− denotes the differj , h− ence of model evaluation between (cid:104)pj, aj, h+ j (cid:105) この j0(cid:105) ∈ vi に対して、(cid:104)pj, aj, h+ のインスタンスが与えられたとき、h− は (cid:104)pj, aj, h+ j (cid:105) 間のモデル評価の差 j, h− を表す。 0.76
j 1(cid:48),··· , h− j1(cid:48),··· ,h− 0.40
j K(cid:48). j K (cid:48)。 0.85
Let δ j , h− δ にしよう j、h- 0.74
Mi k Algorithm 1 Adversarial Filtering Input: number of iteration n, dataset D0, implausible hypothesis set H−, initial and final temperature parameter ts and te. ミ・k アルゴリズム1 逆フィルタ入力:反復数n、データセットD0、予測不可能な仮説セットH−、初期および最終温度パラメータts、te。 0.62
Output: dataset Dn 1: for iteration i = 1 → (n − 1) do 2: 1+e0.3(i−3n/4) 3: 出力: データセット Dn 1: for iteration i = 1 → (n − 1) do 2: 1+e0.3(i−3n/4) 3: 0.81
ts−te set Vi ts−te セットvi 0.44
ti = t + e + Random split Mi into training set Ti and validation Train Model Mi on Ti for instance j ∈ Si do j do Mi k ti = t + e + random split mi into training set ti and validation train model mi on ti 例えば j ∈ si do j do mi k である。 0.78
jk ∈ H− − ((cid:104)pj, aj, h+ Calculate δ Mi l = arg minl δ k Sample r from a Uniform distribution jk ∈ h− − ((cid:104)pj, aj, h+ は一様分布から δ mi l = arg minl δ k サンプル r を計算する。 0.88
j (cid:105),(cid:104)p j, aj, h j (cid:105), (cid:104)pj, aj, h 0.48
jk(cid:105)) − jk(cid:105) − 0.46
for h 4: 5: 6: 7: 8: 9: h のために 4: 5: 6: 7: 8: 9: 0.54
If r < ti or δ Add instance j into Si r < ti または δ がインスタンス j を si に加える場合 0.79
Mi l < 0 then h Mi l < 0 ならば h 0.90
− j = h j = h である。 0.60
− jl U (0, 1) -jl U (0, 1) 0.34
10: 11: 12: end for 13: 14: end for 15: Dn = Sn 10: 11: 12: end for 13: 14: end for 15: Dn = Sn 0.42
end for We implemented the adversary model using pretrained language model RoBERTa-base (Liu et al , 2019). 終わりだ 事前訓練された言語モデルRoBERTa-base(Liu et al , 2019。 0.58
The AF algorithm is run for 25 iterations and the temperature ti follows a sigmoid function, parameterized by the iteration number, between ts = 1.0 and te = 0.2. AFアルゴリズムは25回の繰り返しで実行され、温度tiは、ts = 1.0 と te = 0.2 の間で反復数によってパラメータ化されるシグモイド関数に従う。 0.75
For each instance, we sampled K = 20 more implausible hypotheses from the implausible hypothesis set H. 12 Details of Experiments 12.1 Details of the Causal Reasoning 各事例について、H. 12 実験の詳細 12.1 因果推論の詳細から、K = 20 以上の証明不可能な仮説をサンプリングした。 0.74
Experiment Settings In this paper, the causal reasoning task is defined as a multiple-choice problem, which requires the model to choose a more plausible hypothesis from two candidates, so that the premise and hypothesis can form a valid causal fact. 実験 本稿では,因果推論タスクをマルチチョイス問題として定義し,2つの候補からより妥当な仮説を選択し,前提と仮説が妥当な因果的事実を形成することをモデルに要求する。 0.79
Therefore, the causal reasoning task could be formalized as a prediction problem: given a candidate cause fact (cid:104)cause, ef f ect(cid:105) composed of the premise event and one of the hypothesis events, the prediction model is required to predict a score mea- したがって、因果推論タスクは予測問題として形式化することができる: 前提事象と仮説事象の1つからなる候補原因事実(cid:104)、ef f ect(cid:105)が与えられた場合、予測モデルはスコアミーアを予測するために必要となる。 0.78
英語(論文から抽出)日本語訳スコア
Model Input Format モデル入力フォーマット 0.77
GPT2 RoBERTa BART XLNET BERT GPT2 ロベルタ BART XLNETバー 0.56
ALBERT < |startoftext| > C [SEP] E < |endoftext| > アルバート < |startoftext| > C [SEP] E < |endoftext| > 0.51
<s> C <s> E <s> <s> C <s> E <s> <s> c <s> e <s> <s> c <s> e <s> 0.40
<cls> C <sep> E <sep> <cls>C<sep>E<sep> 0.41
[CLS] C [SEP] E [SEP] [CLS] C [SEP] E [SEP] [CLS]C[SEP]E[SEP][CLS]C[SEP]E[SEP] 0.38
Table 12: Input format of models in the causal reasoning task. 表12:因果推論タスクにおけるモデルの入力形式。 0.79
suring the causality of the event pair. イベントペアの因果関係を推測する。 0.60
Note that the ask-for indicator decides whether the premise or candidate hypothesis to be the cause or effect, respectively. 要求指標は、前提仮説または候補仮説がそれぞれ原因か効果かを決定することに注意。 0.73
To this end, we concatenate the premise with each one of the candidate hypothesis to form two candidate causal facts. この目的のために、前提を候補仮説のそれぞれと結合し、2つの候補因果事実を形成する。 0.75
Then each of the candidate causal fact is fed into the models, to obtain a probability measuring the plausibility of the candidate causal fact. そして、各候補因果事実をモデルに入力し、候補因果事実の妥当性を測定する確率を得る。
訳抜け防止モード: そして、候補となる因果関係の事実がモデルに入力されます。 候補因果事実の妥当性を測定する確率を得る。
0.74
To satisfy the input format of the pretrained language models, the input candidate causal fact is preprocessed by adding special tokens. 事前訓練された言語モデルの入力形式を満たすために、特別なトークンを追加して入力候補因果事実を前処理する。 0.71
Additionally, we adapt GPT2 and BART to predictive causal reasoning task by adding an EOS token to the end of input text, and making predictions based on the representation of the EOS token. さらに、入力テキストの最後にEOSトークンを追加し、EOSトークンの表現に基づいて予測を行うことにより、GPT2とBARTを予測因果推論タスクに適用する。 0.72
The specific input format of the models is listed in Table 12, where C, E denotes the cause and effect of the candidate causal fact, respectively. モデルの特定の入力形式は、それぞれC、Eが候補因果事実の因果関係と効果を表すテーブル12にリストされている。 0.72
Training Details In the causal reasoning task, we optimize all the models with a batch size of 64, learning rate of 1e-5, and the model is finetuned for 3 epochs. 訓練内容 因果推論タスクでは,64のバッチサイズ,1e-5の学習率で全てのモデルを最適化し,そのモデルを3つのエポックに微調整する。 0.83
12.2 Details of the Explanation Generation 12.2 説明生成の詳細 0.89
Experiment Settings In the explanation generation experiment, models are trained to generate an explanation for a given valid causal fact (cid:104)C, E(cid:105). 実験 説明生成実験の設定では、モデルは与えられた正当な因果事実(cid:104)c, e(cid:105)の説明を生成するように訓練される。 0.74
Hence, the input of GPT2 is formated as: したがって、GPT2の入力は以下のようになる。 0.65
< |startof text| > C [SEP ] E < |endof text| >, < |startof text| > C [SEP ] E < |endof text| > 0.49
(5) where < |startoftext| > and < |endoftext| > are two special tokens. (5) ここで < |startoftext| > と < |endoftext| > は2つの特別なトークンである。 0.62
The input of the GRUSeq2Seq model is formated as: GRUSeq2Seqモデルの入力は以下のようになる。 0.74
< SOS > C , E < EOS > . <SOS > C , E < EOS > 。 0.36
(6) Training Details In the explanation generation task, the GPT2 model is trained with a batch size of 32, learning rate of 1e-5, and the model is finetuned for 10 epochs. (6) 説明生成タスクのトレーニング詳細 gpt2モデルは、バッチサイズ32、学習率1e-5でトレーニングされ、モデルは10エポックにわたって微調整される。 0.57
For the GRU-Seq2seq model, both the encoder and the decoder contains 2 GRU layers with a dimension of 300×300. GRU-Seq2seqモデルでは、エンコーダとデコーダの両方が300×300の2つのGRU層を含む。 0.69
The word embedding is initialized using 300dimension GloVe. 埋め込みという言葉は300dimension GloVeを使って初期化される。 0.53
During optimazation, the GRUSeq2seq model is trained for 10 epochs as well. 最適化中、GRUSeq2seqモデルは10エポックのトレーニングも行う。 0.68
12.3 Details of Explanation AND Generation 12.3 説明と生成の詳細 0.81
Experiment Settings Given a causal question, we first concatenate the premise with each one of the candidate hypothesis to form two candidate causal facts. 実験 因果的質問が与えられた場合、まず、前提を候補仮説の1つに結合し、2つの候補因果的事実を形成する。 0.71
Then each of the candidate causal fact is fed into the GPT2 model, to get a distributed representation of the candidate causal fact. そして、各候補因果事実をGPT2モデルに入力し、候補因果事実の分散表現を得る。
訳抜け防止モード: そして、各候補因果事実をGPT2モデルに入力する。 候補者の因果事実の 分散表現を得るためです
0.69
Then probability measuring the plausibility of the candidate causal fact is predicted using an MLP based on the distributed representation. そして、分布表現に基づいてmlpを用いて候補因果事実の可算性を測定する確率を予測する。 0.81
After predicting plausibility score of two candidate causal facts, the model is trained to generate an explanation based on only the representation of the candidate causal fact that model thinks is more likely to be valid. 2つの候補因果事実の信頼性スコアを予測した後、モデルは、モデルがより有効であると考える候補因果事実の表現のみに基づいて説明を生成するように訓練される。 0.80
Training Details During the training process, to balance the generation loss and prediction loss, we introduce an balance coefficient λ. トレーニングの詳細 学習過程において, 生成損失と予測損失のバランスをとるために, バランス係数λを導入する。 0.85
Hence, the loss function is formulated as L = (1 − λ)LPrediction + λLGeneration. したがって、損失関数は L = (1 − λ)LPrediction + λLGeneration として定式化される。 0.85
We empirically set λ = 0.1. 経験的に λ = 0.1 とする。 0.59
The batch size and learning rate are also set as 32 and 1e-5, respectively. また、バッチサイズと学習率をそれぞれ32および1e−5とする。 0.69
While different to the explanation generation process, in the Generate And Prediction experiment, the GPT2 model is trained for 5 epochs, as it receives two kinds of supervision signals. 説明生成プロセスとは違い、生成と予測実験では、GPT2モデルは2種類の監視信号を受け取るため、5つのエポックで訓練される。 0.70
12.4 Details of Transfer Analysis Settings 12.4 転送解析設定の詳細 0.86
All four tasks in the transfer analysis can be formalized as multiple-choice problem. 伝達解析における4つのタスクは、すべて多重選択問題として定式化できる。 0.62
Specifically, the causal event extraction task EventStoryLine requires model to predict whether two phrase-level events within a sentence can form a causal relationship. 具体的には、因果イベント抽出タスクEventStoryLineは、文内の2つのフレーズレベルのイベントが因果関係を形成することができるかどうかを予測するモデルを必要とする。
訳抜け防止モード: 具体的には 因果イベント抽出タスク イベントストーリーラインは 文内の2つのフレーズ - レベルイベントが因果関係を形成するかどうかを予測するモデル。
0.68
While in two causal reasoning tasks BECauSE 2.0 (Dunietz et al , 2017) and COPA (Roemmele et al , 2011), models are required to choose a plausible hypothesis, so that the premise and the hypothesis can form a valid causal fact. BECauSE 2.0 (Dunietz et al , 2017) と COPA (Roemmele et al , 2011) の2つの因果推論タスクでは、モデルが妥当な仮説を選択する必要があるため、前提と仮説が有効な因果事実を形成することができる。 0.83
英語(論文から抽出)日本語訳スコア
Dataset Input Format データセット入力フォーマット 0.78
CommonsenseQA 2.0 CommonsenseQA 2.0 0.35
EventStoryLine BECauSE 2.0 eventstoryline 2.0リリース 0.58
COPA [CLS] Statement COPA [CLS]ステートメント 0.60
[CLS] C [SEP] E [SEP] [CLS] C [SEP] E [SEP] [CLS] Q [SEP] A [SEP] [CLS] C [SEP] E [SEP] [CLS] C [SEP] E [SEP] [CLS] Q [SEP] A [SEP] 0.42
Table 13: Input format of models in the transfer analysis. 表13:転送解析におけるモデルの入力形式。 0.83
The CommonsenseQA (Talmor et al , 2019) task requires model to choose a correct answer for a given question. CommonsenseQA (Talmor et al , 2019)タスクは、与えられた質問に対して正しい回答を選択するモデルを必要とする。 0.81
We list the specific format of the input on these four tasks in Table 13, where C and E denotes the cause and effect, respectively, Q and A denotes the question and answer, respectively. これら4つのタスクの入力の特定の形式を表13にリストし、CとEはそれぞれ原因と効果を示し、QとAはそれぞれ質問と答えを示す。 0.71
Training Details To equip model with the causality knowledge within e-CARE, we train a BERT model for 3 epochs, with a batch size of 32 and a learning rate of 1e-5. トレーニングの詳細 e-CARE 内の因果的知識を持つモデルに、バッチサイズ 32 と学習率 1e-5 の BERT モデルを3つのエポックで訓練する。 0.78
Then in the following finetuning stage, on all four datasets, both BERT and e-CARE enhanced model BERTE are fine-tuned using a grid search with the following set of hyperparameters: 次に、以下の微調整段階において、BERTおよびe-CARE拡張モデルBERTEの4つのデータセットについて、以下のハイパーパラメータのセットによるグリッドサーチを用いて微調整を行う。 0.63
• batch size: {16, 32} • number of epochs: {3,5,10} • learning rate: {1e-6, 1e-5} • バッチサイズ: {16, 32} • エポック数: {3,5,10} • 学習率: {1e-6, 1e-5} 0.79
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。