論文の概要、ライセンス

# (参考訳) NLPのためのサンプルベース説明法について:有効性、忠実性、意味的評価 [全文訳有]

On Sample Based Explanation Methods for NLP:Efficiency, Faithfulness, and Semantic Evaluation ( http://arxiv.org/abs/2106.04753v1 )

ライセンス: CC BY 4.0
Wei Zhang, Ziming Huang, Yada Zhu, Guangnan Ye, Xiaodong Cui, Fan Zhang(参考訳) 自然言語処理の最近の進歩では、最先端のモデルやデータセットの規模が広くなり、説明解釈性、効率性、忠実性など、多くの面でサンプルベースの説明手法の適用に挑戦している。 本稿では,説明単位として任意のテキスト列を許容することで,説明の解釈可能性を向上させる。 さらに,モデルの忠実性を保証するため,ヘッセン自由法を実装した。 最後に,本手法を他の手法と比較するために,広く採用されている診断・再訓練尺度よりも,人間の説明判断に適合する意味に基づく評価指標を提案する。 複数の実データ集合に対する実験結果から,提案手法のセマンティック評価における影響関数やTracInなどの一般的な説明手法よりも優れた性能を示す。

In the recent advances of natural language processing, the scale of the state-of-the-art models and datasets is usually extensive, which challenges the application of sample-based explanation methods in many aspects, such as explanation interpretability, efficiency, and faithfulness. In this work, for the first time, we can improve the interpretability of explanations by allowing arbitrary text sequences as the explanation unit. On top of this, we implement a hessian-free method with a model faithfulness guarantee. Finally, to compare our method with the others, we propose a semantic-based evaluation metric that can better align with humans' judgment of explanations than the widely adopted diagnostic or re-training measures. The empirical results on multiple real data sets demonstrate the proposed method's superior performance to popular explanation techniques such as Influence Function or TracIn on semantic evaluation.
公開日: Wed, 9 Jun 2021 00:49:56 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
On Sample Based Explanation Methods for NLP: Efficiency, Faithfulness, and Semantic Evaluation NLPのためのサンプルベース説明法について:効率性, 信心性, 意味的評価 0.74
Wei Zhang ∗ Wei Zhang ∗ 0.85
Wayfair Boston MA, USA ウェイフェア Boston (複数形 Bostons) 0.52
Ziming Huang ∗ Ziming Huang ∗ 0.85
Sogou Inc Sogou (複数形 Sogous) 0.21
Beijing, China wzhang5@wayfair.com 北京、中国 wzhang5@wayfair.com 0.71
hzmyouxiang@gmail.co m hzmyouxiang@gmail.co m 0.78
Guangnan Ye IBM Research New York, USA Gangnan Ye IBM Research New York, USA 0.78
gye@us.ibm.com Abstract gye@us.ibm.com 概要 0.60
Xiaodong Cui IBM Research New York, USA Xiaodong Cui IBM Research New York, USA 0.85
xcui@us.ibm.com xcui@us.ibm.com 0.59
fzhang@us.ibm.com fzhang@us.ibm.com 0.59
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] L C . s c [ 9 ]LC。 sc [ 0.60
1 v 3 5 7 4 0 1 v 3 5 7 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
In the recent advances of natural language processing, the scale of the state-of-the-art models and datasets is usually extensive, which challenges the application of sample-based explanation methods in many aspects, such as explanation interpretability, efficiency, and faithfulness. 自然言語処理の最近の進歩では、最先端のモデルやデータセットの規模が広くなり、説明解釈性、効率性、忠実性など、多くの面でサンプルベースの説明手法の適用に挑戦している。 0.69
In this work, for the first time, we can improve the interpretability of explanations by allowing arbitrary text sequences as the explanation unit. 本稿では,説明単位として任意のテキスト列を許容することで,説明の解釈可能性を向上させる。 0.72
On top of this, we implement a hessian-free method with a model faithfulness guarantee. さらに,モデルの忠実性を保証するため,ヘッセン自由法を実装した。 0.62
Finally, to compare our method with the others, we propose a semantic-based evaluation metric that can better align with humans’ judgment of explanations than the widely adopted diagnostic or retraining measures. 最後に,本手法を他の手法と比較するために,広く採用されている診断や再訓練よりも,人間の説明判断に合致する意味に基づく評価指標を提案する。 0.81
The empirical results on multiple real data sets demonstrate the proposed method’s superior performance to popular explanation techniques such as Influence Function or TracIn on semantic evaluation. 複数の実データ集合に対する実験結果から,提案手法は意味的評価に対する影響関数やTracInなどの一般的な説明手法よりも優れた性能を示す。 0.81
Introduction 1 As complex NLP models such as the Transformers family (Vaswani et al , 2017; Devlin et al , 2019) become an indispensable tool in many applications, there are growing interests to explain the working mechanism of these “black-box” models. はじめに 1 Transformers family(Vaswani et al , 2017; Devlin et al , 2019)のような複雑なNLPモデルが多くのアプリケーションで必須のツールとなり、これらの“ブラックボックス”モデルの動作メカニズムを説明する関心が高まっている。 0.68
Among the vast of existing techniques for explaining machine learning models, Influence Functions (Hampel, 1974; Koh and Liang, 2017) that uses training instances as explanations to a model’s behavior have gained popularity in NLP very recently. 機械学習モデルを説明する多くの既存のテクニックの中で、モデルの振る舞いの説明としてトレーニングインスタンスを使用するインフルエンス関数(Hampel, 1974; Koh and Liang, 2017)は、最近NLPで人気を集めている。 0.79
Different from other methods such as using input erasure (Li et al , 2016), saliency maps or attention matrices (Serrano and Smith, 2019; Jain and Wallace, 2019; Wiegreffe and Pinter, 2019) that only look at ∗Equal Contribution. 入力消去(Li et al , 2016)、唾液マップや注意行列(Serrano and Smith, 2019; Jain and Wallace, 2019; Wiegreffe and Pinter, 2019)などの他の方法と異なり、∗Equal Contributionのみに注目している。 0.82
Wei Zhang did the work while being a research scientist at IBM T.J. Watson Research Center at Yorktown Heights, NY, USA; Ziming Huang was a research scientist at IBM Research Lab at Beijing, China. Wei Zhangは、ニューヨーク州ヨークタウンハイツのIBM T.J. Watson Research Centerの研究科学者であり、Ziming Huangは中国の北京にあるIBM Research Labの研究科学者だった。 0.82
Yada Zhu MIT-IBM Watson AI Lab IBM Research, NY, USA yzhu@us.ibm.com ヤダズー MIT-IBM Watson AI Lab IBM Research, NY, USA yzhu@us.ibm.com 0.65
Fan Zhang IBM Data and AI Littleton MA, USA Fan Zhang IBM DataとAI Littleton MA, USA 0.84
how a specific input or input sequence impacts the model decision, explaining with training instances can cast light on the knowledge a model has encoded about a problem, by answering questions like ’what knowledge did the model capture from which training instances so that it makes decision in such a manner during test?’. 特定の入力または入力シーケンスがモデル決定にどのように影響するか、トレーニングインスタンスで説明することで、モデルが問題に関してエンコードした知識に光を当てることができる。
訳抜け防止モード: 特定の入力や入力シーケンスが モデル決定にどう影響するか トレーニングインスタンスでの説明は、モデルが問題に関してエンコードした知識に光を当てることができる。 モデルがどのトレーニングインスタンスから取得した知識か? テスト中にこのような方法で決定を下すのか?
0.76
Very recently, the method has been applied to explain BERT-based (Devlin et al , 2019) text classification (Han et al , 2020; Meng et al , 2020b) and natural language inference (Han et al , 2020) models, as well as to aid text generation for data augmentation (Yang et al , 2020a) using GPT-2 (Radford et al , 2019). 最近では、bert-based (devlin et al , 2019) テキスト分類 (han et al , 2020; meng et al , 2020b) と自然言語推論 (han et al , 2020) のモデルと、gpt-2 (radford et al , 2019) を用いたデータ拡張のためのテキスト生成 (yang et al , 2020a) を支援する方法が適用されている。 0.84
Although useful, Influence Function may not be entirely bullet-proof for NLP applications. 有用ではあるが、影響関数はnlpアプリケーションを完全に防弾するものではない。 0.53
First, following the original formulation (Koh and Liang, 2017), the majority of existing works use entire training instances as explanations. まず、オリジナルの定式化(Koh and Liang, 2017)に続いて、既存の作業の大部分は、トレーニングインスタンス全体を説明として使用しています。 0.58
However, for long natural language texts that are common in many high-impact application domains (e g , healthcare, finance, or security), it may be difficult, if not impossible, to comprehend an entire instance as an explanation. しかし、多くのハイインパクトなアプリケーションドメイン(例えば、医療、金融、セキュリティ)で一般的な長い自然言語テキストでは、インスタンス全体を説明として理解することは不可能ではないとしても、難しいかもしれない。 0.73
For example, a model’s decision may depend only on a specific part of a long training instance. 例えば、モデルの決定は、長いトレーニングインスタンスの特定の部分のみに依存する可能性がある。 0.74
Second, for modern NLP models and large-scale datasets, the application of Influence Functions can lead to prohibitive computing costs due to inverse Hessian matrix approximation. 第二に、現代のnlpモデルと大規模データセットでは、影響関数の適用は、逆ヘッセン行列近似による計算コストを制限できる。 0.71
Although hessianfree influence score such as TracIn (Pruthi et al , 2020b) was introduced very recently, it may not be faithful to the model in question and can result in spurious explanations for the involvement of sub-optimal checkpoints. TracIn(Pruthi et al , 2020b)のようなヘシアンフリーなインフルメントスコアはごく最近導入されたが、問題となっているモデルに忠実ではない可能性があり、準最適チェックポイントの関与に関する素早い説明をもたらす可能性がある。 0.57
Last, the evaluation of explanation methods, in particular, for the training-instance-ba sed ones, remains an open question. 最後に、特にトレーニングインスタンスに基づく説明手法の評価は、未解決の問題である。 0.55
Previous evaluation is either under an over-simplified assumption on the agreement of labels between training and test instances (Hanawa et al , 2020; Han et al , 2020) or 事前評価は、トレーニングインスタンスとテストインスタンスのラベルの合意(Hanawa et al , 2020; Han et al , 2020)について、過度に単純化された仮定の下で行われる。 0.64
英語(論文から抽出)日本語訳スコア
is based on indirect or manual inspection (Hooker et al , 2019; Meng et al , 2020b; Han et al , 2020; Pruthi et al , 2020a). 間接検査または手動検査に基づいている(hooker et al , 2019; meng et al , 2020b; han et al , 2020; pruthi et al , 2020a)。 0.81
A method to automatically measure the semantic relations at scale and that highly correlates to human judgment is still missing in the evaluation toolset. 評価ツールセットでは, 意味的関係を自動的に計測し, 人的判断に高い相関性を持たせる方法がいまだに欠落している。 0.71
To address the above problems, we propose a framework to explain model behavior that includes both a set of new methods and a new metric that can measure the semantic relations between the test instance and its explanations. 上記の問題に対処するために、テストインスタンスとその説明の間の意味的関係を計測できる新しいメソッドセットと新しいメトリクスの両方を含むモデル動作を説明するフレームワークを提案する。 0.79
The new method allows for arbitrary text spans as the explanation unit and is Hessian-free while being faithful to the final model. 新しい方法は説明単位として任意のテキストスパンを許容し、最終的なモデルに忠実でありながらヘッセン自由である。 0.72
Our contributions are: 1. 私たちの貢献は 1. 0.80
We propose a new explanation framework that can use arbitrary explanation units as explanations and be Hessian-free and faithful at the same time; 我々は、任意の説明単位を説明として使用でき、同時にヘッセン系で忠実な新しい説明枠組みを提案する。 0.67
2. A new metric to measure the semantic relatedness between a test instance and its explanation for BERT-based deep models. 2. BERTベースのディープモデルに対するテストインスタンスとその説明の間の意味的関連性を測定するための新しい指標。 0.79
2 Preliminaries Suppose a model parameterized by ˆθ is trained on classification dataset D = {Dtrain, Dtest} by empirical risk minimization over Dtrain. 予科2 dtrain 上の経験的リスク最小化によって分類データセット d = {dtrain, dtest} 上で、θ でパラメータ化されたモデルが訓練されるとする。 0.58
Let z = (x, y) ∈ Dtrain and z(cid:48) = (x(cid:48), y(cid:48)) ∈ Dtest denote a training and a test instance respectively, where x is a token sequence, and y is a scalar. z = (x, y) ∈ Dtrain と z(cid:48) = (x(cid:48), y(cid:48)) ∈ Dtest はそれぞれ、x がトークンシーケンスで y がスカラーであるような訓練とテストのインスタンスを表す。 0.80
The goal of training instance based explanation is to provide for a given test z(cid:48) an ordered list of training instances as explanation. トレーニングインスタンスに基づく説明の目標は、所定のテスト z(cid:48) の順序付けられたトレーニングインスタンスのリストを説明として提供することである。
訳抜け防止モード: 実例に基づく説明を訓練する目的は 説明として訓練インスタンスの順序リストを与えられたテストz(cid:48)に対して提供する。
0.81
Two notable methods to calculate the influence score are IF and TracIn: 影響スコアを計算する2つの重要な方法は、IFとTracInである。 0.57
IF (Koh and Liang, 2017) assumes the influence of z can be measured by perturbing the loss function L with a fraction of the loss on z, and obtain IF (Koh and Liang, 2017) は、損失関数 L を損失のごく一部で摂動することで、z の影響を測定することができると仮定し、z を得る。 0.84
Ipert,loss(z, z(cid:48); ˆθ) Ipert,loss(z, z(cid:48); >θ) 0.96
= −∇θL(z(cid:48), ˆθ)H−1 = − θL(z(cid:48), >θ)H−1 0.76
∇θL(z, ˆθ), ~θL(z, ~θ) 0.82
(1) ˆθ where H is the Hessian matrix calculated on the entire training dataset, a potential computation bottleneck for large dataset D and complex model with high dimensional ˆθ. (1) ˆθ h がトレーニングデータセット全体に基づいて計算されるヘッセン行列である場合、大きなデータセット d と高次元の θ を持つ複素モデルに対する潜在的な計算ボトルネックとなる。
訳抜け防止モード: (1) ˆθ h はトレーニングデータセット全体で計算されるヘッセン行列である。 大規模データセットdと高次元の複素モデルに対する潜在的な計算ボトルネック
0.81
TracIn (Pruthi et al , 2020b) instead assumes the influence of a training instance z is the sum of its contribution to the overall loss all through the TracIn (Pruthi et al , 2020b) は代わりに、トレーニングインスタンス z の影響は、全体的な損失に対する貢献の総和であると仮定する。 0.80
entire training history, and conveniently it leads to 訓練の歴史全体 そして都合の良いことに 0.72
TracIn(z, z(cid:48)) =(cid:88) ηi∇ˆθi TracIn(z, z(cid:48)) =(cid:88) ηi\θi 0.76
L(ˆθi, z)∇ˆθi L(ˆθi, z(cid:48)), L(+,z)→θi L(aθi, z(cid:48)) 0.75
(2) i where i iterates through the checkpoints saved at different training steps and ηi is a weight for each checkpoint. (2) 私は 異なるトレーニングステップで保存されたチェックポイントを繰り返すと、ηiは各チェックポイントの重みになります。 0.72
TracIn does not involve Hessian matrix and more efficient to compute. トラシンはヘッセン行列を含まず、計算がより効率的である。 0.47
We can summarize the key differences between them according to the following desiderata of an explanation method: Efficiency for each z(cid:48), TracIn requires O(CG) where C is the number of models and G is the time spent for gradient calculation; whereas IF needs O(N 2G) where N is the number of training instances, and N >> C in general. 各 z(cid:48) に対する効率性は、C がモデル数、G が勾配計算に費やされる時間である O(CG) を必要とするが、IF は N がトレーニングインスタンス数、N >> C が一般的である O(N 2G) を必要とする。
訳抜け防止モード: 各z(cid:48 )の効率性について,説明手法のデシダラタ(deiderata)による重要な違いを要約することができる。 TracInは、C がモデル数、G が勾配計算に費やされる時間である O(CG ) を必要とするが、IF は N がトレーニングインスタンス数である O(N 2 G ) を必要とする。 and N > > C in general 。
0.80
1 Faithfulness IF is faithful to ˆθ since all its calculation is based on a single final model, yet TracIn may be less faithful to ˆθ since it obtains gradients from a set of checkpoints 2. 1 信頼度 IF は、すべての計算が単一の最終モデルに基づいているため sθ に忠実であるが、TracIn はチェックポイント 2 の集合から勾配を得るので sθ に忠実でないかもしれない。
訳抜け防止モード: 1 Faithfulness IF is faithful to sθ since 計算はすべて 1つの最終モデルに基づいています しかし、TracInはチェックポイント 2 の集合から勾配を得るので、 sθ に忠実でないかもしれない。
0.81
Interpretability Both methods use the entire training instance as an explanation. 解釈可能性 どちらのメソッドも、説明としてトレーニングインスタンス全体を使用します。 0.57
Explanations with a finer-grained unit, e g , phrases, may be easier to interpret in many applications where the texts are lengthy. よりきめ細かい単位、例えばフレーズを使った説明は、テキストが長い多くのアプリケーションで解釈しやすいかもしれない。 0.66
3 Proposed Method To improve on the above desiderata, a new method should be able to: 1) use any appropriate granularity of span(s) as the explanation unit; 2) avoid the need of Hessian while maintaining faithfulness. 3 提案方法 上記のデシデラタを改善するためには、1) 説明単位としてスパン(s)の適切な粒度を使用する、2) 忠実性を維持しつつヘッセンの必要性を避ける、という新しい方法が必要となる。 0.72
We discuss the solutions for both in Section 3.1 and 3.2, and combine them into one formation in Section 3.3 followed by critical implementation details. 我々は第3.1節と第3.2節のソリューションについて論じ、それらを第3.3節の1つの構成に組み合わせ、重要な実装の詳細を述べる。 0.49
Improved Interpretability with Spans Spansによる解釈性の向上 0.64
3.1 To achieve 1), we first start with influence functions (Koh and Liang, 2017) and consider an arbitrary span of training sequence x to be evaluated for the qualification as explanation 3. 3.1 達成のために,まず影響関数 (koh,liang,2017) から開始し,任意のトレーニングシーケンス x のスパンを説明3として評価する。 0.61
Our core idea is to see how the model loss on test instance z(cid:48) changes 1some approximation such as hessian-inverse-vect orproduct (Baydin et al , 2016) may improve efficiency to O(N SG) where S is the approximation step and S < N テストインスタンス z(cid:48) におけるモデル損失が、ヘシアン-逆ベクトル積 (Baydin et al , 2016) のような 1 つの近似をどのように変化させるか、S が近似ステップであり S < N である O(N SG) に効率を向上させるか、という考え方である。 0.66
2We may say TracIn is faithful to the data rather than to the model. 2 TracInはモデルよりもデータに忠実であると言うかもしれません。 0.80
And in the case where checkpoint averaging can be used as model prediction, the number of checkpoints may be too few to justify Eq 2. そして、チェックポイント平均化がモデル予測として利用できる場合、チェックポイントの数はEq 2を正当化するには少なすぎるかもしれない。 0.79
3the method can be trivially generalized to multiple spans 3 方法は複数のスパンに対して自明に一般化することができる 0.48
英語(論文から抽出)日本語訳スコア
with the training span’s importance. トレーニングスパンの重要性。 0.43
The more important a training span is to z(cid:48), the greater this influence score should be. トレーニングスパンがz(cid:48)よりも重要であるほど、この影響スコアは大きくなるはずである。 0.71
We derive it in three following steps. これを次の3ステップで導き出す。 0.69
to token j to token j 0.85
to be xij, First, we define the training span from and the = Xijになるには まず、トレーニングスパンとthe =を定義します。 0.55
token i sequence with xij masked is x−ij [x0, ..., xi−1, [MASK], ..., [MASK], xj+1, ...] and its corresponding training data is z−ij. xijマスク付きトークンiシーケンスはx−ij [x0, ..., xi−1, [mask], ..., [mask], xj+1, ...]であり、対応するトレーニングデータはz−ijである。 0.86
We use logit difference (Li et al , 2020) as importance score based on the empirical-riskestima ted parameter ˆθ obtained from Dtrain as: imp(xij|z, ˆθ) = logity(x; ˆθ) − logity(x−ij; ˆθ), where every term in the right hand side (RHS) is the logit output evaluated at a model prediction y from model ˆθ right before applying the SoftMax function. 我々は,Dtrain から得られる経験的リスク推定パラメータ >θ に基づいて,ロジット差 (Li et al , 2020) を重要度スコアとして用いる: imp(xij|z, >θ) = logity(x; >θ) − logity(x−ij; >θ) ここで右辺のすべての項は,SoftMax 関数を適用する直前にモデル >θ からモデル予測y で評価されたロジット出力である。 0.83
This equation tells us how important a training span is. この方程式は、トレーニングがどれほど重要かを示しています。 0.59
It is equivalent to the loss difference それは損失差と同値である 0.80
imp(xij|z; ˆθ) = L(z−ij; ˆθ) − L(z; ˆθ), imp(xij|z; >θ) = L(z−ij; >θ) − L(z; >θ) 0.88
(3) entropy loss L(z; θ) = (3)エントロピー損失 L(z; θ) = 0.78
when the cross I(y = yi)logityi あの時 クロス I(y = yi)logityi 0.73
yi (x; θ) is applied. ユイ (x; θ)が適用される。 0.73
−(cid:80) Then, we measure xij’s influence on model ˆθ by adding a fraction of imp(xij|z; ˆθ) scaled by a small value  to the overall loss and ob:= argminθEzi∈Dtrain[L(zi, θ)] + tain ˆθ,xij|z L(z−ij; θ) − L(z; θ). -(cid:80) 次に、全体損失とob:= argminθeziftpdtrain[l(zi, θ)] + tain sθ ,xij|z sl(z−ij; θ) − sl(z; θ) の小さい値でスケールしたimp(xij|z; θ) の分数を加味して、モデル sθ に対する xij の影響を測定する。 0.87
Applying the classical result in (Cook and Weisberg, 1982; Koh and Liang, 2017), the influence of up-weighing the importance of xij on ˆθ is 古典的な結果を応用して(Cook and Weisberg, 1982; Koh and Liang, 2017)、xij の重要性を上向きに考える影響は、 0.81
dˆθ,xij|z xij|z である。 0.39
d (cid:12)(cid:12)(cid :12)=0 ダン (cid:12)(cid:12)(cid :12)→=0 0.61
= H−1 ˆθ (∇ˆθL(z; ˆθ) − ∇ˆθL(z−ij; ˆθ)). = H−1 >θ (s) − s(z-ij; s)。 0.51
Finally, applying the above equation and the chain rule, we obtain the influence of xij to z(cid:48) as: IF+(xij|z, z(cid:48); ˆθ) := ∇L(z(cid:48); ˆθ,xij|z)|=0 = ∇θL(z(cid:48); ˆθ)H−1 (∇θL(z; ˆθ) − ∇θL(z−ij; ˆθ)). 最後に、上述の方程式と連鎖則を適用して、 IF+(xij|z, z(cid:48)) := >L(z(cid:48))| =0 = >θL(z(cid:48))H−1 (>θL(z; >θ) − >θL(z−ij; >θ) として xij から z(cid:48) への影響を得る。 0.80
IF+ measures the influence of a training span on an entire test sequence. IF+は、トレーニングスパンがテストシーケンス全体に与える影響を測定する。 0.74
Similarly, we also measure the influence of a training span to a test span x(cid:48) by applying Eq 3 and obtain kl|z(cid:48); ˆθ) 同様に、eq3を適用してテストスパンx(cid:48)に対するトレーニングスパンの影響も測定し、kl|z(cid:48)を得る。 0.72
IF++(xij|z, x(cid:48) IF++(xij|z, x(cid:48) 0.71
kl ˆθ :=∇L(z(cid:48) =(∇θL(z(cid:48) H−1 ˆθ kl ˆθ :=\L(z(cid:48) =(\θL(z(cid:48)H−1 0.82
−kl; ˆθ,xij|z) − ∇L(z(cid:48); ˆθ,xij|z)|=0 −kl; ˆθ) − ∇θL(z(cid:48); ˆθ)) ーkl; ーθ, xij|z) − ーl(z(cid:48); ーθ, xij|z)|ー=0 −kl; ーθ) − ーθl(z(cid:48); ーθ) 0.71
(∇θL(z; ˆθ) − ∇θL(z−ij; ˆθ)). (s) − s(z-ij; s)。 0.39
The complete derivation can be found in Appendix. 完全な導出は appendix で見ることができる。 0.72
On the choice of Spans Theoretically, IF+ and IF++ can be applied to any text classification problem and dataset with an appropriate choice of the span. 理論的には、スパンの選択について、if+とif++は、スパンを適切に選択した任意のテキスト分類問題やデータセットに適用することができる。 0.57
If no information about valid span is available, shallow parsing tools or sentence split-tools can be used to shatter an entire text sequence into chunks, and each chunk can be used as span candidates. 有効なスパンに関する情報が得られない場合、浅い解析ツールや文分割ツールを使用してテキストシーケンス全体をチャンクに分割し、各チャンクをスパン候補として使用することができる。 0.71
In this situation, the algorithm can work in two steps: 1) using masking method (Li et al , 2020) to determine the important test spans; and 2) for each span we apply IF++ to find training instances/spans as explanations. この状況では,1)マスキング手法(Li et al , 2020)を用いて重要なテストスパンを決定するアルゴリズムと,2)各スパンに対してIF++を適用して,トレーニングインスタンス/スパンを説明として見つけるアルゴリズムである。 0.78
Usually, we can choose top-K test spans, and even can choose K=1 in some cases. 通常、トップKテストスパンを選択することができ、場合によってはK=1を選択することもできる。
訳抜け防止モード: 通常、トップ-Kテストスパンを選択することができます。 K=1を選択できる場合もある。
0.68
In this work, we look at the later case without loss of generality, and adopt two aspect-based sentiment analysis datasets that can conveniently identify a deterministic span in each text sequence, and frame the span selection task as a Reading Comprehension task (Rajpurkar et al , 2016). 本研究は,一般性を失うことなく後の事例を考察し,各テキスト列における決定論的スパンを便利に識別できるアスペクトベースの感情分析データセットを2つ採用し,スパン選択タスクを読解的タスクとしてフレーム化する(Rajpurkar et al , 2016)。 0.79
We discuss the details in Section 5. 第5節で詳細について論じる。 0.63
Note that the discussion can be trivially generalized to the case where K>1 using Bayesian approach such as imp(xij) = kl)[imp(xij|xkl)(cid:48)] which can be explored in EP (x(cid:48) future work. 議論は、EP(x(cid:48) の将来の研究で探索できる imp(xij) = kl)[imp(xij|xkl)(cid:48)] のようなベイズ的アプローチを用いた K>1 の場合に自明に一般化できる。 0.74
3.2 Faithful & Hessian-free Explanations To achieve 2), we would start with the method of TracIn (Pruthi et al , 2020b) described in Eq 2 which is Hessian free by design. 3.2 true and hessian-free explanations to achieve 2) では、eq 2 に記述された、設計でhessian freeである tracin (pruthi et al , 2020b) の方法から始める。 0.78
TracIn defines the contribution of a training instance to be the sum of its contribution (loss) throughout the entire training life cycle, which eradicated the need for Hessian. tracinはトレーニングインスタンスの貢献を、トレーニングライフサイクル全体を通してその貢献(損失)の合計であると定義している。 0.54
However, this assumption is drastically different from IF’s where the contribution of z is obtained solely from the final model ˆθ. しかし、この仮定は、z の寄与が最終モデル θ からのみ得られるような if とは大きく異なる。
訳抜け防止モード: しかし、この仮定は、もしそれがどこにあるかとは大きく異なる。 z の寄与は最終モデル θ からのみ得られる。
0.67
By nature, IF is a faithful method, and its explanation is faithful to ˆθ, and TracIn in its vanilla form is arguably not a faithful method. 自然界では、if が忠実な方法であり、その説明は θ に忠実であり、tracin はそのバニラ形式において忠実な方法ではない。 0.65
Proposed treatment Based on the assumption that the influence of z on ˆθ is the sum of influences of all variants close to ˆθ, we define a set of “faithful” variants satisfying the constraint of {ˆθi|1 > δ >> ||ˆθi − ˆθ||2}, namely δ-faithful to ˆθ. 提案された治療は、z が >θ に近いすべての変種の影響の和であるという仮定に基づいて、 { >θi|1 > δ >> || >θi − >θ||2} の制約を満たす「忠実な」変種集合を定義する。 0.72
The smaller δ is, the more faithful the explanation method is. δ が小さいほど、説明法が忠実になる。 0.63
Instead, the δ for TracIn can be arbitrary large without faithfulness guarantees, as some checkpoints can be far from the final ˆθ. 代わりに、トラシンの δ は忠実性を保証することなく任意の大きいものとなり、いくつかのチェックポイントは最終的な θ から遠く離れることができる。 0.61
Thus, we construct a δ-faithful explanation method that したがって、δ-fithfulな説明法を構築する。 0.68
英語(論文から抽出)日本語訳スコア
mirrors TracIn as: TracInF(z, z(cid:48)) = TracInF(z, z(cid:48)) = 0.50
(cid:88) ∇ˆθ+δi (cid:88) θ+δi 0.62
L(ˆθ + δi, z)∇ˆθ+δi L(\θ + δi, z)\θ+δi 0.75
L(ˆθ + δi, z(cid:48)). l(θ + δi, z(cid:48)) である。 0.74
i The difference between TracIn and TracInF is that the checkpoints used in TracIn are correlated in time whereas all variants of TracInF are conditionally independent. 私は TracInとTracInFの違いは、TracInで使用されるチェックポイントが時間的に相関しているのに対して、TracInFのすべての変種は条件的に独立である点である。
訳抜け防止モード: 私は TracInとTracInFの違いは TracInで使用されるチェックポイントは時間的に相関するが、TracInFのすべての変種は条件的に独立である。
0.67
Finding a proper δi can be tricky. 適切な δi を見つけるのは難しい。 0.72
If ill-chosen, δi may diverge ˆθ so much that hurts gradient estimation. もし不調な場合、δi は θ をあまり発散させ、勾配推定を損なうことがある。 0.51
In practice, we estimate δi = ηig(zi|ˆθ) obtained from a single-step gradient descent g(zi|ˆθ) with some training instance zi on model ˆθ, scaled by an i-specific weighting parameter ηi, which in the simplest case is uniform for all i. 実際には、一段階の勾配勾配 g(zi|シュθ) から得られるδi = ηig(zi|シュθ) と、モデルの任意のトレーニングインスタンス zi を i 固有の重み付けパラメータ ηi でスケールし、最も単純な場合はすべての i に対して一様である。 0.69
Usually ηi should be small enough so that ˆθ + δi can stay close to ˆθ. 通常、ηi は θ + δi が θ に近づくことができるほど小さくなければならない。 0.75
In this paper we set η as the model learning rate for proof of concept. 本稿では,概念実証のためのモデル学習率としてηを定式化する。 0.80
Is TracInF faithful? TracInFは忠実か? 0.80
First, any ˆθ + δi is close to ˆθ. まず、任意の θ + δi は θ に近い。 0.82
Under the assumption of Lipschitz continuity, there exists a k ∈ R+ such that ∇L(ˆθ + δi, z) is bounded around ∇L(ˆθ, z) by k|ηig2(zi|ˆθ)|, the second derivative, because |∇L(ˆθ + δi, z) − ∇L(ˆθ, z)| < k|ηig2(zi|ˆθ)|. リプシッツ連続性(英語版)の仮定の下では、k ∈ R+ が存在して、k|ηig2(zi| δi, z)| が k|ηig2(zi| δi, z)| であるから、k|ηig2(zi| δi, z)| は、k|ηig2(zi| , z)| に有界である。 0.65
A proper ηi can be chosen so that the right hand side (RHS) is sufficiently small to bound the loss within a small range. 適切なηiは、右手側(RHS)が小さい範囲で損失を束縛するのに十分小さいように選択することができる。 0.84
Thus, the gradient of loss, and in turn the TracInF score can stay δ-faithful to ˆθ for an sufficiently small δ, which TracIn can not guarantee. したがって、損失の勾配とtracinfスコアは、十分小さい δ に対して δ-faithful を δ-faithful に保ち続けることができるが、tracin は保証できない。
訳抜け防止モード: したがって、損失の勾配、そしてTracInF のスコアは δ に留まることができ、十分小さなδ に対して δθ に忠実である。 TracInは保証できない。
0.72
3.3 The Combined Method By combining the insights from Section 3.1 and 3.2, we obtain a final form named TracIn++: 3.3 複合メソッド セクション3.1 と 3.2 からの洞察を組み合わせることで、TracIn++ という最終形を得る。 0.65
TracIn++(x(cid:48) TracIn++(x(cid:48) 0.75
kl|z(cid:48), xij|z; ˆθ) = kl|z(cid:48), xij|z; sθ) = 0.76
(cid:88) −kl) − ∇L(ˆθ + δi, z(cid:48))(cid:3) (cid:2)∇L(ˆθ + δi, z(cid:48) (cid:2)∇L(ˆθ + δi, z) − ∇L(ˆθ + δi, z−ij)(cid:3). (cid:88) −kl) − sl( θ + δi, z(cid:48))(cid:3) (cid:2) sl( θ + δi, z(cid:48) (cid:2) sl( θ + δi, z) − sl( θ + δi, z−ij)(cid:3)。 0.80
i This ultimate form mirrors the IF++ method, and it satisfies all of our desiderata on an improved explanability method. 私は この究極の形式はIF++のメソッドを反映し、改善された説明可能性メソッドでデシラタをすべて満足します。 0.54
Similarly, TracIn+ that mirrors IF+ is 同様に、IF+をミラーするTracIn+は 0.64
TracIn+(z(cid:48), xij|z; ˆθ) = TracIn+(z(cid:48), xij|z; sθ) = 0.85
(cid:2)∇L(ˆθ + δi, z) − ∇L(ˆθ + δi, z−ij)(cid:3). ( cid:2) = δi + δi + δi + δi, z−ij)(cid:3)。 0.81
i ∇L(z(cid:48); ˆθ + δi) 私は ~L(z(cid:48) ~θ + δi) 0.66
(cid:88) 3.4 Additional Details Since the RHS of IF, IF+ and IF++ equations all involve the inverse of Hessian Matrix, here (cid:88) 3.4 IF, IF+ および IF++ 方程式の RHS 以降のヘッセン行列の逆数に関する追加詳細 0.77
we discuss the computation challenge. 我々は計算課題について論じる。 0.53
Following (Koh and Liang, 2017), we adopt the vectorHessian-invers e-product (VHP) with stochastic estimation (Baydin et al , 2016). 以下 (Koh and Liang, 2017) に続いて, 確率的推定を伴うベクトルHessian-inverse-prod uct (VHP) を採用する(Baydin et al , 2016)。 0.76
The series of stochastic updates, one for each training instance, is performed by the vhp() function in the torch.autograd.funct ional package and the update stops until convergence. 一連の確率的更新は、トレーニングインスタンス毎に torch.autograd. functional package 内の vhp() 関数によって実行され、更新は収束するまで停止する。 0.83
Unfortunately, we found that naively applying this approach leads to VHP explosion due to large parameter size. 残念ながら,本手法はパラメータの大きいVHPの爆発を引き起こすことがわかった。
訳抜け防止モード: 残念ながら私たちは このアプローチをネーティブに適用すると、大きなパラメータサイズのためにVHPが爆発する。
0.67
To be specific, in our case, the parameters are the last two layers of RoBERTa-large (Liu et al , 2019) plus the output head, a total of 12M parameters per gradient vector. 具体的には、パラメータはRoBERTa-largeの最後の2層(Liu et al , 2019)と出力ヘッド(勾配ベクトルあたりの合計12Mパラメータ)である。 0.71
To stabilize the process, we take three approaches: 1) applying gradient clipping (set to 100) to avoid accumulating the extreme gradient values; 2) adopting early termination when the norm of VHP stabilizes (usually < 1000 training instances, i.e., the depth); and 3) slowly decaying the accumulated VHP with a factor of 0.99 (i.e., the damp) and update with a new vhp() estimate with a small learning rate (i.e., the scale) of 0.004. この過程を安定化するために, 1) 極度の勾配値の蓄積を避けるために勾配クリッピング(セット100)を施す, 2) vhpのノルムが安定する早期終了(通常<1000トレーニングインスタンス,すなわち深さ)を採用する,3) 蓄積されたvhpを0.99(すなわちダンプ)の係数でゆっくりと崩壊させる,そして0.004の学習率(スケール)の小さい新しいvhp()推定値で更新する,という3つのアプローチを採った。 0.87
Please refer to our code for more details. 詳細は私たちのコードを参照してください。 0.76
Once obtained, the VHP is first cached and then retrieved to perform the dot-product with the last term. 取得後、vhpはまずキャッシュされ、最後に最後の項でドット製品を実行するために取得される。 0.62
The complexity for each test instance is O(dt) where d is the depth of estimation and t is the time spent on each vhp() operation. 各テストインスタンスの複雑さは O(dt) であり、d は推定の深さ、t は各 vhp() 演算に費やされる時間である。 0.79
The time complexity of different IF methods only vary on a constant factor of two. 異なるIF法の時間複雑性は2の定数因子によって異なる。 0.69
For TracIn+ and TracIn++, we need to create multiple model variants. のために TracIn+とTracIn++では、複数のモデルバリアントを作成する必要があります。 0.55
For TracIn, we save three checkpoints of the most recent training epochs; For TracIn+ or TracIn++, we start with the same checkpoint and randomly sample a mini-batch 3 times and perform one-step training (learning rate 1E-4) for each selection to obtain three variants. TracIn+やTracIn++では、同じチェックポイントから始めて、ミニバッチをランダムに3回サンプリングし、選択毎に1ステップのトレーニング(学習率1E-4)を行い、3つの変種を得る。 0.65
We do not over-tune those hyper-parameters for replicability concerns. 複製性に関して、これらのハイパーパラメータをオーバーチューニングしません。 0.43
of TracIn, TracIn (複数形 TracIns) 0.37
each 4 Evaluation Metrics それぞれ 4 評価指標 0.74
This section introduces our semantic evaluation method, followed by a description of two other popular metrics for comparison. 本節では,セマンティクス評価法を紹介し,他の2つの指標との比較について述べる。 0.79
4.1 Semantic Agreement (Sag) Intuitively, a rational explanation method should rank explanations that are semantically related to the given test instance relatively higher than the less relevant ones. 4.1 意味合意(sag) 直感的に、合理的な説明方法は、与えられたテストインスタンスと意味的に関連のある説明を、より関係の薄い説明よりもランク付けする必要がある。 0.55
Our idea is to first define the 私たちの考えはまずその定義です 0.73
英語(論文から抽出)日本語訳スコア
semantic representation of a training span xij of z and measure its similarity to that of a test span x(cid:48) of z(cid:48). z のトレーニングスパン xij の意味表現と z(cid:48) のテストスパン x(cid:48) との類似性を測定する。 0.73
Since our method uses BERT family as the base model, we obtain the embedding of a training span by the difference of x and its span-masked version xij as 提案手法はBERTファミリをベースモデルとして用いるので,x とそのスパンマスクバージョン xij の差によるトレーニングスパンの埋め込みが得られる。 0.66
kl emb(xij) = emb(x) − emb(x−ij), kl emb(xij) = emb(x) − emb(x−ij) 0.87
(4) where emb is obtained from the embedding of sentence start token such as “[CLS]” in BERT (Devlin et al , 2019) at the last embedding layer. (4) Emb は BERT (Devlin et al , 2019) の "[CLS]" のような文開始トークンを最後の埋め込み層に埋め込んで得られる。 0.74
To obtain embedding of the entire sequence we can simply use the emb(x) without the last term in Eq 4. シーケンス全体の埋め込みを得るには、eq 4 で最後の項を使わずに emb(x) を単純に使うことができる。 0.76
Thus, all spans are embedded in the same semantic space and the geometric quantities such as cosine or dot-product can measure the similarities of embeddings. したがって、すべてのスパンは同じ意味空間に埋め込まれており、コサインやドット積のような幾何学的量は埋め込みの類似性を測定することができる。 0.63
We define the semantic agreement Sag as: 私たちは、セマンティックアグリーメントsagを次のように定義します。 0.36
(cid:88) Sag(z(cid:48),{z}|K 1 K (cid:88) Sag(z(cid:48),{z}|K1K 0.82
z 1 ) = cos(emb(xij|z), emb(x(cid:48) z 1 ) = cos(emb(xij|z), emb(x(cid:48) 0.89
kl|z(cid:48))), kl|z(cid:48)) 0.82
(5) Intuitively, the metric measures the degree to which top-K training spans align with a test span on semantics. (5) 直感的には、この計量はトップKトレーニングがセマンティクス上でテストスパンと一致する程度を測定する。 0.71
(Lag) 4.2 Other metrics Label Agreement agreement (Hanawa et al , 2020) assumes that the label of an explanation z should agree with that of the text case z(cid:48). (ラグ) 4.2 その他のメトリクスラベル合意協定(hanawa et al , 2020)では、説明 z のラベルはテキストケース z(cid:48) のラベルと一致するべきであると仮定している。 0.63
Accordingly, we retrieve the top-K training instances from the ordered explanation list and calculate the label agreement (Lag) as follows: そこで、注文された説明リストからトップKトレーニングインスタンスを取得し、ラベル合意(Lag)を次のように計算する。 0.63
label Lag(z(cid:48),{z}|N ラベル Lag(z(cid:48),{z}|N 0.80
1 ) = 1 K I(y(cid:48) == yk), 1 ) = 1K I(y(cid:48) == yk) 0.82
(cid:88) k∈[1,K] (cid:88) k~[1,K] 0.73
where I(·) is an indicator function. ここで i(·) は指標関数である。 0.76
Lag measures the degree to which the top-ranked z agree with z(cid:48) on class label, e g , if the sentiment of the test z(cid:48) and explanation z agree. ラグは、テスト z(cid:48) および説明 z(cid:48) の感情が一致する場合、クラスラベル上の上位 z が z(cid:48) と一致する程度を測定する。 0.72
Re-training Accuracy Loss (Ral) Ral measures the loss of test accuracy after removing the top-K most influential explanations identified by an explanation method (Hanawa et al , 2020; Hooker et al , 2019; Han et al , 2020). 再トレーニング精度損失(Ral)Ralは、説明法で特定された最も影響力のある説明(Hanawa et al , 2020; Hooker et al , 2019; Han et al , 2020)を除去した後、テスト精度の損失を測定する。 0.81
The assumption is that the higher the loss the better the explanation method is. その仮定は、損失が大きいほど説明方法が良くなるというものである。 0.69
Formally, Ral(f, ˆθ) = Acc(ˆθ) − Acc(ˆθ(cid:48)), 正式には ral(f, ジθ) = acc(ジθ) − acc(ジθ(cid:48)) である。 0.67
where ˆθ(cid:48) is the model re-trained by the set Dtrain/{z}|K 1 . ここで θ(cid:48) は集合 dtrain/{z}|k 1 によって再訓練されたモデルである。 0.64
Notice the re-training uses the same set of hyper-parameter settings as training (Section 6.1). 再トレーニングはトレーニングと同じハイパーパラメータ設定を使用する(セクション6.1)。 0.75
To obtain {z}|K 1 , we combine the explanation lists for all test instances (by score addition) and then remove the top-K from this list. z}|K 1 を得るには、すべてのテストインスタンスの説明リスト(スコア加算)を組み合わせて、このリストからトップKを取り除きます。 0.69
5 Data Our criteria for dataset selection are two folds: 1. 5 データ データセット選択の基準は次の2つです。 0.74
The dataset should have relatively high classification accuracy so that the trained model can behave rationally; and 2. データセットは、訓練されたモデルが合理的に動作できるように比較的高い分類精度を持つべきである。 0.72
The dataset should allow for easy identification of critical/useful text spans to compare span-based explanation methods. データセットは、クリティカル/ユースフルテキストスパンを簡単に識別し、スパンベースの説明方法の比較を可能にする。
訳抜け防止モード: データセットは、重要な/有用なテキストスパンを簡単に識別できる スパンベースの説明方法を比較する。
0.62
We chose two aspect-based sentiment analysis (ABSA) datasets; one is ATSA, a subset of MAMS (Jiang et al , 2019) for product reviews, where aspects are the terms in the text. 私たちは2つのアスペクトベースの感情分析(ABSA)データセットを選択しました。ひとつは、製品レビューのためのMAMS(Jiang et al , 2019)のサブセットであるATSAです。 0.74
The other is sentihood (Saeidi et al , 2016) of location reviews. もう1つは位置情報レビューのsentihood (saeidi et al , 2016)である。 0.64
We can identify the relevant span of an aspect term semiautomatically and train models with high classification accuracy in both datasets. アスペクト項の関連スパンを半自動で識別でき、両方のデータセットにおいて高い分類精度を持つモデルを訓練できる。 0.68
(see Section 6.1 for details). (詳細は第6.1節参照)。 0.68
Data statistics and instances are in Table 1 and 2. データ統計とインスタンスはテーブル1と2にある。 0.83
MAMS sentihood Train 11186 2977 MAMS時代 11186系2977系電車 0.60
Dev 1332 747 Dev 1332 747 0.85
Test 1336 1491 テスト1336 1491 0.75
Table 1: Data Statistics. Note that we regard each training instance as aspect-specific, i.e., the concatenation of aspect term and the text x as model input. 表1:データ統計。 注意すべき点は、各トレーニングインスタンスをアスペクト固有、すなわちアスペクト項とテキストxの結合をモデル入力として考えることである。 0.70
Automatic Span Annotation As shown in the colored text in Table 2, we extract the spans for each term to serve as explanation units for IF+, IF++, TracIn+ and TracIn++. 表2のカラーテキストに示すように、各用語のスパンを抽出してIF+、IF++、TracIn+、TracIn++の説明ユニットとして機能させる。 0.71
To reduce annotation effort, we convert span extraction into a question answering task (Rajpurkar et al , 2016) where we use aspect terms to formulate questions such as “How is the service?” which concatenates with the text before being fed into pre-trained machine reading comprehension (RC) models. アノテーションの労力を減らすために、スパン抽出を質問応答タスク(Rajpurkar et al , 2016)に変換する。ここでは、事前学習された機械読解(RC)モデルに入力される前にテキストと結合する「サービスはどうか?」などの質問をアスペクト項で定式化する。 0.72
The output answer is used as the span. 出力応答はスパンとして使用される。 0.76
When the RC model fails, we use heuristics to extract words before and after the term word, up to the closest sentence boundary. RCモデルが失敗すると、単語前後の単語を最も近い文境界まで抽出するためにヒューリスティックスを用いる。 0.63
See appendix for more details. 詳細は appendix を参照のこと。 0.72
We sampled a subset of 100 annotations and found that the RC model has about 70% of Exact Match (Rajpurkar et al , 2016) and the overall annotation has a high recall of over 90% but low EM due to the involvement of heuristics. 我々は100のアノテーションのサブセットをサンプリングし、RCモデルはExact Matchの約70%(Rajpurkar et al , 2016)を持ち、全体的なアノテーションはヒューリスティックスの関与により90%を超えるが、EMが低い。 0.63
英語(論文から抽出)日本語訳スコア
Dataset MAMS データセット MAMS 0.74
sentihood Text sentihood テキスト 0.81
the service was impeccable, the menu traditional but inventive and presentation for the most part excellent but the food itself came up short. サービスは実行不可能で メニューは伝統的だが 革新的で プレゼンテーションは ほとんど素晴らしいが 食べ物そのものは 不足していた 0.66
i live in location2 and i love it location1 just stay away from location1 lol. 私はlocation2に住んでいて、location1は大好きです。
訳抜け防止モード: 私はロケーション2に住んでいます location1は、location1 lolに近づかないで欲しい。
0.74
Aspect service menu food アスペクトサービスメニューフード 0.69
location1 location2 Sentiment 位置1 位置2 感性 0.66
+ ++ Table 2: Dataset instances. + ++ 表2: データセットインスタンス。 0.84
In text, each aspect has a supporting span which we annotate semi-automatically. テキストでは、各アスペクトは、半自動でアノテートするサポートスパンを持つ。 0.61
We choose a subset where test instances テストインスタンスのサブセットを選択します 0.70
the Annotation Error (Not) Mitigating Wrongly-annotated spans may confuse the explanation methods. アノテーションエラー(Not) 誤記したスパンを誤記することは、説明法を混乱させることがある。 0.54
For example, as shown in 2, if the span of location2 is annotated as “I love it”, span-based explanation methods will use it to find wrong examples for explanation. 例えば,2 に示すように,ロケーション2 のスパンが "I love it" と注釈付けされている場合,スパンベースの説明手法では,説明の間違った例を見つけるために使用します。 0.75
Thus test instances with incorrectly annotated spans are omitted, i.e., no tolerance to annotation error for test instances. したがって、間違ったアノテーション付きスパンを持つテストインスタンスは省略され、つまり、テストインスタンスのアノテーションエラーに対する耐性がない。
訳抜け防止モード: したがって、誤ってアノテーションを付したテストインスタンスは省略される。 テストインスタンスのアノテーションエラーに対する耐性はない。
0.68
To the contrary, for training instances, we do not correct the annotation error. 逆に、トレーニングインスタンスでは、アノテーションエラーを訂正しません。 0.55
The major reason is the explanation methods have a chance to rank the wrongly annotated spans lower (its importance score imp() of Eq 3 can be lower and in turn for its influence scores.) 主な理由は、説明法が間違った注釈付きスパンを低くランク付けする可能性があることである(Eq 3 の重要スコア imp() は低くなり、その影響スコアも低くなる)。 0.72
Also, It is labor-intensive to do so. また、それを行うのも労働集約的です。 0.61
6 Experiments 6.1 Model Training Details 6 実験 6.1 モデルトレーニングの詳細 0.74
We train two separate models for MAMS and sentihood. mamsとsentihoodの2つの異なるモデルをトレーニングします。 0.55
The model’s input is the concatenation of the aspect term and the entire text, and the output is a sentiment label. モデルの入力はアスペクト項とテキスト全体の結合であり、出力は感情ラベルである。 0.56
The two models share similar settings: 1. they both use ROBERTA-LARGE (Liu et al , 2019) from Huggingface (Wolf et al , 2019) which is fed into the BertForSequenceClass ification function for initialization. 1. ROBERTA-LARGE (Liu et al , 2019) from Huggingface (Wolf et al , 2019) は初期化のために BertForSequenceClass ification 関数に入力される。 0.64
We fine-tune the parameters of the last two layers and the output head using a batch size of 200 for ATSA and 100 for sentihood and max epochs of 100. 最後の2つの層と出力ヘッドのパラメータを、ATSAが200、センジエントが100、最大エポックが100のバッチサイズで微調整する。
訳抜け防止モード: 私たちは、最後の2つの層のパラメータを調整します。 ATSAのバッチサイズ200の出力ヘッドは センディエンス100とマックス100エポック100です
0.72
We use AdamW optimizer (Loshchilov and Hutter, 2019) with weight decay 0.01 and learning rate 1E-4. 我々はadamwオプティマイザ(loshchilov and hutter, 2019)を重量減少0.01と学習率1e-4で使用する。
訳抜け防止モード: 我々は重量減衰0.01のAdamW Optimizationr(Loshch ilov and Hutter, 2019 )を用いる。 学習率1E-4。
0.77
Both models are written in Pytorch and are trained on a single Tesla V100 GPU and took less than 2 hours for each model to train. どちらのモデルもpytorchで書かれており、1つのtesla v100 gpuでトレーニングされ、各モデルのトレーニングに2時間もかからない。 0.72
The models are selected on dev set performance, and both trained models are state-of-the-art: 88.3% on MAMS and 97.6% for sentihood at the time of writing. どちらも最先端のモデルであり、MAMSでは88.3%、筆記時では97.6%である。
訳抜け防止モード: モデルは開発セットのパフォーマンスで選択されます。 両方の訓練されたモデルは--the - art : 88.3 %のmamsである 97.6%であった。
0.69
6.2 Comparing Explanation Methods We compare the six explanation methods on two datasets and three evaluation metrics in Table 3 from which we can draw the following conclusions: 1) TracIn family outperforms IF family according to Sag and Lag metrics. 6.2 説明法の比較 2つのデータセットの6つの説明法と表3の3つの評価指標を比較して、以下の結論を導出する: 1) TracIn family は Sag と Lag の指標によりIF ファミリーより優れている。 0.75
We see that both metrics are robust against the choice of K. It it worth noting that TracIn family methods are not only efficient, but also effective for extracting explanations compared to IF family as per Sag and Lag. tracin family methodは効率的であるだけでなく、sagやlagのようにif familyと比べ、説明の抽出にも有効であることに注意する必要がある。
訳抜け防止モード: いずれの指標もkの選択に対して堅牢であり、tracinファミリーメソッドが効率的であるだけではないことは注目に値する。 効果的です サグとラグに応じてifファミリーと比較した説明を抽出する。
0.63
2) Span-based methods (with +) outperform Vanilla methods (w/o +). 2) Span-based method (with +) outperform Vanilla method (w/o +)。 0.86
It is good news because an explanation can be much easier to comprehend if we can highlight essential spans in text, and IF++ and TracIn++ shows us that such highlighting can be justified by their superiority on the evaluation of Sag and Lag. IF++とTracIn++は、これらのハイライトがSagとLagの評価における優位性によって正当化できることを示している。
訳抜け防止モード: それは良いニュースです テキストで本質的なスパンを強調できるなら、説明は理解しやすいでしょう。 IF++とTracIn++は このようなハイライトは、SagとLagの評価における優位性によって正当化することができる。
0.66
3) Sag and Lag shows a consistent trend of TracIn++ and IF++ being superior to the rest of the methods, while Ral results are inconclusive, which resonates with the findings in (Hooker et al , 2019) where they also observed randomness after removing examples under different explanation methods. 3) sag と lag は、tracin++ と if++ が他の手法よりも優れているという一貫した傾向を示しているが、ral の結果は決定的ではない。
訳抜け防止モード: Sag氏とLag氏は、TracIn++とIF++が他のメソッドよりも優れているという一貫した傾向を示している。 Ralの結果は決定的ではなく, (Hooker et al, 2019 ) の結果と一致する。 異なる説明法で例を取り除いた後に ランダム性も観察されました
0.52
This suggests that the re-training method may not be a reliable metric due to the randomness and intricate details involved in the re-training process. このことから, 再学習法は, 再学習過程に係わる不規則さや複雑な詳細のため, 信頼性が低いと考えられる。 0.55
4) The Sag measures TracIn+ differently than Lag shows that Lag may be an over-simplistic measure by assuming that label y can represent the entire semantics of x, which may be problematic. 4) Sag 測度 TracIn+ が Lag と異なるのは、ラベル y が x 全体の意味論を表現できると仮定して、ラグが超単純測度であることを示している。 0.75
But Sag looks into the x for semantics and can properly reflect and align with humans judgments. しかし、sagはxのセマンティクスを調べ、人間の判断を適切に反映し調整することができる。 0.59
The Impact of K on Metrics One critical parameter for evaluation metrics is the choice of K for Sag and Lag (We do not discuss K for Ral due to its randomness). メトリクスに対するkの影響 評価メトリクスに対する1つの重要なパラメータは、sagとlagに対するkの選択である(そのランダム性のため、ralについては議論しない)。
訳抜け防止モード: メトリクスに対するKの影響 評価指標にとって重要なパラメータは、SagとLagのKの選択である。 ランダム性のため、K for Ral については論じない)。
0.72
Here we use 200 MAMS test instances as subjects to study the influence of K, as shown in Figure 1. ここでは、図1に示すように、200のMAMSテストインスタンスを対象としてKの影響を研究する。 0.72
英語(論文から抽出)日本語訳スコア
IF (cid:88)  Interpretable explanations? IF (cid:88) ... 解釈可能な説明? 0.62
 Faithful to ˆθ? Hessian-free?  θ に忠実か? Hessian-free? 0.76
MAMS sentihood MAMS sentihood 0.85
Sag(K=10) Sag(K=100) Lag(K=10) Lag(K=100) Ral(- top 20%) Ral(- top 50%) Sag(K=10) Sag(K=50) Lag(K=10) Lag(K=50) Ral(- top 20%) Ral(- top 50%) Sag(K=10) Sag(K=100) Lag(K=10) Lag(K=100) Ral(- top 20%) Ral(- top 50%) Sag(K=10) Sag(K=50) Lag(K=10) Lag(K=50) Ral(- top 20%) Ral(- top 50%) 0.98
14.22 14.65 21.63 26.07 09.80 28.55 04.69 03.56 53.00 56.38 10.56 16.21 14.22 14.65 21.63 26.07 09.80 28.55 04.69 03.56 53.00 56.38 10.56 16.21 0.41
IF+ (cid:88)  (cid:88) 17.17 15.10 25.66 25.66 05.64 01.47 04.75 07.82 41.91 44.05 16.21 18.53 IF+ (cid:88)  (cid:88) 17.17 15.10 25.66 25.66 05.64 01.47 04.75 07.82 41.91 44.05 16.21 18.53 0.49
IF++ TracInF TracIn+ TracIn++ (cid:88)  (cid:88)(cid:88) 21.74 19.83 65.41 62.52 03.55 18.14 22.54 22.21 61.96 63.16 06.91 11.05 IF++ TracInF TracIn+ TracIn++ (cid:88)(cid:88)(cid :88) 21.74 19.83 65.41 62.52 03.55 18.14 22.54 22.21 61.96 63.16 06.91 11.05 0.52
(cid:88) (cid:88) (cid:88)(cid:88) 23.92 21.32 78.03 75.02 16.05 18.14 26.21 23.43 66.65 66.72 09.23 4.58 (cid:88) (cid:88)(cid:88) 23.92 21.32 78.03 75.02 16.05 18.14 26.21 23.43 66.65 66.72 09.23 4.58) 0.54
(cid:88) (cid:88)  15.89 15.97 38.20 43.19 09.80 22.30 03.07 01.78 55.91 59.66 09.23 27.83 (cid:88) (cid:88)  15.89 15.97 38.20 43.19 09.80 22.30 03.07 01.78 55.91 59.66 09.23 27.83 0.49
(cid:88) (cid:88) (cid:88) 22.65 19.54 08.60 06.27 11.89 05.64 00.98 01.61 18.22 17.49 06.91 9.23 (cid:88) (cid:88) (cid:88) 22.65 19.54 08.60 06.27 11.89 05.64 00.98 01.61 18.22 17.49 06.91 9.23 0.50
Table 3: Performance of difference explanation methods on 200 test cases on each dataset. 表3: 各データセットの200のテストケースにおける差分説明方法のパフォーマンス。 0.82
For Sag and Lag we set K ∈ {10, 100}; for Ral we set K ∈ {20%, 50%}, and Ral we consider removing the top 20% or 50% from the ordered training instance list. Sag と Lag は K ∈ {10, 100} とし、Ral は K ∈ {20%, 50%} とし、Ral は順序付けられたトレーニングインスタンスリストから上位20% または50% を取り除こうとする。 0.76
Computation time for IF family is about 20 minutes per test instance with recursion depth 1000 (the minimal value to guarantee convergence) on a Tesla V100 GPU. IFファミリーの計算時間はテストインスタンスあたり約20分で、Tesla V100 GPU上で再帰深さ1000(収束を保証する最小値)を持つ。 0.80
The time for TracIn family only depends on gradient calculation, which is trivial compared to IF family. TracInファミリーの時間は、IFファミリーに比べて簡単な勾配計算にのみ依存する。 0.64
We found that as K increases, all methods, except for IF and TracInF, decrease on Sag and Lag. IFとTracInFを除くすべての手法は,Kが増加するにつれてSagとLagは減少することがわかった。 0.67
The decrease is favorable because the explanation method is putting useful training instances before less useful ones. 説明方法は、あまり役に立たないものよりも、有用なトレーニングインスタンスを配置するため、減少が好ましい。
訳抜け防止モード: その減少は好都合である 説明方法は あまり役に立たない トレーニングインスタンスを 用意することです
0.69
In contrast, the increase suggests the explanation method fails to rank useful ones on top. 対照的に、この増加は、説明法が有用でないことを示唆している。 0.54
This again confirms that spanbased explanation can take into account the useful information in x and reduce the impact of noisy information involved in IF and TracInF. このことは、スパンベースの説明がxにおける有用な情報を考慮し、IFとTracInFに関連するノイズ情報の影響を減らすことを再度確認する。
訳抜け防止モード: これはまたスパンベースの説明がxの有用な情報を考慮することができることを裏付ける IFおよびTracInFに関わるノイズ情報の影響を低減する。
0.76
Figure 1: Sag and Lag v.s. 図1: Sag と Lag v.s。 0.87
K values on 200 MAMS test instances. 200MAMSテストインスタンスのK値。 0.67
6.3 Comparing Faithfulness How faithful our proposed TracIn++ to ˆθ? 6.3 Faithfulnessの比較 TracIn++の提案はどのように忠実か? 0.63
To answer this question, we first define the notion of strictly faithful explanation and then test an explanation method’s faithfulness against it. この質問に答えるために、まず、厳密な説明の概念を定義し、それからそれに対する説明法の忠実さをテストする。 0.73
Note that none of the discussed methods is strictly faithful, since IF++ used approximated inverseHessian and TracIn++ is a δ away from being strictly faithful. IF++ は逆Hessian と TracIn++ が厳密な忠実さから δ 離れているため、どのメソッドも厳密な忠実さは持たない。 0.68
To obtain ground truth, we modify TracIn++ to use a single checkpoint ˆθ as the “ultimately faithful” explanation method 4. 基礎的な真理を得るため、我々はTracIn++を修正し、単一のチェックポイントを「究極的に忠実な」説明方法4として使用する。 0.60
Then, we obtain an explanation list for each test instance and compute its Spearman Correlation with the list obtained from the ground truth. そして、各テストインスタンスについて説明リストを取得し、そのスピアマン相関を基底真理から得られるリストと計算する。 0.67
The higher the correlation, the more faithful the method is. 相関が高ければ高いほど、その方法はより忠実になる。 0.65
In Table 4 we discovered that TracIn++ has similar mean as IF++ but has a much lower variance, showing its stability over IF++. 表4では、TracIn++はIF++と似ているが、差がずっと小さく、IF++よりも安定していることがわかった。 0.60
This aligns with the finding of Basu et al (2021) which argues that in deep non-convex networks, influence function usually is non-stable across test instances. これはbasu et al (2021) の発見と一致しており、深い非凸ネットワークでは、影響関数は通常、テストインスタンス間で安定ではないと主張している。 0.62
TracIn family arguably may be a promising direction to stability. TracInファミリーは間違いなく安定性への有望な方向性である。 0.67
Both methods are more faithful to Ground truth than Control that uses checkpoints, どちらの方法もチェックポイントを使う制御よりも根拠の真理に忠実である。 0.76
4The choice of ground truth can also be the exact computation of inverse-Hessian in IF (our future work). 4 基底真理の選択は、IF における逆ヘッセンの正確な計算(今後の研究)でもある。 0.66
Faithfulness does not equal to correctness; there is no guarantee the ground truth is a valid explanation method, but it can be a valid benchmark for faithfulness 正しさは正しさに等しくなく、根拠真理が正当な説明方法である保証はないが、正しさの正当な基準となることができる。 0.75
0.10.120.140.160.180 .20.220.240.26102030 405060708090100MAMSo nSagIFIF+IF++TracInFTracIn+TracIn++00.10.20.30.40.50.60 .70.80.9102030405060 708090100MAMSonLagIF IF+IF++TracInFTracIn+TracIn++ 0.10.120.140.160.180 .220.240.26102040406 08090100MAMSonSagIF+IF++TracInFTracIn+TracIn++00.10.20.30.40.60.70 .910204040608090100M AMSonLagIF+IF++TracInFTracIn+TracIn++ 0.04
英語(論文から抽出)日本語訳スコア
Method Control Spearman Mean Var. 方法制御 Spearman Mean Varの略。 0.76
4.84 55.11 3.57 TracIn++ 60.14 59.37 20.50 4.84 55.11 3.57 TracIn++ 60.14 59.37 20.50 0.43
IF++ Table 4: Comparison of Correlation with Ground truth. IF++ 表4: 地上の真実との相関の比較。 0.70
The experiment is run 5 times each; “Control” is only different from TracIn++ on the models used: “control” uses three checkpoints of the latest epochs, but TracIn++ uses three δ-faithful model variants. コントロール”は最新のエポックの3つのチェックポイントを使用するが、TracIn++は3つのδ-faithfulモデルバリアントを使用する。
訳抜け防止モード: 実験は1回に5回行われます Control ” は使用したモデルの TracIn++ とだけ異なる。 コントロール” 最新の3つのチェックポイントを使っています しかし、TracIn++は3つのδ-忠実なモデルバリアントを使用する。
0.74
showing that the model “ensemble” around ˆθ may be a better choice than “checkpoint averaging” for model explanations. モデル説明の“チェックポイント平均化”よりも、θ 付近のモデル “ensemble” の方が適していることを示している。 0.73
Further explorations may be needed since there are many variables in this comparison. この比較には多くの変数が存在するため、さらなる探索が必要である。 0.63
7 A Case Study Table 5 demonstrate the differences of explanation methods. 7 事例研究 表5は説明方法の違いを示しています。 0.63
In action, TracIn++ shows both the test span and explanation span to a user; TracIn+ shows only the training span, and TracIn does not show spans. TracIn++では、テストスパンと説明スパンの両方をユーザに示す。
訳抜け防止モード: TracIn++は実際にユーザに対してテストスパンと説明スパンの両方を表示する TracIn+はトレーニングスパンのみを表示し、TracInはスパンを表示しない。
0.64
Interestingly we can observe the top-1 explanation found by TracIn++ is more semantically related than others in the example, a common pattern among the test cases. 興味深いことに、TracIn++が発見したトップ1の説明は、テストケースで共通するパターンである例よりも意味的に関連している。 0.68
8 Related Work Popular explanation methods include gradientbased (Sundararajan et al , 2017), attention-based (Clark et al , 2019; Jain and Wallace, 2019; Wiegreffe and Pinter, 2019), as well as sample-based (Koh and Liang, 2017; Yeh et al , 2018; Pruthi et al , 2020b) methods. 8関連作業 一般的な説明方法は、グラデーションベース(sundararajan et al , 2017)、アテンションベース(clark et al , 2019; jain and wallace, 2019; wiegreffe and pinter, 2019)、サンプルベース(koh and liang, 2017; yeh et al , 2018; pruthi et al , 2020b)である。
訳抜け防止モード: 8関連作業 一般的な説明方法は、勾配に基づく(Sundararajan et al, 2017)。 attention - based (Clark et al, 2019; Jain and Wallace) 2019 ; Wiegreffe と Pinter, 2019 )、サンプルベース(Koh and Liang, 2017 ; Yeh et al)。 2018年、Pruthi et al , 2020b )。
0.82
Major Progress on Sample-based Explanation Methods There have been a series of recent efforts to explain black-box deep neural nets (DNN), such as LIME (Ribeiro et al , 2016) that approximates the behavior of DNN with an interpretable model learned from local samples around prediction, Influence Functions (Koh and Liang, 2017; Koh et al , 2019) that picks training samples as explanation via its impact on the overall loss, and Exemplar Points (Yeh et al , 2018) that can assign weights to training samples. Major Progress on Sample-based Explanation Methods There have been a series of recent efforts to explain black-box deep neural nets (DNN), such as LIME (Ribeiro et al , 2016) that approximates the behavior of DNN with an interpretable model learned from local samples around prediction, Influence Functions (Koh and Liang, 2017; Koh et al , 2019) that picks training samples as explanation via its impact on the overall loss, and Exemplar Points (Yeh et al , 2018) that can assign weights to training samples. 0.89
TracIn (Pruthi et al , 2020b) is the latest breakthrough that overcomes the computational bottleneck of Influence Functions with the cost of faithfulness. tracin (pruthi et al , 2020b) は、影響関数の計算ボトルネックを忠実さのコストで克服する最新のブレークスルーである。 0.70
The Discussion of Explanation Faithfulness in NLP The issue of Faithfulness of Explanations was primarily discussed under the explanation generation context (Camburu et al , 2018) where there is no guarantee that a generated explanation would be faithful to a model’s inner-workings (Jacovi and Goldberg, 2020). NLPにおける説明の忠実性に関する議論 説明の忠実性に関する問題は、モデルの内部作業(Jacovi and Goldberg, 2020)に、生成された説明が忠実であるという保証がない説明生成の文脈(Camburu et al , 2018)の下で主に議論された。 0.76
In this work, we discuss faithfulness in the sample-based explanations framework. 本稿では,サンプルベースの説明フレームワークにおける忠実さについて論じる。 0.64
The faithfulness to model either can be guaranteed only in theory but not in practice (Koh and Liang, 2017) or can not be guaranteed at all (Pruthi et al , 2020b). モデルに対する忠実性は理論上のみ保証されるが、実際には保証されない(koh and liang, 2017)か、全く保証できない(pruthi et al , 2020b)。 0.68
Sample-based explanation methods for NLP Han et al (2020) applied IF for sentiment analysis and natural language inference and also studied its utility on detecting data artefacts (Gururangan et al , 2019). NLP Han et al (2020) のサンプルに基づく説明法は、感情分析と自然言語推論にIFを適用し、データアーチファクトの検出にもその有用性を検討した(Gururangan et al , 2019)。
訳抜け防止モード: NLP Han et al (2020 ) を用いた感情分析と自然言語推論のためのサンプルベース説明法 実用性も研究しました データアーチファクトを検出する(Gururangan et al, 2019)。
0.84
Yang et al (2020b) used Influence Functions to filter the generated texts. yang et al (2020b) はインフルエンス関数を使って生成されたテキストをフィルタリングした。 0.54
The one closest to our work is (Meng et al , 2020a) where a single word is used as the explanation unit. 私たちの作品に最も近いものは (meng et al , 2020a) で、説明単位として1つの単語が使用される。
訳抜け防止モード: 私たちの仕事に最も近いものは(Meng et al, 2020a ) 1つの単語が説明単位として使われます
0.83
Their formation uses gradient-based methods for single words, while ours can be applied to any text unit granularity using text masking. テキストマスキングを用いて任意のテキスト単位の粒度に適用することが可能である。
訳抜け防止モード: 彼らの形成は、単一の単語に対する勾配に基づく手法を用いる。 テキストマスキングを使って テキスト単位の粒度に応用できる
0.76
Explanation of NLP Models by Input Erasure Input erasure has been a popular trick for measuring input impact for NLP models by replacing input by zero vector (Li et al , 2016) or by marginalization of all possible candidate tokens (Kim et al , 2020) that arguably dealt with the out of distribution issue introduced by using zero as input mask. 入力消去入力消去によるNLPモデルの説明は、入力をゼロベクトル(Li et al , 2016)で置き換えることや、ゼロを入力マスクとして導入した分布外問題に確実に対処する可能性のある全ての候補トークン(Kim et al , 2020)の限界化によって、NLPモデルに対する入力影響を測定するための一般的なトリックである。 0.79
Similar to (Kim et al , 2020; Li et al , 2020; Jacovi and Goldberg, 2021) we also use “[MASK]” token, with the difference that we allow masking of arbitrary length of an input sequence. 同様に (Kim et al , 2020; Li et al , 2020; Jacovi and Goldberg, 2021) も "[MASK]" トークンを使用します。
訳抜け防止モード: Kim et al, 2020; Li et al, 2020; Jacovi Goldberg, 2021 ) “ [ MASK ] ] トークンも使用しています。 違いは 入力シーケンスの任意の長さのマスキングを許可します
0.67
Evaluations of Sample-based Methods A benchmark of evaluating sample-based explanation methods has not been agreed upon. サンプルベース手法の評価 サンプルベースの説明方法を評価するベンチマークは合意されていない。 0.76
For diagnostic purposes, Koh et al (2017) proposed a selfexplanation method that uses the training instances to explain themselves; Hanawa et al (2020) proposed the label and instance consistency as a way of model sanity check. 診断目的で、Koh et al (2017) は、トレーニングインスタンスを使って自己説明を行う自己説明法を提案し、Hanawa et al (2020) は、モデル衛生チェックの方法として、ラベルとインスタンスの一貫性を提案した。 0.61
On the non-diagnostic setting, sample removal and re-training (Han et al , 2020; Hooker et al , 2019) assumes that removing useful training instances can cause significant accuracy loss; input enhancement method assumes useful explanations can also improve model’s decision making at model input side (Hao, 2020), and manual inspections (Han et al , 2020; Meng et al , 2020a) were also used to examine if the 非診断的設定では、サンプル除去と再トレーニング(Han et al , 2020; Hooker et al , 2019)では、有用なトレーニングインスタンスの削除が相当な精度の損失をもたらすと仮定し、入力強化法では、モデル入力側(Hao, 2020)でのモデルの意思決定を改善することができると仮定し、手動検査(Han et al , 2020; Meng et al , 2020a)も使用された。 0.80
英語(論文から抽出)日本語訳スコア
Test Case TracIn++ テストケース TracIn++ 0.67
TracIn+ TracInF TracIn+ TracInF 0.82
IF++ IF+ IF IF++ IF+ IF 0.74
been here a few times and food has always been good but service really suffers when it gets crowded. 何回かここにいて、いつも食べ物は良かったが、混み合うと本当にサービスが苦しむ。 0.70
expected there to be more options for tapas the food was mediocre but the service was pretty good. タパス食品の選択肢はもっと増えると期待されていたが、サービスはかなり良好だった。 0.64
decor is simple yet functional and although the staff are not the most attentive in the world, ... this place is the tourist fav of chinese food in the city, the service was fast, but the taste of the food is average, too much starch ... ... the host was rude to us as we walked in, we stayed because the decor is charming and we wanted french food. デコルは単純だが機能的であり、スタッフは世界で最も注意を向けていないが、この場所は市内の中華料理の観光地であり、サービスは速いが、料理の味は平均的であり、デンプンが多すぎる ... ホストは私たちにとって無作法であり、デコルが魅力的で、フランス料理が欲しかったので滞在した。 0.67
the scene a dark refurbished dining car hosts plenty of hipsters in carefully selected thrift-store clothing. シーンは暗く改装されたダイニングカーで、慎重に選択されたスリフトストアの服装で多くのヒップスターを収容しています。 0.40
an unpretentious sexy atmosphere lends itself to the above average wine-list and a menu that can stand-up to any other restaurant ... 風変わりなセクシーな雰囲気は、上の平均的なワインリストと、他のどのレストランでも立ち上がることのできるメニューに役立ちます。
訳抜け防止モード: セクシーな雰囲気は、上述の平均的なワインに役立ちます。 メニューは 立ち上がれ - 他のレストランまで...
0.78
+ + + 0 + + + + + 0 + + 0.85
+ Table 5: Showcasing Top-1 Explanations. + 表5: トップ1説明を示す。 0.81
Aspect terms are in blue, and the spans are in bold font. アスペクト用語は青で、スパンは大胆なフォントです。 0.47
TracInF do not highlight either training or testing span; TracIn+ highlights training span; TracIn++ highlights both training and test spans. TracInFはトレーニングスパン、TracIn+はトレーニングスパン、TracIn++はトレーニングスパンとテストスパンの両方を強調している。
訳抜け防止モード: TracInFはトレーニングもテストスパンも強調しない TracIn++はトレーニングスパンとテストスパンの両方を強調している。
0.73
TracIn++ and IF++ can help users understand which span of z influenced which span of z(cid:48), which TracInF and IF do not provide. TracIn++とIF++は、TracInFとIFが提供していないz(cid:48)の幅に影響されたzの幅を理解するのに役立つ。 0.53
meanings of explanations align with that of the test instance. 説明の意味はテストインスタンスの意味と一致します。 0.68
In this paper, we automate this semantic examination using the embedding similarities. 本稿では,埋め込み類似性を用いて,この意味検査を自動化する。 0.74
9 Future Work TracIn++ opens some new questions: 1) how can we generalize TracIn++ to cases where test spans are unknown? 9 今後の課題 1) TracIn++をテストスパンが未知のケースに一般化するにはどうすればいいのか? 0.69
2) Can we understand the connection between IF and TracIn which may spark discoveries on sample-based explanation methods? 2) IFとTracInの関連性は, サンプルに基づく説明法で発見される可能性があるのか? 0.74
3) How can we apply TracIn++ to understand sequence generation models? 3) シーケンス生成モデルを理解するためにどのようにTracIn++を適用するか。 0.62
Acknowledgement This work is supported by the MIT-IBM Watson AI Lab. 承諾 この研究はMIT-IBM Watson AI Labによって支援されている。 0.57
The views and conclusions are those of the authors and should not be interpreted as representing the official policies of the funding agencies. 見解と結論は著者のものであり、資金提供機関の公的な政策を表すものとして解釈するべきではない。 0.62
We thank anonymous reviewers for their valuable feedback. 匿名レビュワーの貴重なフィードバックに感謝します。 0.60
We also thank your family for the support during this special time. この特別の時間に ご家族に ご支援を感謝いたします。 0.70
References Samyadeep Basu, Philip Pope, and Soheil Feizi. Samyadeep Basu、Philip Pope、Soheil Feiziを参照。 0.70
2021. Influence functions in deep learning are fragile. 2021. 深層学習における影響関数は脆弱である。 0.78
ICLR. Atılım G¨unes¸ Baydin, Barak A Pearlmutter, and Jeffrey Mark Siskind. ICLR バラク・ア・パールマッター(Barak A Pearlmutter)、ジェフリー・マーク・シスキンド(Jeffrey Mark Siskind)。 0.50
2016. Tricks from deep learning. 2016. 深層学習からのトリック。 0.82
arXiv preprint arXiv:1611.03777. arXiv preprint arXiv:1611.03777 0.71
Oana-Maria Camburu, Tim Rockt¨aschel, Thomas Lukasiewicz, and Phil Blunsom. oana-maria camburu、tim rockt saschel、thomas lukasiewicz、phil blunsom。 0.54
2018. e-snli: Natural language inference with natural language explanations. 2018. e-snli: 自然言語による自然言語推論。 0.84
In NIPS. Kevin Clark, Urvashi Khandelwal, Omer Levy, and Christopher D. Manning. NIPS。 kevin clark、urvashi khandelwal、omer levy、christopher d. manning。 0.54
2019. What does BERT an analysis of bert’s attention. 2019. BERは、bertの注意をどう分析するのか? 0.68
Blacklook at? Blacklookは? 0.78
BoxNLP, abs/1906.04341. BoxNLP、abs/1906.04341。 0.55
R Dennis Cook and Sanford Weisberg. デニス・クックとサンフォード・ワイズバーグ。 0.57
1982. Residuals and influence in regression. 1982. 残差と回帰への影響。 0.74
New York: Chapman and Hall. ニューヨーク:チャップマンとホール。 0.53
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019. BERT: Pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing. 2019. BERT: 2019年開催のProceedings of the 2019 Conferenceにおいて、言語の下での双方向トランスフォーマーの事前トレーニング。 0.71
of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota. 0.85
Association for Computational Linguistics. Suchin Gururangan, Tam Dang, Dallas Card, and Noah A. Smith. 計算言語学会会員。 グルランガン、タンダン、ダラス・カード、ノア・A・スミスなど。 0.50
2019. Variational pretraining for semi-supervised text classification. 2019. 半教師付きテキスト分類のための変分事前学習 0.69
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5880–5894, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 5880-5894, イタリア・フィレンツェ。 0.70
Association for Computational Linguistics. Frank R Hampel. 計算言語学会会員。 フランク・R・ハンペル。 0.51
1974. The influence curve and its role in robust estimation. 1974. 影響曲線とそのロバスト推定における役割 0.74
Journal of the american statistical association, 69(346):383–393. journal of the american statistical association, 69(346):383–393。 0.90
Xiaochuang Han, Byron C. Wallace, and Yulia Tsvetkov. Xiaochuang Han, Byron C. Wallace, Yulia Tsvetkov 0.69
2020. Explaining black box predictions and unveiling data artifacts through influence functions. 2020. ブラックボックス予測の説明と影響関数によるデータアーティファクトの公開。 0.78
In ACL. ACL。 0.55
英語(論文から抽出)日本語訳スコア
Kazuaki Hanawa, Sho Yokoi, Satoshi Hara, and Evaluation criteria for arXiv preprint 花沢和明, 横井正, 原佐利, arXivプレプリントの評価基準 0.70
Kentaro Inui. 2020. instance-based explanation. 犬井健太郎。 2020年 - 実例に基づく説明。 0.47
arXiv:2006.04528. arxiv:2006.04528。 0.28
Yiding Hao. 2020. ハオに乗る。 2020. 0.65
Evaluating attribution methods using white-box LSTMs. ホワイトボックスLSTMを用いた帰属手法の評価 0.73
In Proceedings of the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, pages 300–313, Online. The Proceedings of the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, page 300–313, Online 0.83
Association for Computational Linguistics. Sara Hooker, Dumitru Erhan, Pieter-Jan Kindermans, and Been Kim. 計算言語学会会員。 Sara Hooker, Dumitru Erhan, Pieter-Jan Kindermans, Been Kim 0.64
2019. A benchmark for interpretability methods in deep neural networks. 2019. ディープニューラルネットワークにおける解釈可能性手法のベンチマーク 0.75
In Advances in Neural Information Processing Systems, volume 32. In Advances in Neural Information Processing Systems, Volume 32。 0.78
Curran Associates, Inc. Curran Associates, Inc. 0.85
Alon Jacovi and Yoav Goldberg. Alon JacoviとYoav Goldberg。 0.81
2020. Towards faithfully interpretable NLP systems: How should we define and evaluate faithfulness? 2020. 忠実に解釈可能なNLPシステムを目指して : 忠実度をどのように定義し評価するか 0.71
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4198–4205, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 4198–4205, Online 0.68
Association for Computational Linguistics. Alon Jacovi and Yoav Goldberg. 計算言語学会会員。 Alon JacoviとYoav Goldberg。 0.66
2021. Aligning Faithful Interpretations with their Social Attribution. 2021. 社会的帰属と忠実な解釈を一致させる。 0.67
Transactions of the Association for Computational Linguistics, 9:294–310. 計算言語学協会のトランザクション、9:294–310。 0.67
Sarthak Jain and Byron C. Wallace. サーサック・ジャインとバイロン・c・ウォレス 0.38
2019. Attention is In Proceedings of the 2019 Connot Explanation. 2019. 2019年のconnotの解説では注意が払われている。 0.69
ference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 3543–3556, Minneapolis, Minnesota. 北米計算言語学会の章を参照: Human Language Technologies, Volume 1 (Long and Short Papers), page 3543–3556, Minneapolis, Minnesota。 0.70
Association for Computational Linguistics. Qingnan Jiang, Lei Chen, Ruifeng Xu, Xiang Ao, and Min Yang. 計算言語学会会員。 Qingnan Jiang、Lei Chen、Ruifeng Xu、Xiang Ao、Min Yang。 0.59
2019. A challenge dataset and effective models for aspect-based sentiment analysis. 2019. アスペクトベース感情分析のためのチャレンジデータセットと効果的なモデル 0.79
In EMNLP-IJCNLP, pages 6281–6286. EMNLP-IJCNLP、6281-6286頁。 0.57
Siwon Kim, Jihun Yi, Eunji Kim, and Sungroh Yoon. Siwon Kim, Jihun Yi, Eunji Kim, Sungroh Yoon 0.65
2020. Interpretation of NLP models through input In Proceedings of the 2020 Conmarginalization. 2020. 入力入力によるNLPモデルの解釈 -2020年コンマルジナリゼーションの成果- 0.84
ference on Empirical Methods in Natural Language Processing (EMNLP), pages 3154–3167, Online. Empirical Methods in Natural Language Processing (EMNLP), page 3154–3167, Online. 0.77
Association for Computational Linguistics. Pang Wei Koh, Kai-Siang Ang, Hubert H. K. Teo, and Percy Liang. 計算言語学会会員。 Pang Wei Koh, Kai-Siang Ang, Hubert H. K. Teo, Percy Liang 0.69
2019. On the accuracy of influence functions for measuring group effects. 2019. グループ効果測定のための影響関数の精度について 0.85
CoRR, abs/1905.13289. CoRR, abs/ 1905.13289。 0.55
Pang Wei Koh and Percy Liang. Pang Wei KohとPercy Liang。 0.74
2017. Understanding black-box predictions via influence functions. 2017. 影響関数によるブラックボックス予測の理解。 0.78
In ICML, pages 1885–1894. ICML』1885-1894頁。 0.75
Jiwei Li, Will Monroe, and Dan Jurafsky. Jiwei Li、Will Monroe、Dan Jurafsky。 0.69
2016. Understanding neural networks through representation erasure. 2016. 表現消去によるニューラルネットワークの理解 0.80
arXiv preprint arXiv:1612.08220. arXiv preprint arXiv:1612.08220 0.71
Linyang Li, Ruotian Ma, Qipeng Guo, Xiangyang Xue, and Xipeng Qiu. リニャン・リ(Linyang Li)、ルーシアン・マ(Ruotian Ma)、キョン・グオ(Qipeng Guo)、キョン・チエ(Xiangyang Xue)、キョン・チーウ(Xipeng Qiu)。 0.29
2020. Bert-attack: Adversarial attack against bert using bert. 2020. バート・アタック(英: Bert-Attack) バートの攻撃。 0.68
EMNLP. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. EMNLP。 Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.77
2019. Roberta: A robustly optimized BERT pretraining approach. 2019. Roberta: 堅牢に最適化されたBERT事前トレーニングアプローチです。 0.72
CoRR. Ilya Loshchilov and Frank Hutter. CoRR。 Ilya LoshchilovとFrank Hutter。 0.80
2019. Decoupled weight decay regularization. 2019. 分離 体重減少規則化 0.60
In ICLR. Fanyu Meng, Junlan Feng, Danping Yin, Si Chen, and Min Hu. ICLR。 Fanyu Meng、Junlan Feng、Danping Yin、Si Chen、Min Hu。 0.61
2020a. A structure-enhanced graph convolutional network for sentiment analysis. 2020a 感情分析のための構造強化グラフ畳み込みネットワーク 0.76
In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 586–595, Online. In Findings of the Association for Computational Linguistics: EMNLP 2020, page 586–595, Online. 0.94
Association for Computational Linguistics. Yuxian Meng, Chun Fan, Zijun Sun, Eduard Hovy, Fei Wu, and Jiwei Li. 計算言語学会会員。 Yuxian Meng, Chun Fan, Zijun Sun, Eduard Hovy, Fei Wu, Jiwei Li 0.60
2020b. Pair the dots: Jointly examining training history and test stimuli for model interpretability. 2020年。 Pair the dots: モデル解釈可能性のためのトレーニング履歴とテスト刺激を共同で検査する。 0.72
arXiv preprint arXiv:2010.06943. arXiv preprint arXiv:2010.06943 0.71
Phiyodr. 2020. Phiyodr 2020. 0.67
roberta-large-finetuned-squad2. roberta-large-finetu ned-squad2 0.37
https://huggingface. co/phiyodr/ bart-large-finetuned -squad2. https://huggingface. co/phiyodr/ bart-large-finetuned -squad2。 0.35
accessed 19-Dec-2020]. 19-Dec-2020] 0.53
[Online; Danish Pruthi, Bhuwan Dhingra, Livio Baldini Soares, Michael Collins, Zachary C Lipton, Graham Neubig, and William W Cohen. 【オンライン】 デンマークのプルティ、ブーワン・ディングラ、リヴィオ・バルディーニ・ソアレス、マイケル・コリンズ、ザカリー・クリプトン、グラハム・ノイビッグ、ウィリアム・W・コーエン。
訳抜け防止モード: 【オンライン】 デンマークのpruthi、bhuwan dhingra、livio baldini soares、michael collins ザカリー・c・リプトン、グラハム・ノイビッグ、ウィリアム・w・コーエン。
0.61
2020a. Evaluating explanations: How much do explanations from the teacher aid students? 2020a 説明の評価:教員助成生からの説明はどの程度か? 0.76
arXiv preprint arXiv:2012.00893. arXiv preprint arXiv:2012.00893 0.72
Garima Pruthi, Frederick Liu, Mukund Sundararajan, and Satyen Kale. Garima Pruthi、Frederick Liu、Mukund Sundararajan、Satyen Kale。 0.60
2020b. Estimating training data influence by tracking gradient descent. 2020年。 勾配勾配の追従によるトレーニングデータの影響の推定 0.75
In NIPS. Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. NIPS。 Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever 0.63
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.72
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.63
2016. SQuAD: 100,000+ questions for machine comprehension of text. 2016. SQuAD: 機械によるテキスト理解のための10万以上の質問。 0.73
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2383–2392, Austin, Texas. 2016 Conference on Empirical Methods in Natural Language Processing, page 2383–2392, Texas.
訳抜け防止モード: 自然言語処理における経験的手法に関する2016年会議のまとめ 2383–2392頁、テキサス州オースティン。
0.77
Association for Computational Linguistics. Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. 計算言語学会会員。 Marco Tulio Ribeiro、Sameer Singh、Carlos Guestrin。 0.58
2016. ”why should i trust you?”: Explaining the predictions of any classifier. 2016. なぜ私はあなたを信頼すべきなのか?」: 分類器の予測を説明する。 0.78
In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’16, page 1135–1144, New York, NY, USA. 22th acm sigkdd international conference on knowledge discovery and data mining, kdd ’16, page 1135–1144, new york, ny, usa. (英語)
訳抜け防止モード: 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining に参加して KDD ' 16, page 1135–1144, New York, NY, USA.
0.87
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Marzieh Saeidi, Guillaume Bouchard, Maria Liakata, and Sebastian Riedel. Marzieh Saeidi、Guillaume Bouchard、Maria Liakata、Sebastian Riedel。 0.66
2016. Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods. 2016. Sentihood: 都市域におけるアスペクトベース感情分析データセット。 0.80
In COLING. Sofia Serrano and Noah A. Smith. コリングで ソフィア・セラノとノア・a・スミス 0.35
2019. Is attention In Proceedings of the 57th Annual interpretable? 2019. 第57回年次大会の議事録に注目は集まるか? 0.68
Meeting of the Association for Computational Linguistics, pages 2931–2951, Florence, Italy. イタリア・フィレンツェの計算言語学会2931-2951頁。 0.41
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
Mukund Sundararajan, Ankur Taly, and Qiqi Yan. Mukund Sundararajan、Ankur Taly、Qiqi Yan。 0.61
2017. Axiomatic attribution for deep networks. 2017. 深層ネットワークに対する公理的帰属 0.77
CoRR, abs/1703.01365. CoRR, abs/1703.01365。 0.59
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, s ukasz Kaiser, Illia Polosukhin 0.71
2017. Attention is all you need. 2017. 注意はあなたが必要とするすべてです。 0.74
In NIPS. Sarah Wiegreffe and Yuval Pinter. NIPS。 Sarah Wiegreffe と Yuval Pinter 0.59
2019. Attention is not not explanation. 2019. 注意は説明ではありません。 0.74
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLPIJCNLP), pages 11–20, Hong Kong, China. 第9回自然言語処理国際共同会議(emnlpijcnlp)は、2019年の自然言語処理における経験的手法に関する会議である。
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLPIJCNLP)に参加して 11-20頁、香港、中国。
0.83
Association for Computational Linguistics. Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R’emi Louf, Morgan Funtowicz, and Jamie Brew. 計算言語学会会員。 Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R’emi Louf, Morgan Funtowicz, Jamie Brew 0.65
2019. Huggingface’s transformers: State-of-the-art natural language processing. 2019. Huggingfaceのトランスフォーマー:最先端の自然言語処理。 0.80
arXiv preprint arXiv:1910.03771. arXiv preprint arXiv:1910.03771 0.71
Yiben Yang, Chaitanya Malaviya, Jared Fernandez, Swabha Swayamdipta, Ronan Le Bras, Ji-Ping Wang, Chandra Bhagavatula, Yejin Choi, and Doug Downey. Yiben Yang, Chaitanya Malaviya, Jared Fernandez, Swabha Swayamdipta, Ronan Le Bras, Ji-Ping Wang, Chandra Bhagavatula, Yejin Choi, Doug Downey。 0.84
2020a. G-daug: Generative data augmentation for commonsense reasoning. 2020a G-daug: 常識推論のための生成データ拡張。 0.74
arXiv preprint arXiv:2004.11546. arXiv preprint arXiv:2004.11546 0.72
Yiben Yang, Chaitanya Malaviya, Jared Fernandez, Swabha Swayamdipta, Ronan Le Bras, Ji-Ping Wang, Chandra Bhagavatula, Yejin Choi, and Doug Downey. Yiben Yang, Chaitanya Malaviya, Jared Fernandez, Swabha Swayamdipta, Ronan Le Bras, Ji-Ping Wang, Chandra Bhagavatula, Yejin Choi, Doug Downey。 0.84
2020b. Generative data augmentation for commonsense reasoning. 2020年。 コモンセンス推論のための生成データ拡張 0.73
In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1008–1025, Online. In Findings of the Association for Computational Linguistics: EMNLP 2020, page 1008–1025, Online 0.84
Association for Computational Linguistics. Chih-Kuan Yeh, Joon Sik Kim, Ian E.H. 計算言語学会会員。 Chih-Kuan Yeh, Joon Sik Kim, Ian E.H. 0.69
Yen, and Pradeep Ravikumar. プラディープ・ラヴィクマル(Pradeep Ravikumar)とも。 0.54
2018. Representer point selection for explaining deep neural networks. 2018. ディープニューラルネットワークの説明のための表現点選択 0.79
In NIPS. NIPS。 0.52
英語(論文から抽出)日本語訳スコア
A Span extraction details The model we apply the huggingface (Wolf et al , 2019) pre-trained RC model “phiyodr/roberta-larg efinetuned-squad2” (Phiyodr, 2020) which is chosen based on our comparison to a set of similar models on SQuAD 2.0 dataset. スパン抽出では,squad 2.0データセット上の類似モデルのセットとの比較に基づいて選択した,hughingface (wolf et al , 2019) 事前トレーニングされたrcモデル “phiyodr/roberta-larg efinetuned-squad2” (phiyodr, 2020) を適用する。 0.71
We use the SQuAD 2.0-trained model instead of 1.0 because the data is more challenging since it involves multiple passages, and the model has to compare valid and invalid passages for answer span extraction, a case similar to the dataset we use. データを1.0ではなくSQuAD 2.0トレーニングモデルを使用するのは、複数のパスを含むため、データがより難しいからです。
訳抜け防止モード: 1.0の代わりにSQuAD 2.0トレーニングモデルを使用します。 複数のパスが伴うので データはより困難です モデルは 回答スパン抽出の有効なパスと無効パスを比較します。
0.58
Templates we used are: The heuristics 私たちが使ったテンプレートは 0.64
How is the X? How was the X? Xはどうですか。 Xはどうだった? 0.80
How are the X? How were the X? Xはどうですか。 Xはどうだった? 0.78
How do you rate the X? Xをどう評価しますか。 0.79
How would you rate the X? Xをどう評価しますか。 0.78
How do you think of the X? Xについてどう思いますか。 0.80
What do you think about the X? Xについてどう思いますか。 0.80
What do you say about the X? Xについてどう思いますか。 0.75
What happened to the X? Xはどうなったのか? 0.79
What did the X do? Table 6: Templates for RC model xは何をした? 表6:RCモデルのテンプレート 0.78
when the RC model fails: 1) We consider RC model fails when no span is extracted, or the entire text is returned as an answer. 1) スパンが抽出されない場合、または全文が答えとして返される場合、RCモデルは失敗すると考えます。
訳抜け防止モード: RCモデルが失敗した場合: 1 ) 我々はスパンを抽出しない場合、RCモデルは失敗すると考えている。 答えとして全文が返されます
0.76
2) We identify the location of the term in the text and expand the scope from the location both on the left and on the right, and when sentence boundary is found, we stop and return the span as the span for the term. 2) 文章中の語句の位置を特定し, 左と右の両方の位置から範囲を広げ, 文境界が見つかると, 語句のスパンとして停止して返却する。 0.59
Note that we do find cases where the words around a term do not necessarily talk about the term. 項に関する単語が必ずしも用語について話しているとは限らない場合に注意。 0.58
However, we found such a case to be extremely rare. しかし,このような症例は非常に稀であった。 0.67
B Derivation of IF++ B IF++ の派生 0.64
Ipert,loss(Xij, z−kl; ˆθ) Ipert,loss(Xij, z-kl; シュθ) 0.87
:= ∇imp(Xij|X; ˆθ,z−ij ,z) :=-imp(xij|x;z−ij,z) 0.86
= dimp(Xij|X; ˆθ) = dimp (複数形 dimps) 0.70
dˆθ ( dˆθ,z−kl,z デジθ ( d θ ,z-kl,z 0.68
d (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) =0 (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) =0 ダン (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) -=0(cid:12)(cid:12)(ci d:12)(cid:12)-=0) 0.67
) = (∇θOy(X, ˆθ) − ∇θOy(X−ij, ˆθ))( d = −(∇θOy(X, ˆθ) − ∇θOy(X−ij, ˆθ))H−1 (∇θL(z−kl, ˆθ) − ∇θL(z, ˆθ)) ) 例: (x, sθ) − sθoy(x−ij, sθ))(d) = −(sθoy(x, sθ) − sθoy(x−ij, sθ))h−1 (sθl(z−kl, sθ) − sθl(z, sθ)) 0.79
) dˆθ,z−kl,z ) d θ ,z-kl,z 0.76
ˆθ (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) =0 ˆθ (cid:12)(cid:12)(cid :12)(cid:12)>=0。 0.77
C Derivation of TracIn+ and TracIn++ Similar to IF(Koh and Liang, 2017) and TracIn(Pruthi et al , 2020b), we start from the Taylor expansion on point ˆθt around z(cid:48) and z(cid:48) C による TracIn+ と TracIn++ の導出 IF(Koh and Liang, 2017) と TracIn(Pruthi et al , 2020b) と同様に、我々は z(cid:48) と z(cid:48) の周りの点のテイラー展開から始める。 0.80
−ij as L(ˆθt+1, z(cid:48)) ∼ L(ˆθt, z(cid:48)) + ∇L(ˆθt, z(cid:48))(ˆθt+1 − ˆθt) −ij)(ˆθt+1 − ˆθt) −ij) ∼ L(ˆθt, z(cid:48) -ij L(シュワット+1, z(シド:48)) ^ L(シュワット, z(シド:48)) + ^ L(シュワット, z(シド:48))(シュワット+1 − シュワット) −ij)(シュワット+1 − シュワット) −ij) ^ L(シュワット, z(シド:48))
訳抜け防止モード: -ij L(aθt+1, z(cid:48 ) ) > L(iθt, z(cid:48 ) ) + > L(iθt, ) z(cid:48))(s(cid:48) −s(cid:48) −s(cid:48)
0.72
−ij) + ∇L(ˆθt, z(cid:48) -ij) + >L(...θt, z(cid:48) 0.64
L(ˆθt+1, z(cid:48) L(aθt+1, z(cid:48) 0.70
If SGD is assumed for optimization for simplicity, (ˆθt+1 − ˆθt) = λ∇L(ˆθt, z). SGD が単純さの最適化のために仮定されるとき、 ( λθt+1 − λθt) = λ = L( λθt, z) である。 0.57
Thus, putting it in above equations and perform subtraction, we obtain したがって、上述の方程式に記入して減算を行い、 0.69
L(ˆθt+1, z(cid:48)) − L(ˆθt+1, z(cid:48) l( θt+1, z(cid:48)) − l( θt+1, z(cid:48) 0.71
−ij) ∼ L(ˆθt, z(cid:48) -ij) > L(aθt, z(cid:48) 0.76
−ij) − L(ˆθt, z(cid:48)) + [∇L(ˆθt, z(cid:48)) − ∇L(ˆθt, z(cid:48) −ij) − l(\θt, z(cid:48)) + [\l(\θt, z(cid:48)) − \l(\θt, z(cid:48)) である。 0.69
−ij)]λ∇L(ˆθt, z) −ij)]λ\l(\θt,z) 0.81
英語(論文から抽出)日本語訳スコア
And, imp(x(cid:48) そして imp(x(cid:48) 0.68
ij|z(cid:48); ˆθt+1) − imp(x(cid:48) ij|z(cid:48) − imp(x(cid:48) 0.83
ij|z(cid:48); ˆθt) ∼ [∇L(ˆθt, z(cid:48) ij|z(cid:48); . . ij|z(cid:48); . . ij|z(cid:48); . . ij|z(cid:48); . ij|z(cid:48) 0.34
−ij) − ∇L(ˆθt, z(cid:48))]λ∇L(ˆθt, z) −ij) − >L(→θt, z(cid:48))]λ>L(→θt, z) 0.77
So, the left term is the change of importance by parameter change; we can interpret it as the change of importance score of span xij w.r.t the parameter of networks. したがって、左の項はパラメータ変化による重要度の変化であり、ネットワークのパラメータであるxij w.r.の重要度の変化と解釈できる。 0.85
Then, we integrate over all the contributions from different points in the training process and obtain そして、トレーニングプロセスにおけるさまざまなポイントからの貢献をすべて統合し、取得します。 0.70
TracIn+(x(cid:48) TracIn+(x(cid:48) 0.82
ij|z(cid:48), z) = ij|z(cid:48), z) = 0.88
[∇L(ˆθt, z(cid:48) 【i(z)(cid:48)】 0.72
−ij) − ∇L(ˆθt, z(cid:48))]λ∇L(ˆθt, z) −ij) − >L(→θt, z(cid:48))]λ>L(→θt, z) 0.77
(cid:88) t (cid:88) t 0.82
(cid:88) t (cid:88) t 0.82
The above formation is very similar to TracInwhere a single training instance z is evaluated as a whole. 上記の構成はTracInと非常に似ており、単一のトレーニングインスタンスzが全体として評価される。 0.64
But we are interested in the case where an meaning unit xkl in z can be evaluated for influence. しかし、z における意味単位 xkl が影響に対して評価できる場合に興味がある。 0.71
Thus, we apply the same logic of the above equation to z−kl, the perturbed training instance where token k to l is masked, as したがって、上記の方程式の論理を、トークン k を l にマスクする摂動訓練インスタンス z−kl に適用する。
訳抜け防止モード: したがって、上記の方程式の論理をz−klに適用する。 k から l へのトークンがマスクされている摂動訓練例
0.80
TracIn+(x(cid:48) TracIn+(x(cid:48) 0.82
ij|z(cid:48), z−kl) = ij|z(cid:48), z−kl) = 0.76
[∇L(ˆθt, z(cid:48) 【i(z)(cid:48)】 0.72
−ij) − ∇L(ˆθt, z(cid:48))]λ∇L(ˆθt, z−kl) −ij) − \l(\θt, z(cid:48))]λ\l(\θt, z−kl) 0.75
Then, the difference TracIn+(x(cid:48) training span xkl on test span x(cid:48) 次に、TracIn+(x(cid:48)トレーニングは、テストスパンx(cid:48)でxklにまたがる。 0.62
ij. Formally, the influence of xkl on x(cid:48) ij。 正式には、xklがx(cid:48)に与える影響 0.76
ij|z(cid:48), z) − TracIn+(x(cid:48) (cid:88) ij|z(cid:48, z) − TracIn+(x(cid:48) (cid:88) 0.81
ij is TracIn++(x(cid:48) ijは TracIn++(x(cid:48) 0.76
ij, x−kl|z(cid:48), z) = λ ij, x−kl|z(cid:48), z) = λ 0.83
[∇L(ˆθt, z(cid:48) 【i(z)(cid:48)】 0.72
−ij) − ∇L(ˆθt, z(cid:48))][∇L(ˆθt, z) − ∇L(ˆθt, z−kl)] −ij) − sl( θt, z(cid:48))][ sl( θt, z) − sl( θt, z−kl)] 0.87
We denote that such a form is very easy to implement, since each item in summation requires only four (4) gradient estimates. 重ね合わせの各項目は 4 つの (4) 勾配推定しか必要としないので、そのような形式は実装が非常に容易であることを示す。 0.62
t ij|z(cid:48), z−kl) can indicate how much impact a t ij|z(cid:48), z−kl) は A にどの程度影響するかを示すことができる。 0.68
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。