論文の概要、ライセンス

# (参考訳) 数値推論のための弱改良型ニューロシンボリックモジュールネットワーク [全文訳有]

Weakly Supervised Neuro-Symbolic Module Networks for Numerical Reasoning ( http://arxiv.org/abs/2101.11802v1 )

ライセンス: CC BY 4.0
Amrita Saha, Shafiq Joty, Steven C.H. Hoi(参考訳) ニューラルモジュールネットワーク(nmns)は,マシンリーディング理解(mrc)におけるテキスト上の数値推論の最も一般的な形式を含む,さまざまな質問応答タスクにおいて,学習可能なモジュールとして明示的な推論を取り入れることに成功している。 しかし、これを実現するには、現代のNMNは、モジュールの推論に関する特別なプログラムとしてクエリを実行する上で強力な監督を必要とし、そのような監督なしによりオープンエンドの設定に一般化できない。 そこで本研究では,数値推論に基づくMRCのための唯一の監視手法として,WNSMN(Weakly Supervised Neuro-Symbolic Module Network)を提案する。 クエリの依存性解析から得られたノイズの多いヒューリスティックプログラムを、ニューラルおよびシンボリック推論モジュールの両方に対する離散的なアクションとして実行し、応答マッチングからの離散的な報酬で強化学習フレームワークでエンドツーエンドにトレーニングする。 DROPの数値回答サブセットでは、WNSMNはNMNを32%上回り、推論自由言語モデルGenBERTは、同等の弱い教師付き設定下でトレーニングされた場合、正確なマッチング精度を8%上回る。 これは、ノイズの多いプログラムに対する明示的な離散的推論をエンドツーエンドで処理できるモジュラーネットワークの有効性と一般化性を示す。

Neural Module Networks (NMNs) have been quite successful in incorporating explicit reasoning as learnable modules in various question answering tasks, including the most generic form of numerical reasoning over text in Machine Reading Comprehension (MRC). However, to achieve this, contemporary NMNs need strong supervision in executing the query as a specialized program over reasoning modules and fail to generalize to more open-ended settings without such supervision. Hence we propose Weakly-Supervised Neuro-Symbolic Module Network (WNSMN) trained with answers as the sole supervision for numerical reasoning based MRC. It learns to execute a noisy heuristic program obtained from the dependency parsing of the query, as discrete actions over both neural and symbolic reasoning modules and trains it end-to-end in a reinforcement learning framework with discrete reward from answer matching. On the numerical-answer subset of DROP, WNSMN out-performs NMN by 32% and the reasoning-free language model GenBERT by 8% in exact match accuracy when trained under comparable weak supervised settings. This showcases the effectiveness and generalizability of modular networks that can handle explicit discrete reasoning over noisy programs in an end-to-end manner.
公開日: Thu, 28 Jan 2021 03:36:09 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n a J 1 2 0 2 n a J 0.85
8 2 ] L C . 8 2 ] L C。 0.78
s c [ 1 v 2 0 8 1 1 sc [ 1 v 2 0 8 1 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
WEAKLY SUPERVISED NEURO-SYMBOLIC MODULE NETWORKS FOR NUMERICAL REASONING 数値応答のためのWEAKSN-SymbicalModul e Networks 0.49
Amrita Saha*, Shafiq Joty*+, and Steven C.H. Amrita Saha*、Shafiq Joty*+、Steven C.H。 0.83
Hoi* *Salesforce AI Research +Salesforce AI Research ホイ* ※Salesforce AI研究+Salesforce AI研究 0.79
{amrita.saha, sjoty, shoi}@salesforce.com amrita.saha, sjoty, shoi}@salesforce.com 0.86
ABSTRACT Neural Module Networks (NMNs) have been quite successful in incorporating explicit reasoning as learnable modules in various question answering tasks, including the most generic form of numerical reasoning over text in Machine Reading Comprehension (MRC). ABSTRACT ニューラルモジュールネットワーク(nmns)は,マシンリーディング理解(mrc)におけるテキスト上の数値推論の最も一般的な形式を含む,さまざまな質問応答タスクにおいて,学習可能なモジュールとして明示的な推論を取り入れることに成功している。 0.79
However, to achieve this, contemporary NMNs need strong supervision in executing the query as a specialized program over reasoning modules and fail to generalize to more open-ended settings without such supervision. しかし、これを実現するには、現代のNMNは、モジュールの推論に関する特別なプログラムとしてクエリを実行する上で強力な監督を必要とし、そのような監督なしによりオープンエンドの設定に一般化できない。 0.45
Hence we propose Weakly-Supervised Neuro-Symbolic Module Network (WNSMN) trained with answers as the sole supervision for numerical reasoning based MRC. そこで本研究では,数値推論に基づくMRCのための唯一の監視手法として,WNSMN(Weakly Supervised Neuro-Symbolic Module Network)を提案する。 0.63
It learns to execute a noisy heuristic program obtained from the dependency parsing of the query, as discrete actions over both neural and symbolic reasoning modules and trains it end-to-end in a reinforcement learning framework with discrete reward from answer matching. クエリの依存性解析から得られたノイズの多いヒューリスティックプログラムを、ニューラルおよびシンボリック推論モジュールの両方に対する離散的なアクションとして実行し、応答マッチングからの離散的な報酬で強化学習フレームワークでエンドツーエンドにトレーニングする。 0.76
On the numerical-answer subset of DROP, WNSMN outperforms NMN by 32% and the reasoning-free language model GenBERT by 8% in exact match accuracy when trained under comparable weak supervised settings. drop の数値解集合上では、wnsmn は nmn を 32%、推論なし言語モデル genbert を8% の精度で上回っている。
訳抜け防止モード: DROPの数値解答サブセットについて、WNSMNはNMNを32 %上回る そして推論 - 比較する弱い監督された設定の下で訓練されたとき正確な一致の正確さの8パーセントの自由な言語モデルGenBERT。
0.58
This showcases the effectiveness and generalizability of modular networks that can handle explicit discrete reasoning over noisy programs in an end-to-end manner. これは、ノイズの多いプログラムに対する明示的な離散的推論をエンドツーエンドで処理できるモジュラーネットワークの有効性と一般化性を示す。 0.62
1 INTRODUCTION End-to-end neural models have proven to be powerful tools for an expansive set of language and vision problems by effectively emulating the input-output behavior. 1 導入 エンドツーエンドのニューラルモデルは、入出力動作を効果的にエミュレートすることにより、言語と視覚の問題の拡大のための強力なツールであることが証明されている。 0.61
However, many real problems like Question Answering (QA) or Dialog need more interpretable models that can incorporate explicit reasoning in the inference. しかし、質問回答(QA)やダイアログのような多くの実際の問題は、推論に明示的な推論を組み込むことができるより解釈可能なモデルを必要とします。 0.60
In this work, we focus on the most generic form of numerical reasoning over text, encompassed by the reasoning-based MRC framework. 本研究では,推論ベースのMRCフレームワークを包含した,テキスト上の数値推論の最も汎用的な形式に注目する。 0.78
A particularly challenging setting for this task is where the answers are numerical in nature as in the popular MRC dataset, DROP (Dua et al., 2019). このタスクの特に難しい設定は、一般的なMRCデータセットDROP(Dua et al., 2019)のように、自然界で回答が数値的であることだ。 0.68
Figure 1 shows the intricacies involved in the task, (i) passage and query language understanding, (ii) contextual understanding of the passage date and numbers, and (iii) application of quantitative reasoning (e.g., max, not) over dates and numbers to reach the final numerical answer. 図1は、タスクに関わる複雑さ、(i)通過とクエリ言語理解、(ii)通過日と数字の文脈的理解、および(iii)最終的な数値解に到達するための日付と数字に対する量的推論(例えば、max, not)の適用を示す。 0.81
Three broad genres of models have proven successful on the DROP numerical reasoning task. ドロップ数値推論タスクで3つの幅広いジャンルのモデルが成功している。 0.74
First, large-scale pretrained language models like GenBERT (Geva et al., 2020) uses a monolithic Transformer architecture and decodes numerical answers digit-by-digit. GenBERT (Geva et al., 2020) のような大規模事前訓練型言語モデルはモノリシックトランスフォーマーアーキテクチャを使用し、桁単位の数値解をデコードする。 0.69
Though they deliver mediocre performance when trained only on the target data, their competency is derived from pretraining on massive synthetic data augmented with explicit supervision of the gold numerical reasoning. 対象データのみに基づいてトレーニングされた場合,それらの能力は,金の数値推論を明示的に監督した大規模合成データの事前学習から得られる。 0.66
Second kind of models are the reasoning-free hybrid models like NumNet (Ran et al., 2019), NAQANet (Dua et al., 2019), NABERT+ (Kinley & Lin, 2019) and MTMSN (Hu et al., 2019), NeRd (Chen et al., 2020). 第二のモデルは、NumNet (Ran et al., 2019), NAQANet (Dua et al., 2019), NABERT+ (Kinley & Lin, 2019), MTMSN (Hu et al., 2019), NeRd (Chen et al., 2020)のような推論のないハイブリッドモデルである。 0.86
They explicitly incorporate numerical computations in the standard extractive QA pipeline by learning a multi-type answer predictor over different reasoning types (e.g., max/min, diff/sum, count, negate) and directly predicting the corresponding numerical expression, instead of learning to reason. 彼らは、異なる推論タイプ(例えば、max/min, diff/sum, count, negate)で多型回答予測器を学習し、推論する代わりに、対応する数値表現を直接予測することで、標準的な抽出QAパイプラインに数値計算を明示的に組み込む。 0.73
This is facilitated by exhaustively precomputing all possible outcomes of discrete operations and augmenting the training data with the reasoning-type supervision and numerical expressions that lead to the correct answer. これは、離散操作の可能なすべての結果を徹底的に事前計算し、推論型の監督と正しい答えにつながる数値表現でトレーニングデータを増強することで実現される。
訳抜け防止モード: これは離散演算の可能なすべての結果を徹底的に事前計算することで促進される 推論によるトレーニングデータの強化 - 型監視 そして 正しい答えにつながる 数値表現。
0.76
Lastly, the most relevant class of models to consider for this work are the modular networks for 最後に、この作業で考慮すべき最も関連するモデルのクラスは、モジュラーネットワークである。 0.73
1 1 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Figure 1: Example (passage, query, answer) from DROP and outline of our method: executing noisy program obtained from dependency parsing of query by learning date/number entity specific cross attention, and sampling and execution of discrete operations on entity arguments to reach the answer. 図1: DROPの例(パス,クエリ,回答)と我々の方法の概要: 日付/数字のエンティティ固有の横断的な注意を学習することでクエリの依存性解析から得られたノイズの多いプログラムを実行し、回答に到達するためのエンティティ引数に対する個別の操作のサンプリングと実行を行う。
訳抜け防止モード: 図1:例 (経過、問合せ、回答) 提案手法のドロップとアウトラインから : クエリの依存解析から得られたノイズ処理プログラムの学習日/数エンティティ固有のクロス注意による実行 エンティティ引数に対する離散操作のサンプリングと実行 答えにたどり着くために
0.81
reasoning. Neural Module Networks (NMN) (Gupta et al., 2020) is the first explicit reasoning based QA model which parses the query into a specialized program and executes it step-wise over learnable reasoning modules. 理由だ Neural Module Networks (NMN) (Gupta et al., 2020) は、クエリを特殊なプログラムに解析し、学習可能な推論モジュールよりも段階的に実行する、最初の明示的な推論ベースのQAモデルである。 0.63
However, to do so, apart from the exhaustive precomputation of all discrete operations, it also needs more fine-grained supervision of the gold program and the gold program execution, obtained heuristically, by leveraging the abundance of templatized queries in DROP. しかし、これを実現するためには、すべての離散的な操作の徹底的な事前計算とは別に、DROPにおける拡張クエリの豊富さを活用して、金プログラムと金プログラムの実行をよりきめ細かな監督が必要である。 0.54
While being more pragmatic and richer at interpretability, both modular and hybrid networks are also tightly coupled with the additional supervision. より実用的で解釈性に富む一方で、モジュラーネットワークとハイブリッドネットワークは、追加の監視と密結合している。 0.64
For instance, the hybrid models cannot learn without it, and while NMN is the first to enable learning from QA pair alone, it still needs more finer-grained supervision for at least a part of the training data. 例えば、ハイブリッドモデルはそれなしでは学習できません。NMNはQAペアだけで学習を可能にする最初のものですが、トレーニングデータの少なくとも一部に対して、よりきめ細かい監督が必要です。 0.72
With this, it manages to supercede the SoTA models NABERT and MTMSN on a carefully chosen subset of DROP using the supervision. これにより、DROPの慎重に選択されたサブセット上で、SoTAモデルであるNABERTとMTMSNを監督する。 0.59
However, NMN generalizes poorly to more open-ended settings where such supervision is not easy to handcraft. しかし、NMNはそのような監督が手作業では容易でないような、よりオープンな設定に一般化する。 0.53
Need for symbolic reasoning. 象徴的な推論が必要です 0.66
One striking characteristic of the modular methods is to avoid discrete reasoning by employing only learnable modules with an exhaustively precomputed space of outputs. モジュラー法の特徴の1つは、学習可能なモジュールのみを出力の余分な計算空間で使うことで離散的な推論を避けることである。 0.65
While they perform well on DROP, their modeling complexity grows arbitrarily with more complex non-linear numerical operations (e.g., exp, log, cos). DROPではうまく機能するが、モデリングの複雑さはより複雑な非線形数値演算(exp、log、cosなど)と任意に増大する。 0.75
Contrarily, symbolic modular networks that execute the discrete operations are possibly more robust or pragmatic in this respect by remaining unaffected by the operation complexity. 対照的に、離散操作を実行する象徴的なモジュラーネットワークは、操作の複雑さに影響を受けないままで、この点でより堅牢で実用的です。 0.54
Such discrete reasoning has indeed been incorporated for simpler, well-structured tasks like math word problems (Koncel-Kedziorski et al., 2016) or KB/TableQA (Zhong et al., 2017; Liang et al., 2018; Saha et al., 2019), with Deep Reinforcement Learning (RL) for end-to-end training. このような離散推論は、算術語問題(Koncel-Kedziorski et al., 2016)やKB/TableQA(Zhong et al., 2017; Liang et al., 2018; Saha et al., 2019)のようなより単純で構造化されたタスクに、エンドツーエンドトレーニングのためのDeep Reinforcement Learning (RL)とともに組み込まれている。 0.77
MRC however needs a more generalized framework of modular neural networks involving more fuzzy reasoning over noisy entities extracted from open-ended passages. しかし、MRCは、よりファジィな推論を含むモジュラーニューラルネットワークのより一般化されたフレームワークを必要とする。 0.62
In view of this, we propose a Weakly-Supervised Neuro-Symbolic Module Network (WNSMN) • A first attempt at numerical reasoning based MRC, trained with answers as the sole supervision; • Based on a generalized framework of dependency parsing of queries into noisy heuristic programs; • End-to-end training of neuro-symbolic reasoning modules in a RL framework with discrete rewards; そこで本研究では、Wakly-Supervised Neuro-Symbolic Module Network (WNSMN) について提案する。 数値推論に基づく MRC の第一試みで、単独の指導力として、 • クエリの依存性解析をノイズの多いヒューリスティックプログラムに一般化したフレームワークに基づいて、 • 離散的な報酬を持つ RL フレームワークにおいて、ニューロシンボリック推論モジュールのエンドツーエンドのトレーニングを行う。 0.71
To concretely compare WNSMN with contemporary NMN, consider the example in Figure 1. WNSMNと現在のNMNを具体的に比較するために、図1の例を考える。 0.70
In comparison to our generalized query-parsing, NMN parses the query into a program form (MAX(FILTER(FIND(‘Carpenter’), ‘goal’)), which is step-wise executed by different learnable modules with exhaustively precomputed output set. 一般化されたクエリパーシングと比較して、NMNはクエリをプログラム形式(MAX(FILTER(FIND(’Carpenter’), ‘goal’))に解析する。
訳抜け防止モード: 一般化されたクエリと比較して- パーシング NMNはクエリをプログラム形式(MAX(FILTER(FIND(‘Carpenter ’ ))に解析する。 の)です。 is step - 完全に事前計算された出力セットを持つ異なる学習可能なモジュールによって賢明に実行される。
0.69
To train the network, it employs various forms of strong supervision such as gold program operations and gold query-span attention at each step of the program and gold execution i.e., supervision of the passage numbers (23, 26, 42) to execute MAX operation on. ネットワークを訓練するために、プログラムの各ステップで金プログラム操作と金クエリスパンの注意、すなわち、MAX操作を実行するための通過番号(23, 26, 42)の監督など、さまざまな形態の強力な監督を採用しています。 0.69
While NMN can only handle the 6 reasoning categories that the supervision was tailored to, WNSMN focuses on the full DROP with numerical answers (called DROP-num) that involves more diverse reasoning on more open-ended questions. NMNは、監督官が調整した6つの推論カテゴリのみを扱うことができるが、WNSMNは、よりオープンな質問に対するより多様な推論を含む数値的な回答(DROP-numと呼ばれる)を備えた完全なDROPに焦点を当てている。 0.55
We empirically compare WNSMN on DROP-num with the SoTA NMN and GenBERT that allow learning with partial or no strong supervision. DROP-numのWNSMNとSoTA NMNおよびGenBERTを実証的に比較し、部分的または強力な監督なしに学習できます。 0.61
Our results showcase that the proposed WNSMN achieves 32% better accuracy than NMN in absence of at least one or more types of supervision and performs 8% better than GenBERT when the latter is fine-tuned only on DROP in a comparable setup, without additional synthetic data having explicit supervision. 提案されたWNSMNは、少なくとも1つ以上のタイプの監督がない場合にNMNよりも32%高い精度を達成し、後者が比較可能なセットアップでDROP上でのみ微調整された場合にGenBERTよりも8%優れたパフォーマンスを発揮します。 0.75
2 MODEL: WEAKLY SUPERVISED NEURO-SYMBOLIC MODULE NETWORK 2モデル:弱教師付きニューロシンボリックモジュールネットワーク 0.71
We now describe our proposed WNSMN that learns to infer the answer based on weak supervision of the QA pair by generating the program form of the query and executing it through explicit reasoning. 提案したWNSMNは,クエリのプログラム形式を生成し,明示的な推論によって実行することにより,QAペアの弱い監督に基づいて回答を推測する。 0.76
2 2 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Parsing Query into Programs To keep the framework generic, we use a simplified representation of the Stanford dependency parse tree (Chen & Manning, 2014) of the query to get a generalized program (Appendix A.5). クエリをプログラムにパースする フレームワークをジェネリックに保つために、クエリのスタンフォード依存パースツリー(Chen & Manning, 2014)の簡易表現を使用して、一般化されたプログラムを取得する(Appendix A.5)。 0.73
First, a node is constructed for the subtree rooted at each child of the root by merging its descendants in the original word order. まず、その子孫を元の単語順にマージすることで、ルートの各子に根付いたサブツリーに対してノードを構築する。 0.77
Next an edge is added from the left-most node (which we call the root clause) to every other node. 次に、エッジが左端のノード(ルート節と呼ぶ)から他のすべてのノードに追加されます。 0.83
Then by traversing left to right, each node is organized into a step of a program having a linear flow. そして、左から右に移動することで、各ノードは線形フローを持つプログラムのステップに編成される。 0.79
For example, the program obtained in Figure 1 is X1 = (‘which is the longest’); X2 = (‘goal by Carpenter’, X1); Answer = Discrete-Reasoning(‘which is the longest’, X2). 例えば、図1で得られるプログラムは、x1 = ('the long'); x2 = ('goal by carpenter', x1); answer = discrete-reasoning(& #x27; which is the longest', x2)である。
訳抜け防止モード: 例えば、図1で得られたプログラムは X1 = ( ' である。 は最も長い)。 ; X2 = ( ' goal by Carpenter ’, X1 ) ; Answer = Discrete - Reasoning('これは最も長い ’, X2 ) である。
0.87
Each program step consists of two types of arguments (i) Query Span Argument obtained from the corresponding node, indicates the query segment referred to, in that program step e.g., ‘goal by Carpenter’ in Step 2 (ii) Reference Argument(s) obtained from the incoming edges to that node, refers to the previous steps of the program that the current one depends on e.g., X1 in Step 2. それぞれのプログラムステップは、対応するノードから得られる2つのタイプの引数からなる。 (i) Query Span Argument は、参照されるクエリセグメントを示し、例えば、ステップ2(ii) の 'goal by Carpenter' のプログラムステップで、そのノードへの入力エッジから取得した参照argument(s) は、現在のノードがステップ2の X1 などに依存するプログラムの以前のステップを参照する。 0.84
Next, a final step of the program is added, which has the reference argument as the leaf node(s) obtained in the above manner and the query span argument as the root-clause. 次に、上記の方法で得られたリーフノードとしての参照引数と、ルートクラスとしてのクエリスパン引数を含むプログラムの最終ステップを追加する。 0.59
This step is specifically responsible for handling the discrete operation, enabled by the root-clause which is often indicative of the kind of discrete reasoning involved (e.g., max). このステップは特に離散演算の処理に責任を持ち、ルートクローズによって可能となり、これはしばしば関連する離散推論の一種(例えばmax)を示す。 0.77
However this being a noisy heuristic, the QA model needs to be robust to such noise and additionally rely on the full query representation in order to predict the discrete operation. しかし、これは騒々しいヒューリスティックであり、QAモデルはそのようなノイズに対して堅牢であり、さらに離散的な操作を予測するために完全なクエリ表現に依存する必要がある。 0.65
For simplicity we limit the number of reference arguments to 2. 単純さのため、参照引数の数を2に制限する。 0.76
2.1 PROGRAM EXECUTION 2.1 プログラム実行 0.70
Our proposed WNSMN learns to execute the program over the passage in three steps. 提案するwnsmnは3段階のステップでプログラムの実行を学習する。 0.64
In the preprocessing step, it identifies numbers and dates from the passage, and maintains them as separate canonicalized entity-lists along with their mention locations. 事前処理のステップでは、パスから番号と日付を識別し、参照位置とともに、個別の標準化されたエンティティリストとして保持する。
訳抜け防止モード: 前処理ステップでは、節から番号と日付を識別する。 そして、それらを別々の正準化されたエンティティとして維持する。
0.58
Next, it learns an entity-specific crossattention model to rank the entities w.r.t. 次に、エンティティ固有のクロスアテンションモデルを学び、エンティティ w.r.t をランク付けする。 0.36
their query-relevance (§2.1.1), and then samples relevant entities as discrete arguments (§2.1.2) and executes appropriate discrete operations on them to reach the answer. 関連するエンティティを離散的な引数としてサンプリングし(2.1.2)、応答に到達するために適切な個別の操作を実行する。 0.60
An RL framework (§2.1.3) trains it end-to-end with the answer as the sole supervision. RLフレームワーク(2.1.3)は、答えを唯一の監督としてエンドツーエンドでトレーニングする。 0.51
2.1.1 ENTITY-SPECIFIC CROSS ATTENTION FOR INFORMATION EXTRACTION 2.1.1 情報抽出のためのエンティティ特異的クロスアテンション 0.49
To rank the query-relevant passage entities, we model the passage, program and entities jointly. クエリ関連パスエンティティをランク付けするために、パス、プログラム、エンティティを共同でモデル化する。 0.41
passage is aki = softmaxi((cid:80) weighted by aki gives the expected passage attention for the k’th step, ¯αk =(cid:80) パスは aki = softmaxi((cid:80) である。
訳抜け防止モード: aki = softmaxi((cid:80 )) と aki の重み付けにより、k 番目のステップで期待されるパスに注意が向けられる。 sαk = (cid:80 )
0.67
Modeling interaction between program and passage This module (Figure 2, left) learns to associate query span arguments of the program with the passage. プログラムとパス間の相互作用のモデリング このモジュール(図2、左)は、プログラムのクエリスパン引数とパスを関連付けることを学ぶ。 0.75
For this, similar to NMN, we use a BERT-base pretrained encoder (Devlin et al., 2018) to get contextualized token embeddings of the passage and query span argument of each program step, respectively denoted by Pk and Qk for the k’th program step. このために、NMNと同様に、BERTベースのプリトレーニングされたエンコーダ(Devlin et al., 2018)を使用して、各プログラムステップのパスとクエリスパン引数のコンテキスト化されたトークン埋め込みを取得します。
訳抜け防止モード: このために、NMNと同様、BERTベースの事前訓練エンコーダ(Devlin et al ., 2018)を使用して、各プログラムステップのパスとクエリスパン引数のコンテキスト化されたトークン埋め込みを取得する。 それぞれ、k 番目のプログラムステップで Pk と Qk で表される。
0.72
Based on it, we learn a similarity matrix S ∈ Rl×n×m between the program and passage, where l, n, and m respectively are the program length and query span argument and passage length (in tokens). これに基づいて、プログラムとパスの間の類似行列 S ∈ Rl×n×m を学習し、ここで l, n, m はそれぞれプログラム長とクエリスパン引数とパス長 (トークン) である。 0.72
Each Sk ∈ Rn×m represents the affinity over the passage tokens for the k’th program argument and is defined as Sk(i, j) = wT [Qki; Pkj; Qki (cid:12) Pkj], where w is a learnable parameter and (cid:12) is element-wise multiplication. 各 Sk ∈ Rn×m は k'th プログラム引数の通過トークン上の親和を表し、k(i, j) = wT [Qki; Pkj; Qki (cid:12) Pkj] として定義される。
訳抜け防止モード: 各 Sk ∈ Rn×m は、k 番目のプログラム引数の通過トークン上の親和性を表す Sk(i, j ) = wT [ Qki ; Pkj ; Qki ( cid:12 ) Pkj ], ここで w は学習可能なパラメータであり、 (cid:12 ) は要素である。
0.80
From this, an attention map Ak is computed over the (cid:80) passage tokens for the k’th program argument as Ak(i, j) = softmaxj(Sk(i, j)) = exp(Sk(i,j)) j exp(Sk(i,j)). このことから、Ak(i, j) = Softmaxj(Sk(i, j)) = exp(Sk(i, j))) j exp(Sk(i, j))として、k’thプログラム引数の(cid:80)パストークンを介して注意マップAkが計算される。 0.85
Similarly, for the i’th token of the k’th program argument the cumulative attention aki w.r.t. 同様に、k’thプログラム引数のi’thトークンの場合、累積的な注意は aki w.r.t である。 0.58
the j Sk(i, j)). j Sk(i, j) である。 0.75
A linear combination of the attention map Ak(i,·) i akiAk(i,·) ∈ Rm. 注意写像 Ak(i,·) i akiAk(i,·) ∈ Rm の線形結合。 0.53
Span-level smoothed attention. スパンレベルのスムーズな注意。 0.44
To facilitate information spotting and extraction over contiguous spans of text, we regularize the passage attention so that the attention on a passage token is high if the attention over its neighbors is so. テキストの連続的なスパンに対する情報スポッティングと抽出を容易にするため、隣人の注意がそうであれば通過トークンへの注意が高くなるよう、パスアテンションを規則化する。 0.70
We achieve this by adopting a heuristic smoothing technique (Huang et al., 2020), taking a sliding window of different lengths ω = {1, 2, . これを実現するには、ヒューリスティックスムージング技術(Huang et al., 2020)を採用し、異なる長さのスライディングウィンドウを取ります ω = {1, 2, 。 0.78
. . 10} over the passage, and replacing the token-level attention with the attention averaged over the window. . . パス上の10}、およびトークンレベルの注意をウィンドウ上の平均的な注意に置き換えます。 0.80
This results in 10 k|ω ∈ {1, 2,. . この結果、10 k|ω ∈ {1, 2, となる。 0.86
. , 10}}. different attention maps over the passage for the k’th step of the program: { ¯αω Soft span prediction. . , 10}}. 異なる注意は、プログラムのk番目のステップの通過をマップします。
訳抜け防止モード: . , 10}}. プログラムのk番目のステップの通路上での異なる注意マップ : 「αω」 ソフトスパン予測。
0.78
This network takes a multi-scaled (Gupta et al., 2020) version of ¯αω k , by multiplying the attention map with |s| different scaling factors (s = {1, 2, 5, 10}), yielding a |s|k ∈ Rm×|s|. このネットワークはマルチスケール(英語版)(gupta et al., 2020)で、アテンションマップを |s| の異なるスケーリング係数 (s = {1, 2, 5, 10}) に乗じて |s|k ∈ rm×|s| とする。 0.79
This is then passed through dimensional representation for each passage token, i.e., ¯αω a L-layered stacked self-attention transformer block (Vaswani et al., 2017), which encodes it to m × d dimension, followed by a linear layer of dimension d × 1, to obtain the span prediction logits: k )) ∈ Rm. すると、これは各通過トークンの次元表現、すなわち、L層積み重ねられた自己アテンション変換ブロック (Vaswani et al., 2017) に渡され、これはそれを m × d 次元にエンコードし、次に次元 d × 1 の線型層に続き、スパン予測対数: k ) ∈ Rm を得る。 0.78
Further the span prediction logits at k = Linear(T ransf ormer(M ultiScaling( ¯αω αω さらに k = Linear(T ransf ormer(M ultiScaling( >αω αω)におけるスパン予測ロジット 0.84
3 3 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Figure 2: Modeling the interaction between the passage and (left) the program, & (right) its number/date entities. 図2: パスと(左)プログラム間の相互作用をモデル化し、その番号/日付エンティティをモデル化します。 0.80
For each program step k, they respectively yield (i) Stacked Span Prediction Logits and (ii) Attention over Number/Date entities for each passage token. 各プログラムステップkに対して、それぞれ(i)スタックスパン予測ロジットと(ii)各パストークンの番号/日付エンティティに対する注意が与えられる。 0.84
The linear combination of these two gives the expected distribution over entities, T num これら2つの線形結合は、実体 t num 上の期待分布を与える 0.83
and T date for the step k T 日付 ステップKのために 0.62
k k each program step (say k) is additively combined with those from the previous steps referenced in the current one, through the reference argument (ref (k)) at step k, i.e., αω k(cid:48). k k 各プログラムステップ(例えば k)は、ステップ k における参照引数(ref (k))、すなわち αω k(cid:48) を通じて、現在のステップで参照される前のステップから追加的に結合される。 0.84
k(cid:48)∈ref (k) αω k(cid:48)∈ref (k) αω 0.84
k = αω k +(cid:80) k = αω k +(cid:80) 0.91
k k are computed as Snum k k snum (複数形 snums) 0.78
(i,·) denotes the probability distribution over the N unique number tokens w.r.t. i,·) は N 個の一意数トークン w.r.t 上の確率分布を表す。 0.78
Modeling interaction between program and number/date entities This module (Figure 2, right) facilitates an entity-based information spotting capability, that is, given a passage mention of a number/date entity relevant to the query, the model should be able to attend to the neighborhood around it. プログラムと数値/日付エンティティ間の相互作用のモデル化 このモジュール(図2、右)は、エンティティベースの情報スポッティング機能、すなわち、クエリに関連する数値/日付エンティティの節を参照すると、モデルが周囲の近所に出席できる。 0.67
To do this, for each program step, we first compute a passage tokens to number tokens attention map Anum ∈ Rl×m×N , where N is the number of unique number entities. これを行うには、各プログラムステップにおいて、まず N が一意数実体の数である数トークンの注意マップ Anum ∈ Rl×m×N への通過トークンを計算します。 0.77
Note that this attention map is different for each program step as the contextual BERT encoding of the passage tokens (Pk) is coupled with the program’s span argument of that step. この注意マップは、パストークン(Pk)のコンテキストBERTエンコーディングと、そのステップのプログラムのスパン引数が結合されているため、プログラムステップごとに異なることに注意してください。 0.78
At the k-th step, the row the i-th Anum passage token. k 番目のステップで、行は i-th Anum パストークンです。 0.63
The attention maps are obtained by a softmax normalization of each row of the ∈ Rm×N for k = {1 . 注意マップは k = {1 に対して ∈ Rm×N の各列のソフトマックス正規化によって得られる。 0.79
. . l}, corresponding passage tokens to number tokens similarity matrix, Snum kiWnPknj with Wn ∈ Rd×d being where the elements of Snum a learnable projection matrix and nj being the passage location of the j-th number token. . . l}、数字トークンの類似性行列に対する対応する通過トークン Snum kiWnPknj と Wn ∈ Rd×d は、Snum の要素が学習可能な射影行列であり、nj はj番目の数トークンの通過位置である。 0.82
These similarity scores are additively aggregated over all mentions of the same number entity in the passage. これらの類似度スコアは、章中の同じ数実体のすべての言及に付加的に集約される。 0.64
(i,·)) ∈ The relation between program and entities is then modeled as τ ω RN , which gives the expected distribution over the N number tokens for the k-th program step and using ω as the smoothing window size. (i,·)) ∈ プログラムと実体の関係は τ ω RN としてモデル化され、これは k 番目のプログラムステップの N 個の番号トークン上の期待分布を与え、滑らかなウィンドウサイズとして ω を使用する。 0.85
The final stacked attention map obtained for the different windows is T num k |ω ∈ {1, 2, . 異なるウィンドウのために得られた最終的なスタックされた注意マップは T num k |ω ∈ {1, 2, である。 0.66
. . 10}}. Similarly, for each program step k, we also compute a separate stacked attention map T date over the unique date tokens, parameterized by a different Wd. . . 10}}. 同様に、各プログラムステップ k に対して、異なる Wd でパラメータ化されたユニークな日付トークン上の別のスタックトアテンションマップ T 日時も計算する。 0.83
A critical requirement for a meaningful attention over entities is to incorporate information extraction capability in the number and date attention maps Anum and Adate, by enabling the model to attend over the neighborhood of the relevant entity mentions. 実体に対して意味のある注意を向けるための重要な要件は、関連エンティティの言及する近傍にモデルを参加させることにより、番号と日付の注意マップに情報抽出機能を組み込むことである。 0.76
This is achieved by minimizing the unsupervised auxiliary losses Lnum aux in the training objective, which impose an inductive bias over the number and date entities, similar to Gupta et al. これはトレーニング目的において教師なしの補助的損失lnum auxを最小化し、guptaやalと同様の数と日付のエンティティに対して帰納的バイアスを課すことによって達成される。 0.60
(2020). Its purpose is to ensure that the passage attention is densely distributed inside the neighborhood of ± Ω (a hyperparameter, e.g., 10) of the passage location of the entity mention, without imposing any bias on the attention distribution outside the neighborhood. (2020). その目的は、通過注意が近隣の注意分布に偏りを課すことなく、エンティティの通過位置の± Ω(ハイパーパラメータ、例えば10)の近傍に密分布することを確実にすることである。
訳抜け防止モード: (2020). その目的は、通過注意がエンティティの通過位置の± Ω(ハイパーパラメータ、例:10 )の近傍に密分布していることを保証することである。 近所の外の注意分布に 偏見を課すことなく
0.77
Consequently, it maximises the log-form of cumulative likelihood of the attention distribution inside the window and the entropy of the attention distribution outside of it. これにより、窓内における注意分布の累積可能性のログ形式と、その外における注意分布のエントロピーを最大化する。 0.78
k = softmax((cid:80) k = softmax((cid:80) 0.94
aux and Ldate aux と Ldate 0.82
(i, j) = P T (i, j) = P T 0.85
= {τ ω i αω = {τ ω i αω 0.87
kiAnum k k kiAnum k k 0.85
k k k Lnum aux = − 1 l k k k Lnum aux = − 1 l 0.85
l(cid:88) (cid:20) m(cid:88) l(cid:88) (cid:20)m(cid:88) 0.81
N(cid:88) [ log( N(cid:88) log (複数形 logs) 0.65
kij ) − N(cid:88) kij ) − N(cid:88) 0.94
1nj∈[i± Ω]anum 1nj∈[i± y]anum 0.83
1nj(cid:54)∈[i± Ω]anum kij 1nj(cid:54)∈[i± s]anum kij 0.96
k=1 i=1 j=1 k=1 i=1 j=1 0.59
j=1 (cid:21) j=1 (cid:21) 0.69
log(anum log(anum ) 0.88
kij )] (1) Kij )] (1) 0.69
where 1 is indicator function and anum 1 は指標関数と anum です 0.70
kij = Anum Kij = Anum 0.73
k (i, j). Ldate k (i, j)。 日付 0.75
aux for date entities is similarly defined. date エンティティの aux も同様に定義されます。 0.63
4 4 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Figure 3: Operator & Argument Sampling Network and RL framework over sampled discrete actions 図3:サンプル離散動作上の演算子&引数サンプリングネットワークとRLフレームワーク 0.86
2.1.2 MODELING DISCRETE REASONING 2.1.2 モデル離散推論 0.56
The model next learns to execute a single step1 of discrete reasoning (Figure 3) based on the final program step. 次に、最終的なプログラムステップに基づいて、離散的推論の単一のステップ1を実行することを学習する(図3)。
訳抜け防止モード: 次にモデルが学ぶのは 最終プログラムステップに基づいて離散推論(図3)の単一のステップ1を実行する。
0.86
The final step contains (i) root-clause of the query which often indicates the type of discrete operation (e.g., ‘what is the longest’ indicates max, ‘how many goals’ indicates count), and (ii) reference argument indicating the previous program steps the final step depends on. 最後のステップには、(i) 分離操作のタイプを示すクエリのroot-clause(例えば、「最も長いもの」が最大値を示し、「何つの目標」がカウントを示すか)、(ii) 最後のステップが依存する前のプログラムステップを示す参照引数が含まれている。 0.82
Each previous step (say k) is represented as stacked attention maps T num , obtained from §2.1.1. それぞれの前のステップ(例えば k )はスタックされた注意写像 T num として表される。 0.63
and T date k k Operator Sampling Network Owing to the noisy nature of the program, the operator network takes as input: (i) BERT’s [CLS] representation for the passage-query pair and LSTM (Hochreiter & Schmidhuber, 1997) encoding (randomly initialized) of the BERT contextual representation of (ii) the root-clause from the final program step and (iii) full query (w.r.t. T 日付 k k 演算子サンプリングネットワーク (Operator Smpling Network) は、プログラムのノイズの性質から、 (i) BERT のパスクエリ対に対する[CLS] 表現と LSTM (Hochreiter & Schmidhuber, 1997) の BERT コンテキスト表現の (ランダムに初期化) を符号化する (ii) 最終プログラムステップからのルートクロースと (iii) 完全クエリ (w.r.t) である。 0.76
passage), to make two predictions: 2つの予測を行うためのパス)。 0.61
• Entity-Type Predictor Network, an Exponential Linear Unit (Elu) activated fully-connected layer • Entity-Type Predictor Network, Exponential Linear Unit (Elu) 活性化完全接続層 0.95
followed by a softmax that outputs the probabilities of sampling either date or number types. 次に、日付または数値の型をサンプリングする確率を出力するソフトマックスが続く。 0.71
• Operator Predictor Network, a similar Elu-activated fully connected layer followed by a softmax which learns a probability distribution over a fixed catalog of 6 numerical and logical operations (count, max, min, sum, diff, negate), each represented with learnable embeddings. • 演算子予測器ネットワーク(Elu-activated full connected layer)、それに続くソフトマックス(Softmax)は、6つの数値および論理演算(count, max, min, sum, diff, negate)の固定されたカタログ上の確率分布を学習可能な埋め込みで表現する。 0.79
Apart from the diff operator which acts only on two arguments, all other operations can take any arbitrary number of arguments. 2つの引数にのみ作用するdiff演算子とは別に、他のすべての演算は任意の数の引数を取ることができる。 0.67
Also some of these operations can be applied only on numbers (e.g., sum, negate) while others can be applied on both numbers or date (e.g., max, count). また、これらの演算のいくつかは数(例えばsum、negate)にのみ適用でき、その他の演算は数または日付(例えばmax、count)にも適用できる。 0.84
Argument Sampling Network This network learns to sample date/number entities as arguments for the sampled discrete operation, given the entity-specific stacked attentions (T num and T date ) for each previous step (say, k), that appears in the reference argument of the final program step. 引数サンプリングネットワーク このネットワークは、最終プログラムステップの参照引数に現れる前のステップ(例えば、k)ごとにエンティティ固有のスタックされた注意(T numとT日付)を考えると、サンプリングされた離散操作の引数として日付/数値エンティティをサンプリングすることを学びます。 0.75
In order to allow sampling of fixed or arbitrary number of arguments, the argument sampler learns four types of networks, each modeled with a L-layered stacked self attention based T ransf ormer block (with output dimension d) followed by different non-linear layers embodying their functionality and a softmax normalization to get the corresponding probability of the argument sampling (Figure 3). 任意の数の引数のサンプリングを可能にするために、引数サンプリング器は4つのタイプのネットワークを学習し、それぞれがl層重ねられた自己注意型t ransfオーマーブロック(出力次元d)をモデルとし、続いてそれらの機能を具現化した異なる非線形層と、引数サンプリングの対応する確率を得るためにsoftmax正規化を行う(図3)。 0.74
• Sample n ∈ {1, 2} Argument Module: softmax(Elu(Lineard×n(T ransf ormer(T )))), outputs a distribution over the single entities (n = 1) or a joint distribution over the entity-pairs (n = 2). • サンプル n ∈ {1, 2} 引数加群: softmax(elu(lineard×n(t ransf ormer(t )))) 単一のエンティティ (n = 1) 上の分布またはエンティティペア (n = 2) 上のジョイント分布を出力する。 0.79
• Counter Module: softmax(Elu(Lineard×10(CN N-Encoder(T ransf ormer(T ))))), predicts a distribution over possible count values (∈ [1, . •カウンタモジュール:softmax(Elu(Lineard ×10(CN N-Encoder(T ransf ormer(T ))))は、可能なカウント値(∈ [1, ...)上の分布を予測します。
訳抜け防止モード: •カウンタモジュール : Softmax(Elu(Lineard×10(CN N - Encoder(T ransf ormer(T ) ) ) ) 可能なカウント値 ( ∈ [ 1, ) 上の分布を予測する。
0.89
. . , 10]) of number of entity arguments to sample. . . , 10]) サンプルとなるエンティティ引数の数です。 0.78
• Entity-Ranker Module: softmax(P Relu(Lineard×1(T ransf ormer(T )))), learns to rerank the entities and outputs a distribution over all the entities given the stacked attention maps as input. • entity-ranker module: softmax(p relu(lineard×1(t ransf ormer(t ))))) エンティティの再ランク付けを学び、スタックされた注意マップを入力として、すべてのエンティティに分散を出力する。 0.73
• Sample Arbitrary Argument: M ultinomial(Entity-Ra nked Distribution, Counter Prediction). • サンプル任意の引数: m ultinomial(entity-ra nked distribution, counter prediction)。 0.87
k k Depending on the number of arguments needed by the discrete operation and the number of reference arguments in the final program step, the model invokes one of Sample {1, 2, Arbitrary} Argument. k k 離散演算で必要とされる引数の数と最終プログラムステップにおける参照引数の数によって、モデルはSample {1, 2, Arbitrary} Argumentの1つを呼び出す。 0.83
For instance, if the sampled operator is diff which needs 2 arguments, and the final step has 1 or 2 reference arguments, then the model respectively invokes either Sample 2 argument or Sample 1 argument on the stacked attention T corresponding to each reference argument. 例えば、サンプル作用素がdiffで2つの引数が必要で、最終ステップが1または2つの参照引数を持つ場合、モデルはそれぞれ参照引数に対応するスタックされた注目T上のサンプル2引数またはサンプル1引数を呼び出します。 0.82
And, for operations needing arbitrary number of arguments, the model invokes the Sampling Arbitrary Argument. そして、任意の数の引数を必要とする操作に対して、モデルはSmpling Arbitrary Argumentを呼び出す。 0.70
For the 1This is a reasonable assumption for DROP with a recall of 90% on the training set. その為 1 これは、トレーニングセットで90%のリコールを持つドロップの合理的な仮定である。 0.59
However, it does not しかし、そうではない。 0.69
limit the generalizability of WNSMN, as with standard beam search it is possible to scale to an l-step MDP. WNSMN の一般化性を制限するため、標準ビームサーチと同様に l-step MDP にスケールすることができる。 0.78
5 5 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Arbitrary Argument case, the model first predicts the number of entities c ∈ {1, . 任意引数の場合、モデルはまず c ∈ {1, . の実体の数を予測する。 0.69
. . , 10} to sample using the Counter Network, and then samples from the multinomial distribution based on the joint of c-combinations of entities constructed from the output distribution of the Entity Ranker module. . . 次に、Entity Rankerモジュールの出力分布から構築されたエンティティのc-コンビネーションのジョイントに基づいて、Counter Networkを用いてサンプルをサンプリングする。
訳抜け防止モード: . . .10 } カウンタネットワークを使ってサンプルを作成する。 そして、cの結合に基づく多項分布からのサンプル - エンティティランカモジュールの出力分布から構築されたエンティティの組み合わせ。
0.85
2.1.3 TRAINING WITH WEAK SUPERVISION IN THE DEEP RL FRAMEWORK 2.1.3 深部RLフレームの耐震性トレーニング 0.65
We use an RL framework to train the model with only discrete binary feedback from the exact match of the gold and predicted numerical answer. 金の正確な一致と予測された数値解から離散的なバイナリフィードバックだけでモデルをトレーニングするためにrlフレームワークを使用する。 0.70
In particular, we use the REINFORCE (Williams, 1992) policy gradient method where a stochastic policy comprising a sequence of actions is learned with the goal of maximizing the expected reward. 特に、一連の行動からなる確率的政策が、期待される報酬を最大化することを目的として学習される強化(williams, 1992)政策勾配法を用いる。 0.70
In our case, the discrete operation along with argument sampling constitute the action. この場合、引数サンプリングとともに離散的な操作がアクションを構成します。 0.68
However, because of our assumption that a single step of discrete reasoning suffices for most questions in DROP, we further simplify the RL framework to a contextual multi-arm bandit (MAB) problem with a 1-step MDP, i.e., the agent performs only one step action. しかし、DROPのほとんどの質問に対して単離的な推論が十分であるという仮定のため、RLフレームワークをさらに単純化し、1ステップのMDP、すなわちエージェントが1ステップのアクションのみを実行する文脈的マルチアームバンディット(MAB)問題にします。 0.76
Despite the simplifying assumption of 1-step MDP, the following characteristics of the problem render it highly challenging: (i) the action space A is exponential in the order of number of operations and argument entities in the passage (averaging to 12K actions for DROP-num); (ii) the extreme reward sparsity owing to the binary feedback is further exacerbated by the presence of spurious rewards, as the same answer can be generated by multiple diverse actions. 1段階のMDPの仮定を単純化したにもかかわらず、以下の問題の特徴は、非常に困難である: (i) アクション空間 A は、通過中の操作数や引数エンティティの順番で指数関数的である(DROP-numの12Kアクションに比例する); (ii) バイナリフィードバックによる極端な報酬空間は、複数の多様なアクションによって同じ答えが生成されるため、さらに悪化する。 0.78
Note that previous approaches like NMN can avoid such spurious supervision because they heuristically obtain additional annotation of the question category, the gold program or gold program execution atleast for some training instances. nmnのような以前のアプローチは、一部のトレーニングケースで質問カテゴリ、ゴールドプログラム、ゴールドプログラム実行atleastの追加アノテーションをヒューリスティックに取得するため、このようなスプリアスな監督を避けることができる。 0.57
In our contextual MAB framework, for an input x = (passage(p), query(q)), the context or environment state sφ(x) is modeled by the entity specific cross attention (§2.1.1, parameterized by φ) between the (i) passage (ii) program-form of the query and (iii) extracted passage date/number entities. 我々の文脈 mab フレームワークでは、入力 x = (passage(p), query(q)) に対して、コンテキストまたは環境状態 sφ(x) は、クエリの (i) パス (ii) プログラム形式と (iii) 抽出されたパッセージ/ナンバーエンティティの間のエンティティ固有のクロスアテンション (2.1.1, φ) によってモデル化される。 0.79
Given the state sφ(x), the layout policy (§2.1.2, parameterized by θ) then learns the query-specific inference layout, i.e., the discrete action sampling policy Pθ(a|sφ(x)) for action a ∈ A. 状態 sφ(x) が与えられると、レイアウトポリシー (2.1.2, θ でパラメータ化される) は、アクション a ∈ a に対するクエリ固有の推論レイアウト、すなわち離散的アクションサンプリングポリシー pθ(a|sφ(x)) を学習する。 0.71
The action sampling probability is a product of the probability of sampling entities from the appropriate entity type (P type ), probability of sampling the operator (P op θ ), and probability of sampling the entity argument(s) (P arg ), normalized by number of arguments to sample. アクションサンプリング確率は、適切なエンティティタイプ(Pタイプ)からエンティティをサンプリングする確率、演算子をサンプリングする確率(Pオピニオン)、および実体引数をサンプリングする確率(P arg)の積であり、サンプルへの引数の数によって正規化される。 0.74
Therefore, with the learnable context representation sφ(x) of input x, the end-to-end objective is to jointly learn {θ, φ} that maximises the expected reward R(x, a) ∈ {−1, +1} over the sampled actions (a), based on exact match with the gold answer. したがって、入力 x の学習可能な文脈表現 sφ(x) を用いて、最終目的は、金の答えとの正確な一致に基づいて、サンプリングされた作用 (a) に対して期待される報酬 R(x, a) ∈ {−1, +1} を最大化する {θ, φ} を共同で学習することである。 0.69
To mitigate the learning instability in such sparse confounding reward settings, we intialize with a simpler iterative hard-Expectation Maximization (EM) learning objective, called Iterative Maximal Likelihood (IML) (Liang et al., 2017). このような疎結合な報酬設定における学習不安定性を軽減するため,IML(Iterative Maximal Likelihood, Liang et al., 2017)と呼ばれる,より単純な反復的ハードエクスプロメーション最大化(EM)学習目標を工夫した。 0.70
With the assumption that the sampled actions are extensive enough to contain the gold answer, IML greedily searches for the good actions by fixing the policy parameters, and then maximises the likelihood of the best action that led to the highest reward. サンプリングされたアクションがゴールドの答えを含むほど広範囲であると仮定して、IMLはポリシーパラメータを修正して良いアクションを熱心に検索し、最高の報酬につながる最高のアクションの可能性を最大化します。 0.75
We define good actions (Agood) as those that result in the gold answer itself and take a conservative approach of defining best among them as simply the most likely one according to the current policy. 私たちは、良い行動(Agood)を黄金の答え自体につながるものとして定義し、それらの中でベストを現在のポリシーに従って単に最も可能性の高いものとして定義する保守的なアプローチを取ります。 0.67
θ θ J IM L(θ, φ) = θ θ J IM L(θ, φ) = 0.85
max a∈Agood max a∈Agood 0.71
log Pθ,φ(a|x) log Pθ,φ(a|x) 0.86
(2) (cid:88) (2) (cid:88) 0.82
where the goal is to maximise the expected reward (J RL(θ, φ) =(cid:80) 目標が期待される報酬を最大化すること(j rl(θ, φ) =(cid:80) 0.82
x After the IML initialization, we switch to REINFORCE as the learning objective after a few epochs, x IMLの初期化後、いくつかの時代を経て学習目標としてREINFORCEに切り替えます。 0.75
EPθ,φ(a|x)R(x, a)) as EPθ,φ(a|x)R(x, a)) 0.92
x ∇(θ,φ)J RL = x シュ(θ,φ)J RL = 0.83
Pθ,φ(a|x)(R(x, a) − B(x))∇θ,φ(log Pθ,φ(a|x)) Pθ,φ(a|x)(R(x, a) − B(x)) =θ,φ(log Pθ,φ(a|x)) 0.96
(3) (cid:88) (3) (cid:88) 0.82
(cid:88) x (cid:88) x 0.82
a∈A where B(x) is simply the average (baseline) reward obtained by the policy for that instance x. a∈A ここで、B(x) は単にそのインスタンス x のポリシーによって得られる平均(ベースライン)報酬です。 0.70
Further, in order to mitigate overfitting, in addition to L2-regularization and dropout, we also add entropy based regularization over the argument sampling distribution, in each of the sampling networks. さらに,オーバーフィッティングを緩和するために,l2正規化とドロップアウトに加えて,各サンプリングネットワークにおいて,引数サンプリング分布にエントロピーに基づく正規化を加える。 0.80
3 EXPERIMENTS We now empirically compare the exact-match performance of WNSMN with SoTA baselines on versions of DROP dataset and also examine how it fares in comparison to strong supervised skylines. 実験3 WNSMNの正確なマッチング性能とDROPデータセットのバージョンのSoTAベースラインを実証的に比較し、強い教師付きスカイラインと比較してどう運がよいかを検証した。 0.60
The Primary Baselines for WNSMN are the explicit reasoning based NMN (Gupta et al., 2020) WNSMNの一次ベースラインは明示的推論に基づくNMN(Gupta et al., 2020)である 0.87
6 6 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
which uses additional strong supervision and the BERT based language model GenBERT (Geva et al., 2020) that does not embody any reasoning and autoregressively generates numeric answer tokens. さらなる強力な監督とBERTベースの言語モデルGenBERT(Geva et al., 2020)を使用し、推論を具現化せず、自動回帰的に数値的な応答トークンを生成する。 0.69
As the Primary Dataset we use DROP-num, the subset of DROP with numerical answers. プライマリデータセットとして、DROPのサブセットであるDROP-numを数値応答で使用します。 0.63
This subset contains 45K and 5.8K instances respectively from the standard DROP train and development sets. このサブセットは、標準のDROPトレインと開発セットからそれぞれ45Kおよび5.8Kインスタンスを含む。 0.73
Originally, NMN was showcased on a very specific subset of DROP, restricted to the 6 reasoning-types it could handle, out of which three (count, date-difference, extract-number) have numeric answers. 当初、nmnはdropの非常に特定のサブセットに表示され、処理可能な6つの推論型に制限され、そのうち3つ(count、date-difference、extract-number)は数値的回答を持つ。 0.64
This subset comprises 20K training and 1.8K development instances, out of which only 10K and 800 instances respectively have numerical answers. このサブセットは20Kトレーニングと1.8K開発インスタンスで構成されており、そのうち10Kインスタンスと800インスタンスがそれぞれ数値回答を持っている。 0.60
We further evaluate on this numerical subset, referred to as DROP-Pruned-num. DROP-Pruned-numと呼ばれるこの数値サブセットについてさらに評価する。 0.62
In both the cases, the training data was randomly split into 70%:30% for train and internal validation and the standard DROP development set was treated as the Test set. いずれの場合も、トレーニングデータは電車と内部検証の70%:30%にランダムに分割され、標準のDROP開発セットはテストセットとして扱われた。 0.77
Figure 4 shows the t-SNE plot of pretrained Sentence-BERT (Reimers & Gurevych, 2019) encoding of all questions in DROPnum-Test and also the DROP-Pruned-num-Test subset with different colors (red, green, yellow) representing different types. 図4は、DROPnum-Testのすべての質問のプリトレーニングされたSentence-BERT(Reimer s & Gurevych、2019)のt-SNEプロットと、異なるタイプを表す異なる色(赤、緑、黄色)のDROP-Pruned-num-Test サブセットを示しています。
訳抜け防止モード: 図4は、事前訓練された文のt-SNEプロットを示しています。 DROPnum - Testのすべての質問のエンコーディング DROP - Pruned - num - 異なる色(赤、緑、黄色)で異なる型を表すテストサブセット。
0.67
Not only are the DROP-num questions more diverse than the carefully chosen DROP-Pruned-num subset, the latter also forms well-separated clusters corresponding to the three reasoning types. DROP-num質問は、慎重に選択されたDROP-Pruned-numサブセットよりも多様であるだけでなく、後者は3つの推論タイプに対応するよく分離されたクラスタを形成する。 0.59
Additionally, the average perplexity (using nltk) of the DROP-Pruned-num and DROP-num questions was found to be 3.9 and 10.65 respectively, further indicating the comparatively open-ended nature of the former. さらに、DROP-Pruned-num と DROP-num の平均パープレキシティ (nltk) はそれぞれ 3.9 と 10.65 であり、前者の比較的オープンな性質を示している。 0.68
For the primary baselines NMN and GenBERT, we report the performance on in-house trained models on the respective datasets, using the code open-sourced by the authors. 主要なベースラインであるNMNとGenBERTでは、著者によってオープンソース化されたコードを使用して、各データセットの社内トレーニングモデルのパフォーマンスを報告します。 0.63
The remaining results, taken from Geva et al. 残りの結果はgeva et alから引用された。 0.68
(2020), Kinley & Lin (2019), and Ran et al. (2020年)、Kinley & Lin (2019年)、Ran et al。 0.74
(2019); refer to models trained on the full DROP dataset. (2019); 全DROPデータセットでトレーニングされたモデルを参照。 0.77
All models use the same pretrained BERT-base. すべてのモデルは、同じトレーニング済みのBERTベースを使用します。 0.43
Also note that a primary requirement of all models other than GenBERT and WNSMN i.e., for NMN, MTMSN, NABERT, NAQANET, NumNet, is the exhaustive enumeration of the output space of all possible discrete operations. また、GenBERT や WNSMN 以外の全てのモデル、すなわち NMN, MTMSN, NABERT, NAQANET, NumNet に対する第一の要件は、可能な全ての離散演算の出力空間を包括的に列挙することである。 0.89
This simplifies the QA task to a classification setting, thus alleviating the need for discrete reasoning in the inference processs. これはQAタスクを分類設定に単純化し、推論プロセスにおける離散的推論の必要性を軽減する。 0.76
Table 1 presents our primary results on DROP-num, comparing the performance of WNSMN (accuracy of the top-1 sampled action by the RL agent) with various ablations of NMN (provided in the authors’ implementation) by removing atleast one of Program, Execution, and Query Attention supervision (Appendix A.4.1) and GenBERT models with pretrained BERT that are finetuned on DROP or DROP-num (denoted as GenBERT and GenBERT-num). 表1は、プログラム、実行、クエリアテンションの監視(付録A.4.1)およびDROPまたはDROP-numで微調整されたGenBERTモデル(GenBERTおよびGenBERT-numとして定義)の少なくとも1つを削除することにより、WNSMN(RLエージェントによるトップ1サンプリングされたアクションの精度)とNMNのさまざまなアブレーション(著者の実装で提供される)のパフォーマンスを比較し、DROP-numに関する主な結果を示しています。 0.73
For a fair comparison with our weakly supervised model, we do not treat NMN with all forms of supervision or GenBERT model pretrained with additional synthetic numerical and textual data as comparable baselines. 弱教師付きモデルと公正に比較するために、NMNを全ての形式の監督やGenBERTモデルで扱うのではなく、追加の合成数値とテキストデータを同等のベースラインとして事前訓練する。 0.64
Note that these GenBERT variants indeed enjoy strong reasoning supervision in terms of gold arithmetic expressions provided in these auxiliary datasets. これらのGenBERTバリエーションは、これらの補助データセットで提供される金の算術表現の点で強力な推論監督を受けていることに注意してください。 0.49
NMN’s performance is abysmally poor, indeed a drastic degradation in comparison to its performance on the pruned DROP subset reported by Gupta et al. NMNのパフォーマンスは、Guptaらによって報告されたpruned DROPサブセットのパフォーマンスと比較して、明らかに大幅に低下している。 0.69
(2020) and in our subsequent experiments in Table 2. (2020)と、その後の表2での実験で。 0.75
This can be attributed to their limitation in handling more diverse classes of reasoning and open-ended queries in DROP-num, further exacerbated by the lack of one or more types of strong supervision.2 Our earlier analysis on the complexity of the questions in the subset and full DROP-num further quantify the relative difficulty level of the latter. これは、より多様な推論クラスとオープンエンドクエリをdrop-numで扱うことの制限に起因しており、さらに1つ以上の強い監督の欠如によってさらに悪化している。2 サブセットにおける質問の複雑さに関する初期の分析と完全なdrop-numは、後者の相対的難易度レベルをさらに定量化している。 0.55
On the other hand, GenBERT delivers a mediocre performance, while GenBERT-num degrades additionally by 4%, as learning from numerical answers alone further curbs the language modeling ability. 一方、GenBERTは平凡なパフォーマンスを提供しますが、GenBERT-numは数値の回答だけで学習することで言語モデリング能力をさらに低下させるため、さらに4%低下します。 0.65
Our model performs significantly better than both these baselines, surpassing GenBERT by 8% and the NMN baseline by around 32%. 私たちのモデルは、GenBERTを8%、NMNのベースラインを約32%超え、これらのベースラインの両方よりも大幅に優れています。
訳抜け防止モード: 私たちのモデルはどちらのベースラインよりも大幅に優れています。 GenBERTを8%、NMNベースラインを約32%上回る。
0.69
This showcases the significance of incorporating explicit reasoning in neural models in comparison to the vanila large scale LMs like GenBERT. これは、GenBERTのようなバニラ大規模LMと比較して、神経モデルに明示的な推論を組み込むことの重要性を示しています。
訳抜け防止モード: これは 神経モデルに明示的な推論を組み込むことは、genbertのようなvanila large scale lmsと比較する。
0.66
It also establishes the generalizability of such reasoning このような推論の一般化可能性も確立します 0.56
Table 1: DROP-num-Test Performance of Baselines and WNSMN. 表1: DROP-num-Test Performance of Baselines and WNSMN 0.86
Figure 4: t-SNE plot of DROPnum-Test questions. 図4: DROPnum-Test質問のt-SNEプロット。 0.60
              0.85
       GenBERT         GenBERT  0.85
Supervision Type Acc. スーパービジョンタイプAcc。 0.57
(%) Prog. Exec. (%) であった。 Exec 0.60
QAtt. 11.77 17.52 18.27 18.54 12.27 11.80 11.70 QAtt。 11.77 17.52 18.27 18.54 12.27 11.80 11.70 0.60
  WNSMN   WNSMNとは? 0.69
 NMN-num variants  NMN-num 変種 0.74
GenBERT-num GenBERT-num 0.59
              0.85
    42.30     42.30 0.80
38.41 50.97 38.41 50.97 0.59
2Both the results and limitations of NMN in Table1 and 2 were confirmed by the authors of NMN as well. 2 表1および2におけるNMNの結果と限界はNMNの著者らによって確認された。 0.85
7 7 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
. Supervision-Type . スーパービジョン型 0.62
Acc. (%) Count Extract- Acc。 (%) Count Extract- 0.90
Table 2: DROP-Pruned-num-Test Performance of NMN variants and WNSMN 表2: DROP-Pruned-num-Test Performance of NMNvariants and WNSMN 0.78
based models to more open-ended forms of QA, in comparison to contemporary modular networks like NMN, owing to its ability to handle both learnable and discrete modules in an end-to-end manner. 学習可能モジュールと離散モジュールの両方をエンドツーエンドで扱う能力があるため、nmnのような現代モジュールネットワークと比較して、よりオープンなqa形式へのベースモデル。 0.72
Next, in Table 2, we compare the performance of the proposed WNSMN with the same NMN variants (as in Table 1) on DROP-Pruned-num. 次に、テーブル2では、提案されたWNSMNとDROP-Pruned-num上の同じNMNバリアント(表1のように)のパフォーマンスを比較します。 0.71
Some of the salient observations are: (i) WNSMN in fact reaches a performance quite close to the strongly supervised NMN variant (first row), and is able to attain at least an improvement margin of 4% over all other variants obtained by removing one or more types of supervision. i) WNSMNは、実際には、強く監視されたNMN変種(最初の行)にかなり近い性能に達し、1つ以上のタイプの監督を取り除くことによって得られた他のすべての変種よりも少なくとも4%の改善マージンを達成することができます。 0.73
This is despite all variants of NMN additionally enjoying the exhaustive precompution of the output space of possible numerical answers; (ii) WNSMN suffers only in the case of extract-number type operations (e.g., max,min) that involve a more complex process of sampling arbitrary number of arguments (iii) Performance drop of NMN is not very large when all or none of the strong supervision is present, possibly because of the limited diversity over reasoning types and query language; and (iv) Query-Attention supervision infact adversely affects NMN’s performance, in absence of the program and execution supervision or both, possibly owing to an undesirable biasing effect. This is despite all variants of NMN additionally enjoying the exhaustive precompution of the output space of possible numerical answers; (ii) WNSMN suffers only in the case of extract-number type operations (e.g., max,min) that involve a more complex process of sampling arbitrary number of arguments (iii) Performance drop of NMN is not very large when all or none of the strong supervision is present, possibly because of the limited diversity over reasoning types and query language; and (iv) Query-Attention supervision infact adversely affects NMN’s performance, in absence of the program and execution supervision or both, possibly owing to an undesirable biasing effect. 0.89
However when both supervisions are available, query-attention is able to improve the model performance by 5%. しかし、両方の監視が利用できる場合、クエリアテンテンションはモデルのパフォーマンスを5%向上させることができます。 0.55
Further, we believe the test set of 800 instances is too small to get an unbiased reflection of the model’s performances. さらに、800インスタンスのテストセットが小さすぎて、モデルのパフォーマンスの偏りのない反映が得られないと考えている。 0.74
In Table 3, we additionally inspect recall over the top-k actions sampled by WNSMN to estimate how it fares in comparison to the strongly supervised skylines: (i) NMN with all forms of strong supervision; (ii) GenBERT variants +ND, +TD and +ND+TD further pretrained on synthetic Numerical and Textual Data and both; (iii) reasoning-free hybrid models like MTMSN (Hu et al., 2019) and NumNet (Ran et al., 2019), NAQANet (Dua et al., 2019) and NABERT, NABERT+ (Kinley & Lin, 2019). 表3では、wnsmnによってサンプリングされたトップkアクションのリコールを、強く監督されたスカイラインと比較して見積もる: (i) すべての形態の強い監督を持つnmn、 (ii) genbert variants +nd, +td and +nd+td 合成数値とテキストのデータと両方でさらに訓練された、 (iii) reasoning-free hybrid models like mtmsn (hu et al., 2019) and numnet (ran et al., 2019)、naqanet (dua et al., 2019)、nabert, nabert+ (kinley & lin, 2019)。 0.76
Note that both NumNet and NAQANet do not use pretrained BERT. NumNetとNAQANetはどちらも、事前訓練されたBERTを使用しない。 0.49
MTMSN achieves SoTA performance through a supervised framework of training specialized predictors for each reasoning type to predict the numerical expression directly instead of learning to reason. mtmsnは、推論タイプごとに特殊予測子を訓練し、推論を学習する代わりに直接数値表現を予測する教師付きフレームワークにより、soma性能を達成する。 0.55
While top-1 performance of WNSMN (in Table 1) is 4% worser than NABERT, Recall@top-2 is equivalent to the strongly supervised NMN, top-5 and top-10 is comparable to NABERT+, NumNet and GenBERT models +ND, +TD and top-20 nearly achieves SoTA. WNSMN (テーブル1) のトップ1のパフォーマンスは NABERT よりも4%悪いが、Recall@top-2 は強力な教師付き NMN に相当し、トップ5 と Top-10 は NABERT+, NumNet と GenBERT モデル +ND, +TD に匹敵する。 0.85
Such promising recall over the top-k actions suggests that more sophisticated RL algorithms with better exploration strategies can possibly bridge this performance gap. トップKアクションに対するこのような有望なリコールは、より良い探索戦略を備えたより洗練されたRLアルゴリズムがこのパフォーマンスギャップを埋めることができることを示唆している。
訳抜け防止モード: トップ上でのこのような有望なリコール - k アクションは より良い探索戦略を備えたより洗練されたrlアルゴリズムは、このパフォーマンスギャップを埋める可能性がある。
0.46
Prog. Exec. QAtt. Prog Exec QAtt。 0.60
NMN-num Variants                 NMN-num Variants                 0.94
68.6 42.4 54.3 63.3 48.2 61.0 62.3 62.1 68.6 42.4 54.3 63.3 48.2 61.0 62.3 62.1 0.42
88.4 73.9 80.7 81.1 72.4 81.1 84.1 83.6 88.4 73.9 80.7 81.1 72.4 81.1 84.1 83.6 0.42
72.5 36.4 40.9 68.7 41.9 63.2 67.7 66.1 72.5 36.4 40.9 68.7 41.9 63.2 67.7 66.1 0.42
50.0 24.1 47.9 45.5 38.1 44.7 43.7 46.8 50.0 24.1 47.9 45.5 38.1 44.7 43.7 46.8 0.42
                0.85
 WNSMN num  WNSMN ナム 0.71
Datediffer   66.5 日付差   66.5 0.63
58.8 66.8 75.2 58.8 66.8 75.2 0.59
4 ANALYSIS & FUTURE WORK 4 分析と今後の課題 0.76
Table 3: Skylines & WNSMN topk performance on DROP-num-Test 表3:skylines & wnsmn topk performance on drop-num-test 0.71
Performance Analysis Despite the notorious instabilities of RL due to high variance, the training trend, as shown in Figure 5(a) is not afflicted by catastrophic forgetting. パフォーマンス分析 高いばらつきによるRLの悪名高い不安定性にもかかわらず、図5(a)に示すように、トレーニングの傾向は壊滅的な忘れに悩まされません。 0.71
The sudden Strongly Supervised Models Acc. 高度に監督されたモデルAcc。 0.50
(%) performance jump between epochs 10-15 is because of switchNMN-num (all supervision) ing from iterative ML initialization to REINFORCE objective. epochs 10-15間の(%)パフォーマンスジャンプは、反復ML初期化からREINFORCE目標へのswitchNMN-num(すべての監督)ingによるものです。 0.61
GenBERT+ND Figure 5(b) shows the individual module-wise performance GenBERT+TD evaluated using the noisy pseudo-rewards, that indicate whether GenBERT+ND+TD the action sampled by this module led to the correct answer NAQANet or not (details in Appendix A.6). GenBERT+ND図5(b)は、ノイズのある擬似逆数を用いて評価された個々のモジュールワイドパフォーマンスGenBERT+TDを示し、このモジュールによってサンプリングされたアクションがNAQANetの正解に至ったかどうかを示す(Appendix A.6の詳細)。 0.66
Further, by bucketing the NABERT performance by the total number of passage entities in Figure NABERT+ 5(c), we observe that WNSMN remains unimpacted by the NumNet increasing number of date/numbers, despite the action space MTMSN explosion. さらに、図NABERT+5(c)の通過要素の総数でNABERTの性能をバケット化することにより、アクション空間MTMSNの爆発にもかかわらず、NumNetの増加によりWNSMNは影響を受けないことが明らかとなった。
訳抜け防止モード: さらに、図 NABERT+ 5(c) のパスエンティティの総数で NABERT のパフォーマンスをバケット化する。 We observed that WNSMN remains unimpaced by the NumNet increase number of date/ numbers, while the action space MTMSN explosion。
0.78
On the other hand, GenBERT’s performance drops Recall@top-k actions of WNSMN (%) linearly beyond 25 passage entities and NMN-num degrades exk = 2 k = 3 k = 4 k = 5 k = 10 k = 20 ponentially from the beginning, owing to its direct dependency 58.6 74.2 on the exponentially growing exhaustively precomputed output space. 一方、GenBERT のパフォーマンスは WNSMN (%) の Recall@top-k アクションを 25 の通過実体を超えて直線的に低下させ、NMN-num degrades exk = 2 k = 3 k = 4 k = 5 k = 10 k = 20 は最初から指数関数的に低下する。
訳抜け防止モード: 一方、GenBERT のパフォーマンスは、25のパスエンティティよりも線形に WNSMN ( % ) の k アクションを Recall@top - k に落とします。 NMN - num degrades exk = 2 k = 3 k = 4 k = 5 k = 10 k = 20 を最初から指数的に分解する。 指数関数的に増大する出力空間への直接依存 58.6 74.2 のため。
0.73
58.10 69.20 70.50 75.20 44.97 54.27 66.60 69.74 75.00 58.10 69.20 70.50 75.20 44.97 54.27 66.60 69.74 75.00 0.42
63.0 65.4 67.4 63.0 65.4 67.4 0.59
72.3 8 72.3 8 0.72
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Module Sample 1 Argument Sample 2 Argument Counter Entity Ranker Operator Predictor Entity Type Predictor Overall Action Sampler 84% (Rec@All) Module Sample 1 Argument Sample 2 Argument Counter Entity Ranker Operator Predictor Entity Type Predictor overall Action Sampler 84% (Rec@All) 0.85
Performance 54% (Acc.) パフォーマンスは54%(Acc)。 0.84
52% —"— 50% —"— 53% —"— 78% —"— 83% —"— 52% —"— 50% —"— 53% —"— 78% —"— 83% —"— 0.52
Figure 5: (a) Training trend showing the Recall@top-k and all actions, accuracy of Operator and Entity-type Predictor, estimated based on noisy psuedo rewards (Appendix A.6), (b) Module-wise performance (using pseudo-reward) on DROP-num-Test, (c) Bucketing performance by total number of passage entities for WNSMN, and the best performing NMN and GenBERT model from Table 1. 図5:(a)Recall@top-kとすべてのアクションを示すトレーニングトレンド、騒々しいpsuedo報酬(付録A.6)に基づいて推定されたOperatorとEntity-type Predictorの精度、(b)DROP-num-Testのモジュールワイズパフォーマンス(擬似報酬)、(c)WNSMNの通過エンティティの総数によるバケットパフォーマンス、および表1からの最高のパフォーマンスNMNとGenBERTモデル。 0.83
More Stable RL Framework The training trend in Figure 5(a) shows early saturation and the module-wise performance indicates overfitting despite the regularization tricks in §2.1.3 and Appendix A.6. より安定したRLフレームワーク 図5(a)のトレーニングの傾向は早期飽和を示しており、モジュール回りのパフォーマンスは2.1.3および付録A.6の正規化のトリックにもかかわらずオーバーフィットを示す。 0.65
While more stable RL algorithms like Actor-Critic, Trust Region Policy Optimization (Schulman et al., 2015) or Memory Augmented Policy Optimization (Liang et al., 2018) can mitigate these issues, we leave them for future exploration. Actor-Critic、Trust Region Policy Optimization (Schulman et al., 2015) やMemory Augmented Policy Optimization (Liang et al., 2018) のようなより安定したRLアルゴリズムはこれらの問題を緩和できるが、今後の探索のためにそれらを残す。 0.79
Also, though this work’s objective was to train module networks with weak supervision, the sparse confounding rewards in the exponential action space indeed render the RL training quite challenging. また、この作業の目的は、モジュールネットワークを弱い監督でトレーニングすることでしたが、指数関数的なアクションスペースでの報酬が不足しているため、RLトレーニングは非常に困難です。 0.65
One practical future direction to bridge the performance gap would be to pretrain with strong supervision on at least a subset of reasoning categories or on more constrained forms of synthetic questions, similar to GenBERT. パフォーマンスギャップを橋渡しするための実践的な将来の方向は、少なくとも推論カテゴリのサブセットや、genbertに似たより制約のある形式の合成質問に対して、強い監督の下で事前訓練を行うことである。 0.58
Such a setting would require inspection and evaluation of generalizability of the RL model to unknown reasoning types or more open-ended questions. このような設定は、未知の推論タイプやよりオープンな質問に対するRLモデルの一般化可能性の検査と評価を必要とする。 0.70
5 RELATED WORK In this section we briefly compare our proposed WNSMN to the two closest genre of models that have proven quite successful on DROP 3 i) reasoning free hybrid models NumNet, NAQANet, NABERT, NABERT+, MTMSN, and NeRd ii) modular network for reasoning NMN. 関連作業5 本稿では,提案したWNSMNを,NumNet, NAQANet, NABERT, NABERT+, MTMSN, NeRd ii) モジュールネットワークを推論するためのフリーハイブリッドモデルとして,DROP 3 i) でかなり成功した2つのモデルジャンルと比較する。 0.75
Their main distinction with WNSMN is that in order to address the challenges of weak supervision, they obtain program annotation from the QA pairs through i) various heuristic parsing of the templatized queries in DROP to get supervision of the reasoning type (max/min, diff/sum, count, negate). WNSMNとの主な違いは、弱い監督の課題に対処するために、それらはQAペアからプログラムアノテーションを取得し、i)推論タイプ(max/min、diff/sum、count、negate)の監視を得るためにDROPのテンプレート化されたクエリの様々なヒューリスティック解析を行う。 0.64
ii) exhaustive search over all possible discrete operations to get supervision of the arguments in the reasoning. 二 推論における議論の監督を受けるために、可能なすべての離散操作を徹底的に探索すること。
訳抜け防止モード: ii) あり得る全ての離散的操作の徹底的な探索 推論の議論の監督を得るため。
0.72
Such heuristic supervision makes the learning problem significantly simpler in the following ways このようなヒューリスティックな監督は、以下の方法で学習問題を著しく単純化する 0.63
• These models enjoy supervision of specialized program that have explicit information of the type •これらのモデルは、そのタイプの明示的な情報を持つ専門プログラムの監督を享受する。 0.65
of reasoning to apply for a question e.g., SUM(10,12) 例えば、SUM(10,12)のような質問に当てはまる推論の 0.74
• A simplistic (contextual BERT-like) reader model to read query related information from the •クエリ関連情報を読み取るための単純(contextual BERT-like)リーダーモデル 0.82
passage trained with direct supervision of the query span arguments at each step of the program プログラムの各ステップにおけるクエリスパン引数の直接監視により訓練されたパッセージ 0.72
• A programmer model that can be directly trained to decode the specialized programs • Executing numerical functions (e.g., difference, count, max, min) either by i) training purely neural modules in a strong supervised setting using the annotated programs or by ii) performing the actual discrete operation as a post processing step on the model’s predicted program. • 特殊プログラムをデコードするために直接訓練できるプログラマモデル • 数値関数(例えば、差分、カウント、最大、分数)を実行する場合(例えば、i) 注釈付きプログラムを使った強力な教師付き環境で純粋に神経モジュールを訓練する場合(i) モデルの予測プログラムのポスト処理ステップとして実際の離散操作を実行する場合(i) 。 0.84
For each of these previous works, it is possible to directly apply the learning objective on the space of decoded program, without having to deal with the discrete answer or any non-differentiabilit y. これらの以前の各作品では、離散的な答えや非微分性に対処することなく、解読されたプログラムの空間に直接学習目標を適用することが可能です。 0.72
However, such heuristic techniques of program annotation or exhaustive search is not practical as the language of questions or the space of discrete operations become more complex. しかし、問題言語や離散演算の空間がより複雑になるため、プログラムアノテーションや徹底的な探索といったヒューリスティックな手法は実用的ではない。 0.67
Hence WNSMN learns in the challenging weak-supervised setting without any additional annotation through したがってwnsmnは、追加のアノテーションを使わずに難しい弱い教師付き設定で学習する。 0.47
• A noisy symbolic query decomposition that is oblivious to the reasoning type and simply based on •推論型に従わず、単純にベースとするノイズの多いシンボリッククエリ分解 0.62
generic text parsing techniques 汎用テキスト解析技術 0.56
3A more detailed related work section is presented in the Appendix A.4 3 より詳細な関連作業セクションがAppendix A.4に記載されている。 0.69
9 9 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
• An entity specific cross attention model extracting passage information relevant to each step of the •各ステップに関連するパス情報を抽出するエンティティ固有のクロス・アテンション・モデル 0.82
decomposed query and learning an attention distribution over the entities of each type 分解されたクエリと各タイプのエンティティに対する注意分布の学習 0.78
• Learning to apply discrete reasoning by employing neural modules that learn to sample the operation • 操作のサンプルを学習する神経モジュールを用いて離散推論を適用するための学習 0.88
and the entity arguments エンティティの議論は 0.50
• Leveraging a combination of neural and discrete modules when executing the discrete operation, instead of using only neural modules which need strong supervision of the programs for learning the functionality • 機能学習のためのプログラムの強い監督を必要とする神経モジュールのみを使用する代わりに、離散操作を実行する際に、神経モジュールと離散モジュールの組み合わせを活用すること。 0.72
• Fundamentally different learning strategy by incorporating inductive bias through auxiliary losses and Iterative Maximal Likelihood for a more conservative initialization followed by REINFORCE •補助的損失による帰納的バイアスと、より保守的な初期化とREINFORCEによる反復的最大化を取り入れた学習戦略 0.81
These reasoning-free hybrid models are not comparable with WNSMN because of their inability to learn in absence of any heuristic program annotation. これらの推論のないハイブリッドモデルは、ヒューリスティックなプログラムアノテーションがなければ学習できないため、WNSMNに匹敵しない。 0.64
Instead of learning to reason based on only the final answer supervision, they reduce the task to learning to decode the program, based on heuristic program annotation. 最終的な答えの監督のみに基づいて推論を学ぶのではなく、ヒューリスティックなプログラムアノテーションに基づいて、プログラムをデコードするタスクを減らします。 0.74
NMN is the only reasoning based model that employ various auxiliary losses to learn even in absence of any additional supervision, similar to us. NMNは、私たちと同様、追加の監督がなくても学ぶために様々な補助的損失を採用する唯一の推論ベースのモデルです。 0.65
To our knowledge WNSMN is the first work on modular networks for fuzzy reasoning over text in RC framework, to handle the challenging cold start problem of the weak supervised setting without needing any additional specialized supervision of heuristic programs. 我々の知る限り、WNSMNはRCフレームワークにおけるファジィ推論のためのモジュラーネットワークに関する最初の研究であり、ヒューリスティックプログラムの特別な監督を必要とせず、弱教師付きセッティングの挑戦的なコールドスタート問題に対処する。 0.64
6 CONCLUSION 6 コンキュレーション 0.68
In this work, we presented Weakly Supervised Neuro-Symbolic Module Network for numerical reasoning based MRC based on a generalized framework of query parsing to noisy heuristic programs. 本研究では,問合せ解析の枠組みを一般化した数値推論に基づくmrcのための,弱教師付きニューロシンボリックモジュールネットワークを提案する。 0.75
It trains both neural and discrete reasoning modules end-to-end in a Deep RL framework with only discrete reward based on exact answer match. ニューラルネットワークと離散推論モジュールの両方をDeep RLフレームワークでエンドツーエンドでトレーニングし、正確な回答一致に基づいて離散報酬のみをトレーニングします。 0.57
Our empirical analysis on the numerical-answer only subset of DROP showcases significant performance improvement of the proposed model over SoTA NMNs and Transformer based language model GenBERT, when trained in comparable weakly supervised settings. DROPの数値解答のみのサブセットに関する実証分析では,SoTA NMNやTransformerベースの言語モデルGenBERTよりも,比較的弱い教師付き設定でトレーニングした場合に,提案モデルの性能が大幅に向上することを示した。
訳抜け防止モード: DROPの数値-解のみの部分集合に関する実証分析は,SoTA NMN と Transformer に基づく言語モデル GenBERT による提案モデルの性能向上を示す。 弱めに制御された設定で 訓練された時
0.75
While, to our knowledge, this is the first effort towards training modular networks for fuzzy reasoning over RC in a weakly-supervised setting, there is significant scope of improvement, such as employing more sophisticated RL framework or by leveraging the pretraining of reasoning. 我々の知る限り、これはRC上のファジィ推論のためのモジュラーネットワークを弱教師付き環境でトレーニングする最初の試みであるが、より洗練されたRLフレームワークを採用する、あるいは推論の事前訓練を活用するなど、改善のかなりの範囲がある。 0.61
REFERENCES Danqi Chen and Christopher Manning. REFERENCES Danqi ChenとChristopher Manning。 0.76
A fast and accurate dependency parser using neural networks. ニューラルネットワークを用いた高速で正確な依存関係パーサ。 0.71
In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 自然言語処理における経験的手法に関する2014年会議(EMNLP)の開催報告, pp。 0.81
740–750, Doha, Qatar, October 2014. 740-750, Doha, Qatar, 2014年10月。 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
doi: 10.3115/v1/D14-1082. doi: 10.3115/v1/D14-1082。 0.38
URL https://www.aclweb.o rg/anthology/D14-108 2. URL https://www.aclweb.o rg/anthology/D14-108 2 0.39
Xinyun Chen, Chen Liang, Adams Wei Yu, Denny Zhou, Dawn Song, and Quoc V. Le. Xinyun Chen、Chen Liang、Adams Wei Yu、Denny Zhou、Dawn Song、Quoc V. Le。 0.68
Neural symbolic reader: Scalable integration of distributed and symbolic representations for reading comprehension. neural symbolic reader: 読解のための分散表現と記号表現のスケーラブルな統合。 0.84
In 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. 第8回International Conference on Learning Representations, ICLR 2020, Addis Ababa, エチオピア, 2020年4月26-30日。 0.87
OpenReview.net, 2020. OpenReview.net、2020年。 0.65
URL https://openreview.n et/ forum?id=ryxjnREFwH. URL https://openreview.n et/ forum?id=ryxjnREFwH。 0.65
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.78
Bert: Pre-training of deep bidirectional transformers for language understanding, 2018. Bert: 2018年、言語理解のための双方向トランスフォーマーの事前トレーニング。 0.76
URL http://arxiv.org/abs / 1810.04805. cite arxiv:1810.04805Comm ent: 13 pages. URL http://arxiv.org/abs /1810.04805. cite arxiv:1810.04805Comm ent: 13 pages 0.53
Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, Matt Gardner 0.71
DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. drop: パラグラフの個別推論を必要とする読み取り理解ベンチマーク。 0.63
In Proc. of NAACL, 2019. Proc。 NAACL、2019年。 0.59
Mor Geva, Ankit Gupta, and Jonathan Berant. Mor Geva、Ankit Gupta、Jonathan Berant。 0.61
Injecting numerical reasoning skills into language 言語に数値推論スキルを注入する 0.75
models. In ACL, 2020. モデル。 ACL、2020年。 0.74
Nitish Gupta, Kevin Lin, Dan Roth, Sameer Singh, and Matt Gardner. Nitish Gupta、Kevin Lin、Dan Roth、Sameer Singh、Matt Gardner。 0.71
Neural module networks for reasoning over text. テキストによる推論のためのニューラルモジュールネットワーク。 0.72
In International Conference on Learning Representations, 2020. International Conference on Learning Representations, 2020に出展。 0.78
URL https://openreview.n et/forum?id=SygWvAVFPr. URL https://openreview.n et/forum?id=SygWvAVFPr。 0.57
10 10 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Sepp Hochreiter and J¨urgen Schmidhuber. Sepp HochreiterとJ surgen Schmidhuber。 0.90
Long short-term memory. Neural computation, 9(8): 長期短期記憶。 ニューラル計算, 9(8) 0.65
1735–1780, 1997. 1735–1780, 1997. 0.84
Minghao Hu, Yuxing Peng, Zhen Huang, and Dongsheng Li. Minghao Hu、Yuxing Peng、Zhen Huang、およびDongsheng Li。 0.73
A multi-type multi-span network for マルチタイプのマルチスパンネットワーク 0.87
reading comprehension that requires discrete reasoning. 離散的な推論を必要とする理解を読むこと。 0.50
In Proceedings of EMNLP, 2019. In Proceedings of EMNLP, 2019 0.67
Ting Huang, Zhi-Hong Deng, Gehui Shen, and Xi Chen. Ting Huang、Zhi-Hong Deng、Gehui Shen、Xi Chen。 0.76
A window-based self-attention approach for sentence encoding. 文符号化のためのウィンドウ型自己照準法 0.55
Neurocomputing, 375:25–31, 2020. doi: 10.1016/j.neucom.201 9.09.024. Neurocomputing, 375:25–31, 2020. doi: 10.1016/j.neucom.201 9.09.024 0.45
URL https://doi.org/10.1 016/j.neucom.2019.09 .024. URL https://doi.org/10.1 016/j.neucom.2019.09 .024 0.30
Jambay Kinley and Raymond Lin. Jambay KinleyとRaymond Lin。 0.77
Nabert+: Improving numerical reasoning in reading comprehen- Nabert+: 読解における数値推論の改善- 0.71
sion. 2019. URL https://github.com/r aylin1000/drop-bert. シオン 2019. URL https://github.com/r aylin1000/drop-bert 0.52
Rik Koncel-Kedziorski, Subhro Roy, Aida Amini, Nate Kushman, and Hannaneh Hajishirzi. Rik Koncel-Kedziorski、Subhro Roy、Aida Amini、Nate Kushman、Hannaneh Hajishirzi。 0.80
MAWPS: A math word problem repository. MAWPS: 数学の単語問題リポジトリ。 0.67
In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 2016年、アメリカ計算言語学会(association for computational linguistics: human language technologies, pp.)の北米支部が開催される。 0.77
1152–1157, San Diego, California, June 2016. 1152-1157, San Diego, California, 2016年6月。 0.74
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
doi: 10.18653/v1/N16-1136 . doi: 10.18653/v1/N16-1136 。 0.38
URL https://www.aclweb.o rg/anthology/N16-113 6. URL https://www.aclweb.o rg/anthology/N16-113 6 0.39
Chen Liang, Jonathan Berant, Quoc Le, Kenneth D Forbus, and Ni Lao. Chen Liang、Jonathan Berant、Quoc Le、Kenneth D Forbus、Ni Lao。 0.63
Neural symbolic machines: Learning semantic parsers on freebase with weak supervision. ニューラルシンボリックマシン:弱い監督の下でfreebaseでセマンティックパーサを学習する。 0.61
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pp. 第55回計算言語学会年会(巻1:長文)の進行において、巻1, pp。 0.47
23–33, 2017. 23–33, 2017. 0.84
Chen Liang, Mohammad Norouzi, Jonathan Berant, Quoc V Le, and Ni Lao. Chen Liang、Mohammad Norouzi、Jonathan Berant、Quoc V Le、Ni Lao。 0.65
Memory augmented policy optimization for program synthesis and semantic parsing. プログラム合成と意味解析のためのメモリ拡張ポリシー最適化。 0.80
In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett (eds. S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, R. Garnett (eds)。 0.85
), Advances in Neural Information Processing Systems 31, pp. ), 神経情報処理システムの進歩31, pp。 0.65
10015–10027. 10015–10027. 0.71
Curran Associates, Inc., 2018. Curran Associates, Inc., 2018。 0.79
Qiu Ran, Yankai Lin, Peng Li, Jie Zhou, and Zhiyuan Liu. Qiu Ran、Yankai Lin、Peng Li、Jie Zhou、Zhiyuan Liu。 0.67
NumNet: Machine reading comprehension In Proceedings of the 2019 Conference on Empirical Methods in with numerical reasoning. numnet: machine reading comprehension in proceedings of the 2019 conference on empirical methods in with numerical reasoning(英語) 0.82
Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pp. 自然言語処理と第9回自然言語処理国際会議(EMNLP-IJCNLP)、pp。 0.78
2474–2484, Hong Kong, China, November 2019. 2474-2484 香港、中国、2019年11月。 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
doi: 10.18653/v1/D19-1251 . doi: 10.18653/v1/D19-1251 。 0.38
URL https://www.aclweb.o rg/ anthology/D19-1251. URL https://www.aclweb.o rg/ anthology/D19-1251 0.45
Nils Reimers and Iryna Gurevych. Nils ReimersとIryna Gurevych。 0.81
Sentence-bert: Sentence embeddings using siamese bert-networks. sentence-bert: siamese bert-networksを使った文埋め込み。 0.58
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 自然言語処理における経験的手法に関する2019年会議の議事録。 0.71
Association for Computational Linguistics, 11 2019. 計算言語協会、2019年11月。 0.61
URL http://arxiv.org/abs /1908. URL http://arxiv.org/abs /1908 0.54
10084. Amrita Saha, Ghulam Ahmed Ansari, Abhishek Laddha, Karthik Sankaranarayanan, and Soumen Chakrabarti. 10084. Amrita Saha、Ghulam Ahmed Ansari、Abhishek Laddha、Karthik Sankaranarayanan、そしてSoumen Chakrabarti。 0.80
Complex program induction for querying knowledge bases in the absence of gold programs. 金のプログラムがない場合に知識ベースを問合せするための複雑なプログラム誘導 0.73
Transactions of the Association for Computational Linguistics, 7:185–200, March 2019. doi: 10.1162/tacl a 00262. Association for Computational Linguistics, 7:185–200, March 2019. doi: 10.1162/tacl a 00262. 0.84
URL https://www.aclweb.o rg/anthology/Q19-101 2. URL https://www.aclweb.o rg/anthology/Q19-101 2。 0.36
John Schulman, Sergey Levine, Pieter Abbeel, Michael Jordan, and Philipp Moritz. John Schulman、Sergey Levine、Pieter Abbeel、Michael Jordan、そしてPhilipp Moritz。 0.71
Trust region policy optimization. 信頼地域政策の最適化。 0.75
volume 37 of Proceedings of Machine Learning Research, pp. 第37巻 機械学習研究の成果, pp。 0.65
1889–1897, Lille, France, 07–09 Jul 2015. 1889–1897, Lille, フランス, 07–09 Jul 2015。 0.83
PMLR. URL http://proceedings.m lr.press/v37/schulma n15. PMLR。 URL http://proceedings.m lr.press/v37/schulma n15。 0.59
html. Sanjay Subramanian, Ben Bogin, Nitish Gupta, Tomer Wolfson, Sameer Singh, Jonathan Berant, and Matt Gardner. html。 Sanjay Subramanian、Ben Bogin、Nitish Gupta、Tomer Wolfson、Sameer Singh、Jonathan Berant、Matt Gardner。
訳抜け防止モード: html。 Sanjay Subramanian, Ben Bogin, Nitish Gupta, Tomer Wolfson ジョナサン・ベラント(Jonathan Berant)、マット・ガードナー(Matt Gardner)。
0.83
Obtaining Faithful Interpretations from Compositional Neural Networks. 構成ニューラルネットワークから忠実な解釈を得る。 0.66
In Association for Computational Linguistics (ACL), 2020. ACL(Association for Computational Linguistics)、2020年。 0.74
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, s ukasz Kaiser, Illia Polosukhin 0.71
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett (eds. I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett (eds)。 0.89
), Advances in Neural Information Processing Systems 30, pp. ) 神経情報処理システム30の進歩, pp。 0.66
5998–6008. 5998–6008. 0.71
Curran Associates, Inc., 2017. Curran Associates, Inc.、2017。 0.87
URL http: //papers.nips.cc/pap er/7181-attention-is -all-you-need.pdf. url http: //papers.nips.cc/pap er/7181-attention-is -you- needed.pdf 0.26
R. J. Williams. R.J.ウィリアムズ。 0.74
Simple statistical gradient-following algorithms for connectionist reinforcement コネクショニスト補強のための簡易統計勾配追従アルゴリズム 0.71
learning. Machine Learning, 8:229–256, 1992. 学ぶこと。 機械学習, 8:229–256, 1992。 0.69
11 11 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Victor Zhong, Caiming Xiong, and Richard Socher. Victor Zhong、Caiming Xiong、Richard Socher。 0.70
Seq2sql: Generating structured queries from Seq2sql: 構造化クエリの生成 0.75
natural language using reinforcement learning, 2017. 強化学習を用いた自然言語、2017。 0.83
12 12 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
A APPENDIX A.1 QUALITATIVE ANALYSIS APPENDIX A.1 品質解析 0.61
Weakly Supervised Neuro-Symbolic Module Network 弱監督型ニューロシンボリックモジュールネットワーク 0.64
GenBERT 1. GenBERT 1. 0.85
Query: how many times did a game between the patriots versus colts result in the exact same scores?, Ans: 2 質問:愛国者とコルツの間の試合で、全く同じスコアが得られた回数はいくつでしたか? 0.61
Num. of Passage Entities: Date(10), Number(9) NUM! 通過実体:日付(10)、番号(9) 0.56
D, N = Entity-Attention(‘how many times’) // D, N are the attention distribution over date and number entities D1, N1 = Entity-Attention(‘did a game between the patriots versus colts result in the exact same scores’, (D, N)) ‘Number’, ‘Count’ = EntType-Operator-Sel ector(‘how many times’, Query) Answer 2 = Count(N1) D, N = Entity-Attention(‘how many times’) // D, N は日付上の注意分布で、D1, N1 = Entity-Attention(’did a game between the patriots vs colts result by the same scores, (D, N)) 'Number', ‘Count' = EntType-Operator-Sel ector(‘how many times’, Query) Answer 2 = Count(N1) 0.91
Predicted AnsType: Decoded Predicted AnsType: Decoded 0.85
Decoder output: 2 Span extracted: “colts” Answer = 2 デコーダ出力:2。 Span extract: “colts” Answer = 2 0.83
2. Query: how many people in chennai, in terms of percent population, are not hindu?, Ans: 19.3 2. 質問:チェンナイの人口のうち、ヒンドゥー人ではない人は何人?、アンス:19.3人 0.72
Num. of Passage Entities: Date(2), Number(26) NUM! 通過実体:日付(2)、番号(26) 0.56
D, N = Entity-Attention(‘how many people in chennai, in terms of percent population’) D1, N1 = Entity-Attention(‘are not hindu’, (D, N)) ‘Number’, ‘Negate’ = EntType-Operator-Sel ector(’are not hindu’, Query) 1 = Count(N) {80.7} = Sample-Arbitrary-Arg uments(N1, 1) Answer = 19.3 = Negate({80.7}) 3. D, N = Entity-Attention (’How many people in chennai, in in the percent population’) D1, N1 = Entity-Attention(‘are not hindu’, (D, N)) ‘Number’, ‘Negate’ = EntType-Operator-Sel ector(’are not hindu’, Query) 1 = Count(N) {80.7} = Sample-Arbitrary-Arg uments(N1, 1) answer = 19.3 = Negate({80.7}) 3 0.95
Query: how many more percent of the population was male than female?, Ans: 0.4 質問: 人口の何パーセントが男性で、女性は女性だったか? 0.59
Num. of Passage Entities: Date(4), Number(29) NUM! パスのエンティティ:日付(4)、番号(29)。 0.55
Predicted AnsType: Decoded Decoder output: 19.3 Span extracted: “80.7” Answer = 19.3 Predicted AnsType: Decoded Decoder output: 19.3 Span extract: “80.7” Answer = 19.3 0.87
D, N = Entity-Attention(‘how many’) D1, N1 = Entity-Attention(‘more percent of the population was male’, (D, N)) D2, N2 = Entity-Attention(‘than female’, (D, N)) ‘Number’,‘Difference’ = EntType-Operator-Sel ector(’how many’, Query) 50.2 = Sample-1-Argument(N1 ) 49.8 = Sample-2-Argument(N2 ) Answer = 0.4 = Difference({50.2, 49.8}) 4. D, N = Entity-Attention(‘how many’) D1, N1 = Entity-Attention(‘more percent of the population were male’, (D, N)) D2, N2 = Entity-Attention(‘than female’, (D, N)) 'Number', ‘Difference' = EntType-Operator-Sel ector(’how many', Query) 50.2 = Sample-1-Argument(N1 ) 49.8 = Sample-2-Argument(N2 ) Answer = 0.4 = difference({50.2, 49.8}) 4. 0.87
Query: how many more, in percent population of aigle were between 0 and 9 years old than are 90 and older?, Ans: 9.8 質問: エイグルの人口の割合は、90歳以上よりも0歳から9歳でしたか?Ans: 9.8 0.61
Predicted AnsType: Decoded Decoder output: 3.2 Span extracted: “49.8” Answer = 3.2 Predicted AnsType: Decoded Decoder output: 3.2 Span Extract: “49.8” Answer = 3.2 0.87
Num. of Passage Entities: Date(0), Number(25) NUM! 通過実体:日付(0)、番号(25) 0.56
D, N = Entity-Attention(‘how many more’) D1, N1 = Entity-Attention(‘in percent population of aigle were between 0 and 9 years old’, (D, N)) D2, N2 = Entity-Attention(‘than are 90 and older’, (D, N)) ‘Number’, ‘Difference’ = EntType-Operator-Sel ector(‘how many more’, Query) 10.7 = Sample-1-Argument(N1 ) 0.9 = Sample-1-Argument(N2 ) Answer = 9.8 = Difference({10.7, 0.9}) 5. D, N = Entity-Attention(&#x 27;how many more') D1, N1 = Entity-Attention(&#x 27;in percent population of aigle were between 0 to 9 years', (D, N)) D2, N2 = Entity-Attention(&#x 27;than are 90 and older', (D, N)) 'Number', 'Difference' = EntType-Operator-Sel ector('how many more', Query) 10.7 = Sample-1-Argument(N1 ) 0.9 = Sample-1-Argument(N2 ) Answer = 9.8 = difference({10.7, 0.9}) 5 0.93
Query: going into the 1994 playoffs, how many years had it been since the suns had last reached the playoffs?, Ans: 3 質問:1994年のプレーオフでは、太陽が最後にプレイオフに到達してから何年経っていましたか?
訳抜け防止モード: 質問 : 1994年のプレーオフに進む 太陽が最後にプレーオフに到達してから何年になりますか?」 ans : 3
0.70
Span extracted: “0.9” Answer = 1.7 Span extract: "0.9" Answer = 1.7 0.81
Predicted AnsType: Decoded Decoder output: 1.7 Predicted AnsType: Decoded Decoder output: 1.7 0.96
Num. of Passage Entities: Date(3), Number(17) NUM! 通過件数:日付(3)、番号(17) 0.56
D, N = Entity-Attention(‘going into the 1994 playoffs : how many years’) D1, N1 = Entity-Attention(‘had it been since the suns had last reached the playoffs’, (D, N)) ‘Date’, ‘Difference’ = EntType-Operator-Sel ector(‘going into the 1994 playoffs : how many years’, Query) {1991, 1994} = Sample-2-Argument(D) Answer = 3 = Difference({1991, 1994}) 6. D, N = Entity-Attention(’going into the 1994 playoffs : how many years’) D1, N1 = Entity-Attention(‘had it was been since the suns been last reach the playoffs’, (D, N)) ‘Date’, ‘Difference’ = EntType-Operator-Sel ector(‘going into the 1994 playoffs : how many years’, Query) {1991, 1994} = Sample-2-Argument(D) Answer = 3 = difference({1991, 1994}) 6 0.98
Query: how many more points did the cats have in the fifth game of the AA championship playoffs compared to st. paul saints?, 問い合わせ: セントポール聖人と比較して、猫はAAチャンピオンシップのプレイオフの第5試合で何ポイント持っていましたか? 0.77
Predicted AnsType: Decoded Decoder output: 7 Span extracted:“1991” Predicted AnsType: Decoded Decoder output: 7 Span extract: "1991" 0.83
Answer = 7 Ans: 3 Num. 答え=7。 ans: 3 num。 0.73
of Passage Entities: Date(3), Number(12) 通過実体:日付(3)、番号(12) 0.64
D, N = Entity-Attention(‘how many’) D1, N1 = Entity-Attention(‘more points did the cats have in the fifth game of the AA championship playoffs’, (D, N)) D2, N2 = Entity-Attention(‘compared to the st. paul saints’, (D, N)) ‘Number’, ‘Difference’ = EntType-Operator-Sel ector(‘how many’, Query) 5.0 = Sample-1-Argument(N1 ) 2.0 = Sample-1-Argument(N2 ) Answer = 3.0 = Difference({5.0, 2.0}) 7. D, N = Entity-Attention(‘how many’) D1, N1 = Entity-Attention(‘more points did the five game of the AA Championship playoffs’, (D, N)) D2, N2 = Entity-Attention(‘compared to the st. paul Saints’, (D, N) ‘Number’, ‘Difference’ = EntType-Operator-Sel ector(‘how many’, Query) 5.0 = Sample-1-Argument(N1 ) 2.0 = Sample-1-Argument(N2 ) Answer = 3.0 = difference({5.0, 2.0}) 7 0.90
Query: how many total troops were there in the battle?, Ans: 40000 情報提供:戦闘に参加した総兵力はいくつか?、アンス:40000人 0.61
Num. of Passage Entities: Date(1), Number(3) NUM! 通過件数:日付(1)、番号(3) 0.56
D, N = Entity-Attention(‘how many total troops’) D1, N1 = Entity-Attention(‘were there in the battle’, (D, N)) ‘Number’, ‘Sum’ = EntType-Operator-Sel ector(’how many total troops’, Query) 2 = Count(N1) {10000.0, 30000.0} = Sample-Arbitrary-Arg uments(N1, 2) Answer = 40000.0 = Sum({10000.0, 30000.0}) D, N = Entity-Attention(&#x 27;how many total troops') D1, N1 = Entity-Attention(&#x 27;Were there in the Battle', (D, N)) 'Number', ‘Sum' = EntType-Operator-Sel ector('how many total troops', Query) 2 = Count(N1) {10000.0, 30000.0} = Sample-Arbitrary-Arg uments(N1, 2) Answer = 40000.0 = Sum({10000.0, 30000.0}) 0.93
Predicted AnsType: Decoded Decoder output: 3 Predicted AnsType: Decoded Decoder 出力: 3。 0.93
Span extracted: “4 - 1 in the fifth game” Answer = 3 抽出されたスパン:「第5ゲームで4 - 1」答え=3。 0.78
Predicted AnsType: Decoded Decoder output: 100000 Predicted AnsType: Decoded Decoder output: 100000 0.85
Span extracted: “10000 korean troops” Answer = 100000 抽出されたスパン:「10000韓国軍」答え=100000。 0.74
13 13 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Weakly Supervised Neuro-Symbolic Module Network 弱監督型ニューロシンボリックモジュールネットワーク 0.64
NMN-num GenBERT NMN-num GenBERT 0.72
8. Query: how many field goals did sebastian janikowski and kris brown both score each? 8. クエリ: Sebastian janikowski と kris Brown はいずれも,それぞれに何点のフィールドゴールがあったか? 0.76
Ans: 2 Num. Ans:2 NUM! 0.64
of Passage Entities: Date(0), Number(9) 通過実体:日付(0)、番号(9) 0.66
D, N = Entity-Attention(‘how many field goals’) D1, N1 = Entity-Attention(‘did sebastian janikowski and kris brown both score each’, (D, N)) ‘Number’, many field goals’, Query) Answer = 2.0 = Count(N1) D, N = Entity-Attention (’How many field goal’) D1, N1 = Entity-Attention (’did sebastian janikowski and kris Brown both score each’, (D, N) ‘Number’, many field goal’, Query) Answer = 2.0 = Count(N1) 0.95
‘Count’ = EntType-Operator-Sel ector(‘how count' = enttype-operator-sel ector() 0.75
P1 = Find-Passage-Attenti on() P2 = Filter-Passage-Atten tion(P1) P1 = Find-Passage-Attenti on() P2 = Filter-Passage-Atten tion(P1) 0.61
Predicted AnsType: Decoded Decoder output: 2 Predicted AnsType: Decoded Decoder 出力: 2。 0.92
2 = Passage-Attn-To-Coun t(P2) 2 = Passage-Attn-To-Coun t(P2) 0.59
Span extracted: “33 - yard” Span の抜粋: "33 - yard" 0.83
Answer = 2 Answer = 2 答え=2。 答え=2。 0.82
9. Query: how many years was between the oil crisis and the energy crisis? 9. 質問:石油危機とエネルギー危機の間には何年でしたか? 0.83
Ans: 6 Num. ans: 6 NUM! 0.56
of Passage Entities: Date(19), Number(14) 通過対象:日付(19)、番号(14) 0.68
D1, N1 = Entity-Attention(‘was between the oil crisis and the energy crisis’) D1, N1 = Entity-Attention(「石油危機とエネルギー危機の間」) 0.86
‘Difference’ = EntType-Operator-Sel ector(‘how Difference' = EntType-Operator-Sel ector(’how] 0.64
D, N = Entity-Attention(‘how many years’, D1, N1) ‘Date’, many years’, Query) {1973, 1979} = Sample-2-Argument(D) Answer = 6.0 = Difference({1973, 1979}) 10. D, N = Entity-Attention(‘何年’, D1, N1) ‘Date’, many years’, Query) {1973, 1979} = Sample-2-Argument(D) Answer = 6.0 = difference({1973, 1979}) 10。 0.99
Query: how many yards was the longest touchdown pass? 問い合わせ:最も長いタッチダウンパスは何ヤードでしたか? 0.65
Ans: 40 Num. ans: 40 NUM! 0.56
of Passage Entities: Date(0), Number(5) 通過エンティティ:date(0)、number(5) 0.63
year-diffs ∈ R40 (// generated exhaustive output space of all differences) P1 = Find-Passage-Attenti on() 6 = Year-Difference(P1, year-diffs) year-diffs ∈ R40 (// Geneive output space of all difference) P1 = Find-Passage-Attenti on() 6 = Year-Difference(P1, year-diffs) 0.77
Answer = 6.0 answer = 6.0 0.76
Predicted AnsType: Decoded Predicted AnsType: Decoded 0.85
Decoder output: 3 Span extracted: “1973” デコーダ出力:3スパン抽出:「1973」。 0.80
Answer = 3 D, N = Entity-Attention(‘how many yards was the’) D1, N1 = Entity-Attention(‘longest touchdown pass’, (D, N)) ‘Number’, ‘Sum’ = EntType-Operator-Sel ector(‘how many yards was the’, Query) 1 = Count(N) {40.0} = Sample-Arbitrary-Arg ument(N, 1) Answer = 40.0 = Sum({40.0}) 答え=3。 D, N = Entity-Attention(’How many yards was the’) D1, N1 = Entity-Attention(‘longest touchdown pass’, (D, N)) ‘Number’, ‘Sum’ = EntType-Operator-Sel ector(‘how many yards was the’, Query) 1 = Count(N) {40.0} = Sample-Arbitrary-Arg ument(N, 1) answer = 40.0 = Sum({40.0})) 0.87
P1 = Find-Passage-Attenti on() N1 = Find-Passage-Number( P1) P1 = Find-Passage-Attenti on() N1 = Find-Passage-Number( P1) 0.61
Predicted AnsType: Extract-Span Decoder output: 43 Predicted AnsType: Extract-Span Decoder output: 43 0.96
40 = Find-Max-Num(N1) 40 = Find-Max-Num(N1) 0.69
Span extracted: “40” Spanの抜粋: “40” 0.87
Answer = 40 Answer = 40 答え=40 答え=40 0.77
Table 4: Example questions from DROP-num along with predictions of the Proposed model WNSMN and the best performing versions of the NMN-num and GenBERT baselines from Table 1. 表4: DROP-numからの質問の例、提案モデルWNSMNの予測、および表1からのNMN-numおよびGenBERTベースラインの最高のパフォーマンスバージョン。 0.81
Detailed elaborations of outputs of these three models below: (i) WNSMN first parses the dependency structure in the query into a program-form. i) WNSMNは、最初にクエリの依存性構造をプログラム形式に解析します。 0.37
Next, for each step of the program, it generates an attention distribution over the date and number entities. 次に、プログラムの各ステップに対して、日付と番号のエンティティに対する注意分布を生成する。 0.76
EntityAttention refers to that learnt entity-specific cross attention described in §2.1.1. エンティティ・アテンテンション(entityattention)は、2.1.1で記述されたエンティティ固有のクロス・アテンションを学習することを指す。 0.29
It then performs the discrete reasoning by sampling an operation and specific entity-arguments, in order to reach the answer. そして、その答えに到達するために、操作と特定の実体論をサンプリングして離散的推論を行う。 0.67
EntType-Operator-Sel ector refers to the Entity-Type and Operator Predictor in Operator Sampling Network and Sample-*-Argument refers to the Argument Sampling Network described in §2.1.2. EntType-Operator-Sel ector は Entity-Type と Operator Predictor in Operator Smpling Network を、Sample-*-Argument は Argument Smpling Network を 2.1.2 で記述している。 0.74
Sum/Difference/Logic al-Not are some of the discrete operations that are executed to get the answer. sum/difference/logic al-notは、答えを得るために実行される離散演算である。 0.58
In some of the cases, (e.g., Query 3.) いくつかのケースでは(例えば、Query 3.1) 0.82
despite wrong parsing the model was able to predict the correct operation even though the root clause did not have sufficient information. 間違った解析にもかかわらず モデルは正しい操作を予測できた ルート条項は十分な情報を持っていなかった 0.78
In Query 10., the correct operation is Max, but WNSMN reaches the right answer by sampling only the maximum number entity through the Sample-Arbitrary-Arg ument network and then applying a spurious Sum operation on it. クエリ10.では、正しい操作はMaxですが、WNSMNはSample-Arbitrary-Arg umentネットワークを介して最大数エンティティのみをサンプリングし、スプライスサム操作を適用することで、正しい答えに到達します。 0.71
(ii) On the other hand, the steps of the program generated by NMN-num first compute or further filter attention distribution over the passage or entities which are then fed into the learnable modules (Passage-Attn-To-Cou nt, Year-Difference) that predict the answer. 一方、NMN-numによって生成されたプログラムのステップは、まず、その解答を予測する学習可能なモジュール(Passage-Attn-To-Cou nt, Year-Difference)に供給される通路やエンティティの注意分布を計算またはフィルタリングする。 0.72
In order to do so, it needs to precompute all possible outputs of numerical operations that generate new numbers for e.g. そのためには、例えば新しい数を生成する数値演算の全ての可能な出力を事前に計算する必要がある。 0.81
year-diffs in Example 9. Because of the relatively poorer performance of NMN-num, its outputs are only reported for the last 3 instances, which were cherrypicked based on NMN-num’s predictions. 例9の年差。 NMN-numのパフォーマンスが比較的低いため、その出力はNMN-numの予測に基づいて、最後の3つのインスタンスでのみ報告されている。 0.72
(iii) GenBERT first predicts whether the answer should be decoded or extracted from passage span and accordingly uses the Decoder output or extracted span as the answer. (iii)GenBERTは最初に、その解答をパススパンから復号するか、抽出すべきかを予測し、それに従ってデコーダ出力または抽出スパンを解答として使用する。
訳抜け防止モード: (iii)ゲンバートは最初に 回答は文節スパンから復号または抽出されるべきである そして、その解としてデコーダ出力または抽出スパンを使用する。
0.70
By design, the modular networks provide a more interpretable output than the monolithic encoder-decoder model GenBERT. 設計上、モジュールネットワークはモノリシックエンコーダデコーダモデルGenBERTよりも解釈可能な出力を提供する。 0.81
A.2 IMPLEMENTATION & PSEUDO-CODE A.2 実装と擬似コード 0.53
The source-code and models pertaining to this work would be open-sourced on acceptance of this work. この作業に関連するソースコードとモデルは、この作業の受け入れに基づいてオープンソース化される。 0.68
A detailed pseudo-code of the WNSMN algorithm is provided below. WNSMNアルゴリズムの詳細な擬似コードは次のとおりです。 0.74
14 14 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Algorithm 1 WNSMN Algorithm アルゴリズム1 WNSMNアルゴリズム 0.69
Input: (Query (q), Passage (p)) = x Output (or Supervision): Answer(y) ∈ R Preprocessing: 入力: (Query (q), Passage (p)) = x Output (or Supervision): Answer(y) ∈ R 前処理: 0.81
[num1, num2, . [num1, num2, . 0.92
. ., numN ] = N um = Extract-Numbers(p) [date1, date2, . . ., numn ] = n um = extract-numbers(p) [date1, date2, . 0.89
. ., dateD] = Date = Extract-Dates(p) . ., dateD] = Date = Extract-Dates(p) 0.89
// Number and Date // Entity and Passage Mentions // Number and Date // Entity and Passage Mentions 0.98
Inference: k (Anum ), (Adate 推測: k (元) ) (日付) 0.67
k , T num k k , T num k 0.85
) = Entity-Attention(qk, p, refk, N um, Date) ) = Entity-Attention(qk, p, refk, N um, Date) 0.96
aux = Entity-Inductive-Bia s(Anum, Adate) aux + Ldate aux = Entity-Inductive-Bia s(Anum, Adate) aux + Ldate 0.88
[(q1, ref1), . [(q1, ref1), 。 0.75
. . (qk, refk), . . . (qk, refk)。 0.78
. . (ql, refl)] = P rogram = Query-Parsing(q) for step (qk, refk) ∈ P rogram do , T num k end for Lnum aux , Ldate Laux = Lnum ql = Query Span Argument of Last Step refl = Reference Argument of Last Step T num = {T num k Operators = {op1, op2, . . . (ql, refl)] = P rogram = Query-Parsing(q) for step (qk, refk) ∈ P rogram do , T num k end for Lnum aux , Ldate Laux = Lnum ql = Query Span Argument of Last Step refl = Reference Argument of Last Step T num = {T num k Operators = {op1, op2, . 0.86
. . , opk1} = Operator-Predictor(q l, q) // Operator and EntityType EntT ypes = {type1, type2, . . . opk1} = Operator-Predictor(q l, q) // Operator and EntityType EntT ypes = {type1, type2, ...} である。 0.82
. . , typek1} = Entity-Type-Predicto r(ql, q) // Sampling Actions = {} // Action Sampling for each Operator for op, type ∈ (Operators, EntT ypes) do . . , typek1} = Entity-Type-Predicto r(ql, q) // Smpling Actions = {} // Action Smpling for each Operator for op, type ∈ (Operators, EntT ypes) do 0.88
// Program Arguments and Stacked Attention // Map over Entities for Last Step |k ∈ refl} if Program Arguments and Stacked Attention // Map over Entities for Last Step |k ∈ refl} 0.85
|k ∈ refl}, T date = {T date |k ∈ refl}, T date = {T date 0.85
Equation (1) aux k 方程式(1) オー k 0.71
§2.1.1 end for §2.1.1 終止符 0.47
Training: for i ∈ {1, . 訓練 i ∈ {1, に対して。 0.62
. . , NIM L + NRL} do . . , NIM L + NRL} do 0.85
for (x, y) ∈ D do x, y) ∈ D do に対して 0.86
A(x) ←− Actions sampled for input(x) // Using above Algorithm R(x, a, y) ←− Exact Match Reward for action a for instance x with gold answer y if i ≤ NIM L then Laux J IM L from Equation (2) 上述のアルゴリズム R(x, a, y) を用いて、入力(x) のためにサンプリングされた A(x) の作用 R(x, a, y) の作用 Exact Match Reward for Action a for action x with Gold answer y if i ≤ NIM L then Laux J IM L from Equation (2)
訳抜け防止モード: 上記のアルゴリズムR(x,x)を使用して、入力(x) //のためにサンプリングされたアクション。 a , y ) y− Exact Match Reward for action a instance x with gold answer y if i ≤ NIM L then Laux J IM L from Equation (2 )
0.88
J IM L over (A, R) + min J IM L over (A, R) + min 0.85
(θ, φ) ←− max (θ, φ) >-max 0.72
θ,φ φ else end if θ,φ φ その他 終われば 0.73
end for end for (θ, φ) ←− max 終止符 終止符 (θ, φ) >-max 0.65
θ,φ J RL over (A, R) + min θ,φ J RL over (A, R) + min 0.85
φ Laux J RL from Equation (3) φ ラウックス 方程式からのJ RL(3) 0.75
15 if type is Number then 15 型がNumberの場合 0.75
else if type is Date then さもなくば型が日付なら 0.66
T = T num T = T date T = T num T = T date 0.85
end if if op is diff then op が diff なら終了します。 0.65
if |refl|== 2 then もし |refl|= 2 なら 0.61
else if |refl|== 1 then end if もし |refl|= 1 なら終われば 0.69
arg1 = {arg11, arg12, . arg1 = {arg11, arg12, 0.90
. ., arg1k2} = Sample-1-Argument(T0 ) arg2 = {arg21, arg22, . . arg1k2} = Sample-1-Argument(T0 ) arg2 = {arg21, arg22, 0.80
. ., arg2k2} = Sample-1-Argument(T1 ) args = {(a1, a2)| (a1, a2) ∈ (arg1, arg2)} args = {arg1, arg2, . . arg2k2} = Sample-1-Argument(T1 ) args = {(a1, a2)| (a1, a2) ∈ (arg1, arg2)} args = {arg1, arg2, . 0.85
. ., argk2} = Sample-2-Argument(T0 ) . argk2} = Sample-2-Argument(T0 ) 0.83
args = {count1, count2, . args = {count1, count2, . 0.96
. ., countk2} = Count-Network((cid:8 0) args = {arg1, arg2, . . countk2} = Count-Network((cid:8 0) args = {arg1, arg2, . 0.88
. ., argk2} = Sample-Arbitrary-Arg ument((cid:80) . argk2} = Sample-Arbitrary-Arg ument(cid:80) 0.84
j Tj) j Tj) j Tj) j Tj) 0.85
else if op is count then さもなくば op が数えられるなら 0.63
else end if probs = {(ptype ∗ pop ∗ p)|p ∈ parg} ∈ Rk2 // p’s refer to the corresponding probabilities answers = {Execute-Discrete-Ope ration(type, op, arg)| arg ∈ args} ∈ Rk2 actions = {(prob, answer)| prob ∈ probs, answer ∈ answers} Actions = Actions ∪ actions その他 end if probs = {(ptype s pop s p)|p ∈ parg} ∈ Rk2 // p’s refer to the corresponding probabilities answer = {Execute-Discrete-Ope ration(type, op, arg)| arg ∈ args} ∈ Rk2 action = {(prob, answer)| prob ∈ prob, answer ∈ answer} Actions = Actions · Actions ・ Actions 0.77
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
A.3 QUALITATIVE INSPECTION OF WNSMN PREDICTIONS A.3 WNSMN予測の定量的検査 0.62
Good Action: Action Resulting in exact match with gold answer Correct Action: Action Manually annotated to be correct Number of test instances (DROP-num Test) Number of instances with atleast 1 good action Number of instances with more than 1 good action Average number of good actions (where there is atleast 1 good action) Average number of good actions (where there is more than 1 good action) Number of instances where the top-1 action is good action Number of instances where top-1 is the only good action Number of instances with possibility of top-1 action being spuriously good Number of instances manually annotated (out of possible cases of spurious top-1 action) Number of instances where top-1 action is found to be spurious Avg Ratio of Probability of Top Action and Maximum Probability of all other spuriously good actions (if any) Good Action: Action Resulting in exact match with gold answer Correct Action: Action Manually annotated to be correct Number of test instances (DROP-num Test) Number of instances with atleast 1 good action Number of instances with more than 1 good action Average number of good actions (where there is atleast 1 good action) Average number of good actions (where there is more than 1 good action) Number of instances where the top-1 action is good action Number of instances where top-1 is the only good action Number of instances with possibility of top-1 action being spuriously good Number of instances manually annotated (out of possible cases of spurious top-1 action) Number of instances where top-1 action is found to be spurious Avg Ratio of Probability of Top Action and Maximum Probability of all other spuriously good actions (if any) 0.92
5800 4868 2533 1.5 2.25 2956 2335 (79% of 2956) 620 (21% of 2956) 334 (out of 620) 5800 4868 2533 1.5 2.25 2956 2335 (2956の79%) 620 (2956の21%) 334 (620の範囲外) 0.92
28 (8.4% of 334) 4.4e+11 28(33の8.4%) 4.4e+11 0.56
Table 5: Analysis of the predictions of WNSMN on DROP-num Test 表5:DROP-numテストにおけるWNSMNの予測解析 0.87
Generic Observations/Notes • Note: When the model selects a single number in the Argument Sampling network and the Operator sampled is not of type count, we forcefully consider the operation as a NO-OP. 総合観測・ノート • 注意: モデルがArgument Smpling ネットワーク内の1つの番号を選択し、Operator が型カウントではない場合、我々はその操作を NO-OP として強制的に検討する。 0.61
For example sum/min/max over a single number or date is treated as NO-OP. 例えば、1つの数または日付の和/min/maxはNO-OPとして扱われる。 0.55
• One potential source of spuriously correct answer is the neural ‘counter’ module which can predict numbers in [1, 10]. 一つは[1, 10]の数字を予測できるneural ‘counter’モジュールです。
訳抜け防止モード: • 散発的に正しい答えの源の1つは、ニューラルネットワークの ‘counter ’ モジュールです。 1, 10 ] の数値を予測できる.
0.83
However, out of the cases where atleast one of the top-50 actions is a good action we observe that the model is able to learn when the answer is directly present as an entity or can be obtained through (non count) operations over other entities and when it cannot be obtained directly from the passage but needs to aggregate (i.e., count) over multiple entities. しかし、上位50のアクションのうち1つが良いアクションである場合のうち、モデルがエンティティとして直接存在するとき、または他のエンティティ上で(非カウント)操作をすることで、それが通路から直接取得できないが、複数のエンティティに集約(つまりカウント)する必要があるときに、そのモデルが学習できることを観察する。 0.78
Table 8 below gives some examples of hard instances where the WNSMN Top-1 prediction was found to be correct. 下の表8は、WNSMN Top-1予測が正しいと判明したハードインスタンスの例を示しています。 0.70
True Reasoning negate a passage entity i.e., 100 - number min/max of a set of passage entities 真推論は、通路エンティティの集合の100-番号min/maxを否定する 0.53
select one of the passage entities count over passage entities 通路の1つを選ぶ 通過する実体を数える 0.64
difference over passage entities (the same answer could be spuriously obtained by other non-difference operations over unrelated entites) difference over passage entities (the same answer could be spuriously obtained by difference over other unrelated entities) 通過エンティティ間の差(同じ回答は、非関連エンケリテートに対する他の非差分操作によって散発的に得られる) 通過エンティティ上の差(同じ回答は、他の非関連エンティティに対する差によって散発的に得られる) 0.64
Model Prediction the model was able to select negate of the correct entity as the top action. モデル予測 モデルは正しいエンティティのネゲートをトップアクションとして選択することができた。 0.78
the model instead directly sampled the correct minimum/maximum entity as a single argument and then applied NO-OP operation over it. その代わりにモデルは、正しい最小/最大エンティティを単一の引数として直接サンプリングし、その上でNO-OP操作を適用した。 0.61
the model was able to select the right entity and apply NO-OP on it as the top action. モデルは正しいエンティティを選択し、トップアクションとしてNO-OPを適用しました。 0.72
the model was able to put count as the top action and the spurious actions came much lower with almost epsilon probability the model was able to put difference as the top action and the spurious actions came much lower with almost epsilon probability モデルはトップアクションとしてカウントすることができ、スプリアスアクションはほぼエプシロン確率ではるかに低くなり、モデルはトップアクションとして違いを置くことができ、スプリアスアクションはほぼエプシロン確率ではるかに低くなりました。 0.74
the model was able to put difference over the correct arguments as the top action モデルは正しい引数を最上位のアクションとして区別することができた 0.83
Count 34 11 18 88 34番 11 18 88 0.79
89 66 Table 6: Case Study of the 306 instances manually annotated as Correct out of 334 instances 89 66 表6: 334インスタンスのうち、手動でアノテートされた306インスタンスのケーススタディ 0.83
16 16 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
True Reasoning difference of dates/months sum(number1, count([number2]) difference between entities 日付/月差の真の推論差分 sum(number1, count([number2])差分 0.73
difference between entities difference between entities difference between entities 実体の違い 実体の違い 実体の違い 0.56
question is vague/incomplete/cou ld not be answered manually counting over text spans (Very rare type of question, only 2 found out of 334) miscelleneous miscelleneous miscelleneous 質問は曖昧で不完全で、手動でテキストスパンを数えることができない(非常に稀なタイプの質問、334のうち2つしか見つからない) 0.65
Model Prediction count over years count over numbers sum over two arguments (both arguments wrong) difference over two arguments (both arguments wrong) count over entities sum over arguments (one correct) (correct action was taken in one of the other top-5 beams) count or difference モデル予測数 長年にわたる2つの引数の合計(どちらも引数の誤り) 2つの引数の差(1つの正しい)上のエンティティの和(他のトップ5ビームの1つで正しいアクションが取られた)の合計または差 0.64
wrong operator 間違ったオペレーター 0.66
wrong operator correct operator wrong arguments (one correct) correct operator wrong arguments (all wrong) wrong operator correct operator wrong arguments (one correct) correct operator wrong arguments (all wrong) 0.85
Count 4 1 1 カウント4 1 1。 0.82
1 1 2 2 2 7 2 5 1 1 2 2 2 7 2 5 0.85
Table 7: Case Study of the 28 instances manually annotated as Wrong out of 334 instances. 表7: 334インスタンスのうち、手動で注釈付けされた28インスタンスのケーススタディ。 0.78
Question How many printing had Green Mansions gone through by 1919? 質問 グリーンマンションは1919年までにいくつ印刷されたか? 0.72
Relevant Passage Excerpt “W. 関連パスの抜粋”W。 0.60
H. Hudson which went through nine printings by 1919 and sold over 20,000 copies.... ” ハドソンは1919年までに9冊の印刷を行い、2万部以上を売り上げた。 0.67
The Steelers finished their 1995 season having lost how many games difference to the number of games they had won? スティーラーズは1995年シーズンを終了し、勝利したゲーム数との違いを何回失ったのか? 0.78
How many more field goals did Longwell over Kasay? KasayよりもLongwellのフィールドゴールはいくつでしたか? 0.76
boot How many delegates were women from both the Bolshevik delegates and the Socialist Revolutionary delegates? ブーツ ボリシェヴィキの代議員と社会主義革命代議員の両方の女性は何人でしたか? 0.64
How many years in a row did the GDP growth fall into negatives? GDPの成長は、何年連続でマイナスになったのか? 0.82
At it’s lowest average surface temperature in February, how many degrees C warmer is it in May? 2月の平均表面温度は最低ですが、5月の気温はどのくらい暖かいですか? 0.71
How many years ibefore the blockade was the Uqair conference taken place? Uqairカンファレンスが封鎖されるまでは何年でしたか? 0.61
“In 1995, the Steelers overcame a 3-4 start (including a 20-16 upset loss to the expansion 1995 Jacksonville Jaguars season) to win eight of their final nine games and finished with an record, the secondbest in the AFC”. 1995年、スティーラーズは3~4回のスタート(1995年のジャクソンビル・ジャガース・シーズンに20~16回の敗戦を含む)を達成し、決勝9試合のうち8勝を挙げ、AFCで2位を記録した。
訳抜け防止モード: 1995年,スチーラーズは,最後の9試合のうち8試合に勝つために,3対4のスタート点(1995年ジャクソンビルジャガーズシーズンに20対16で敗れた)を乗り越えた。 そして、AFCで2番目に高い成績を収めた。
0.71
“26-yard field goal by kicker Ryan Longwell ... Carolina got a field goal with opposing kicker John Kasay. キッカーのライアン・ロングウェルによる26ヤードのフィールドゴール...カロライナは反対キッカーのJohn Kasayとフィールドゴールを得た。
訳抜け防止モード: 『26ヤードフィールドゴール キッカーライアン・ロングウェル...』 カロライナは相手キッカーのジョン・ケイジーとフィールドゴールを決めた。
0.70
... Vikings would respond with another Longwell field goal (a 22-yard FG) ... Longwell booted the game-winning 19-yard field goal ” “Of these mandatory candidates, only one Bolshevik and seven Socialist Revolutionary delegates were women.” バイキングは別のLongwellフィールドゴール(22ヤードFG)に反応します...Longwellはゲームで優勝した19ヤードフィールドゴールを起動しました。
訳抜け防止モード: ...バイキングは別のロングウェルフィールドゴール(22ヤードFG)で応答する。 ロングウェルは19ヤードのフィールドゴールを勝ち抜いた。 ボリシェヴィキと7人の社会主義革命代表のみが女性であった。
0.63
“Growth dropped to 0.3% in 1997, -2.3% in 1998, and -0.5% in 1999.” 1997年には0.3%、1998年には-2.3%、1999年には0.5%に成長した。 0.67
“The average surface water temperature is 26-28 C in February and 29 C in May.” 「表層水温は2月の26-28c、5月の29cである。」 0.76
“Ibn Saud imposed a trade blockade against Kuwait for 14 years from 1923 until 1937... At the Uqair conference in 1922, ... ” 「イブン・サウードは1923年から1937年まで14年間、クウェートに対する貿易封鎖を課した...1922年のウケール会議で...」 0.62
Model Prediction Analysis Model was able to rank the operation sum([9.0]) highest. モデル予測解析 操作和([9.0])を最高にランク付けすることができました。 0.78
the count-number operator had near-epsilon probability, indicating that indeed it did not find any indication of the answer being 9 by counting entities over the passage. カウント数演算子にはほぼエプシロン確率があり、実際にパス上のエンティティをカウントすることによって答えが9であることを示さなかったことを示唆している。
訳抜け防止モード: count - number operator had near - epsilon probability, shows that 事実 答えが9であることの 兆候は見つからなかった 通路の上の 実体を数えることによって
0.79
This is despite the fact that most of the ”how many” type questions need counting. これは、「どのくらい」タイプの質問のほとんどは数える必要があるという事実にもかかわらずです。 0.64
Model had to avoid distracting numbers (3,4) and (20,16) to understand that the correct operation is difference of (9-8) モデルは、正しい操作が(9-8)の差であることを理解するために、気晴らし番号(3,4)と(20,16)を避ける必要がありました。 0.60
Question needed counting of certain events and none of these appeared as numbers. 質問は特定の出来事を数える必要があり、どれも数字として現れなかった。 0.60
Model was able to apply count over number entities correctly モデルは、数エンティティのカウントを正しく適用することができた 0.65
Model was able to apply sum on the correct numbers, even though many of the ”how many” type questions need counting 型質問の多くが数える必要があるにもかかわらず、モデルが正しい数字に和を適用することができた 0.76
Model had to understand which numbers are ”negative”. モデルはどの数値が”負”であるかを理解する必要があった。 0.56
It also needed to understand to count the two events instead of taking difference of the years Passage had distrative unrelated numbers in the proximity but the model was able to select the lowest temperature out of (26,28) and then take difference of (29-26) また,2つの事象を経年差で計算する代わりに,近距離で非関係な乱数を計算する必要があるが,モデルでは最低温度(26,28)を選択して (29-26) 差を取ることができた。 0.78
Passage had other distracting unrelated numbers in the proximity but the model was able to select the correct difference operation パッセージは近距離で他の注意をそらさない番号を持っていたが、モデルでは正しい差分演算を選択できた。
訳抜け防止モード: 通路には他の気まぐれな無関係な番号が しかしモデルは正しい差分操作を 選択できたのです
0.74
Table 8: Manual Analysis of a few hard instances (with Question and Relevant Passage Excerpt) where WNSMN top-1 prediction was found to be correct 表8: WNSMN top-1予測が正しいと判明したいくつかのハードインスタンス(質問と関連パス抜粋付き)の手動分析。 0.79
A.4 BACKGROUND: NUMERICAL REASONING OVER TEXT A.4 BACKGROUND:Numerical Reasoning OVER TEXT 0.84
The most generic form of Numerical reasoning over text (NRoT) is probably encompassed by the machine reading comprehension (MRC) framework (as in Dua et al. テキスト上の数値推論(NRoT)の最も一般的な形式は、おそらく機械読解(MRC)フレームワーク(Dua et al.)によって包含される。 0.79
(2019)), where given a long passage context, c, the model needs to answer a query q, which can involve generating a numerical or textual answer or selecting a numerical quantity or span of text from the passage or query. (2019))、長文の文脈cを与えられた場合、そのモデルはクエリqに答える必要があり、これは、数値やテキストの回答を生成したり、パスやクエリから数量やテキストのスパンを選択することを含む。 0.74
The distinguishing factor from general RC is the need to perform some numerical computation using the entities and numbers in the passage to reach the goal. 一般的なRCと区別する要因は、目標に達するために通路内の実体と数を用いて数値計算を行う必要があることである。 0.68
17 17 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Discrete/symbolic reasoning in NRoT: In the early NRoT datasets ? NRoTにおける離散/シンボリック推論:初期のNRoTデータセットでは? 0.65
?Koncel-Kedziorski et al. とKoncel-Kedziorskiさん。 0.84
(2016) which deal with simpler math word problems with a small context and few number entities, symbolic techniques to apply discrete operations were quite popular. 小さい文脈と少数の実体を持つ単純な数学の単語問題を扱う(2016)、離散演算を適用するシンボリックテクニックは非常に人気があった。 0.73
However, as the space of operations grow or the question or the context becomes more open-ended these techniques fail to generalize. しかし、操作の空間が大きくなるか、質問や文脈がよりオープンになるにつれて、これらのテクニックは一般化に失敗する。
訳抜け防止モード: しかし 操作の空間が拡大したり 問題や状況がよりオープンになるにつれて -これらの技法の一般化に失敗。
0.64
Incorporating explicit reasoning in neural models as discrete operations requires handling nondifferentiable components in the network which leads to optimization challenges. 離散的な操作としてニューラルモデルに明示的な推論を組み込むには、ネットワーク内の非微分コンポーネントの処理が必要であり、最適化の課題につながる。
訳抜け防止モード: 離散操作としてニューラルモデルに明示的な推論を組み込む 最適化の課題につながるネットワーク内の非差別化コンポーネントを処理する必要があります。
0.59
Discrete reasoning using RL: Recently Deep Reinforcement Learning (DRL) has been employed in various neural symbolic models to handle discrete reasoning, but mostly in simpler tasks like KBQA, Table-QA, or Text-to-SQL Zhong et al. 近年のDeep Reinforcement Learning (DRL)は、離散的推論を扱うために、さまざまなニューラルネットワークのシンボルモデルに採用されているが、KBQA、Table-QA、Text-to-SQL Zhongなど、より単純なタスクがほとんどである。
訳抜け防止モード: RLを用いた離散推論 : 最近の神経記号モデルにおける深層強化学習 (DRL) の応用 個別の推論に対処するためです KBQA, Table - QA, Text - to - SQL Zhong et al といった単純なタスクがほとんどです。
0.77
(2017); Liang et al. (2017年)、Liang et al。 0.41
(2018; 2017); Saha et al. (2018年、2017年)、Sahaら。 0.67
(2019); ? ); ?. (2019); ? ); ?. 0.69
Such tasks can be handled by well-defined components or modules, with well structured function-prototypes (i.e., function arguments can be of specific variable-types e.g., KB entities or relations or Table row/column/cell values), which can be executed entirely as a symbolic process. このようなタスクは、よく定義されたコンポーネントやモジュールで処理でき、よく構造化された関数プロトタイプ(例えば、関数引数は特定の変数タイプ、例えばKBエンティティやリレーションシップ、テーブル行/カラム/セル値など)は、完全にシンボリックプロセスとして実行することができる。 0.64
On the other hand, MRC needs more generalized frameworks of modular networks involving fuzzy forms of reasoning, which can be achieved by learning to execute the query over a sequence of learnable neural modules, as explored in Gupta et al. 一方、MRCは、Gupta et alで検討されているように、学習可能な神経モジュールのシーケンス上でクエリを実行することを学ぶことによって達成できるファジィな推論を含むモジュラーネットワークのより一般化されたフレームワークを必要とします。 0.64
(2020). This was inspired by the Neural Modular Networks which have proved quite promising for tasks requiring similar fuzzy reasoning like Visual QA ??. (2020). これはNeural Modular Networksに触発され、Visual QA ?のようなファジィな推論を必要とするタスクにかなり有望であることが証明された。 0.76
SoTA models on DROP: While the current leaderboard-topping models already showcase quite superior performance on the reasoning based RC task, it needs closer inspection to understand whether the problem has been indeed fully solved. 現在のleaderboard-toppingモデルはすでにreasoningベースのrcタスクで非常に優れたパフォーマンスを示しているが、問題が実際に完全に解決されたかどうかを理解するにはより綿密な検査が必要である。 0.62
Pre-trained Language Models: On one hand, the large scale pretrained language models Geva et al. 事前訓練言語モデル: 一方、大規模な事前訓練言語モデルであるGeva et al。 0.79
(2020) use Transformer encoder-decoder (with pretrained BERT) to emulate the input-output behavior, decoding digit-by-digit for numeric and token-by-token for span based answers. (2020) Transformer encoder-decoder (トレーニング済みBERT) を用いて入力出力動作をエミュレートし、数値とトークンを数値で復号する。 0.80
However such models perform poorly when only trained on DROP and need additional synthetic dataset of numeric expressions and DROP-like numeric textual problems, each augmented with the gold numeric expression form. しかし、このようなモデルは、ドロップでのみトレーニングした場合に性能が悪く、さらに数値表現の合成データセットとドロップライクな数値テキストの問題が必要となり、それぞれがゴールド数値表現形式で拡張される。 0.54
Reasoning-free Hybrid Models: On the other hand, a class of hybrid neural models have also gained SoTA status on DROP by explicitly handling the different types of numerical computations in the standard extractive QA pipeline. 推論自由ハイブリッドモデル(Reasoning-free Hybrid Models): 一方、標準抽出QAパイプラインにおける異なる種類の数値計算を明示的に扱うことで、DROP上のSoTAステータスも取得されている。 0.77
Most of the models in this genre, like NumNet (Ran et al. このジャンルのモデルのほとんどは、NumNet(Ran et al)のようなものだ。 0.71
(2019)), NAQANet (Dua et al. (2019)、NAQANet(Dua et al)。 0.76
(2019)), NABERT+(Kinley & Lin (2019)), MTMSN (Hu et al. (2019)、NABERT+(Kinley & Lin (2019))、MTMSN(Hu et al)。 0.81
(2019)) and NeRd (Chen et al. (2019)およびNeRd(Chen et al)。 0.79
(2020)) do not actually treat it as a reasoning task; instead they precompute an exhaustive enumeration of all possible outcomes of numerical and logical operations (e.g., sum/diff, negate, count, max/min) and augment the training data with knowledge of the query-type (depending on reasoning-type) and all the numerical expression that leads to the correct answer. (2020)は、実際に推論タスクとして扱うのではなく、数値および論理演算(例えば、sum/diff, negate, count, max/min)の可能なすべての結果の総括列挙をプリ計算し、クエリタイプ(推論型に依存している)と正しい答えにつながるすべての数値表現の知識でトレーニングデータを増強する。 0.85
This reduces the question-answering task to simply learning a multi-type answer predictor to classify into the reasoning-type and directly predict the numerical expression, thus alleviating the need for rationalizing the inference or handling any (non-differentiable) discrete operation in the optimization. これにより、マルチタイプ回答予測器を単に学習して推論型に分類し、直接数値式を予測し、推論の合理化や最適化における(微分不能な)離散操作の処理の必要性を軽減することができる。 0.77
Some of the initial models in this genre are NAQANet(Dua et al. このジャンルの初期モデルのいくつかはNAQANet(Dua et al.)です。 0.75
(2019) and NumNet (Ran et al. (2019) と NumNet (Ran et al)。 0.86
(2019)) which are respectively numerically aware enhancements of QANet(?) (2019)は、それぞれQANet(?)の拡張を数値的に認識している。 0.60
and the Graph Neural Networks. そしてグラフニューラルネットワーク。 0.60
These were followed by BERT-based models, NABERT and NABERT+(Kinley & Lin (2019)), i.e. 続いてBERTベースのモデル、NABERT+(Kinley & Lin (2019))、すなわちNABERT+(Kinley & Lin)が続いた。 0.63
a BERT version of the former, enhanced with standard numbers and expression templates for constraining numerical expressions. 数値表現を制限するための標準数字と式テンプレートで強化された前者のBERTバージョン。 0.75
MTMSN Hu et al. MTMSN Huら。 0.60
(2019) models a specialized multi-type answer predictor designed to support specific answer types (e.g., count/negation/add/s ub) with supervision of the arithmetic expressions that lead to the gold answer, for each type. (2019)は、特定の解型(例えば、カウント/ネゲーション/アッド/サブ)をサポートするように設計された特殊多型対応予測器をモデル化し、各型に対して金の解につながる算術式を監督する。 0.63
Modular Networks for Reasoning: NMN (Gupta et al., 2020) is the first model to address the QA task through explicit reasoning by learning to execute the query as a specialized program over learnable modules tailored to handle different types of numerical and logical operations. Modular Networks for Reasoning: NMN (Gupta et al., 2020) は、さまざまな種類の数値および論理操作を処理するためにカスタマイズされた学習可能なモジュール上の特別なプログラムとしてクエリを実行することを学ぶことによって、明確な推論を通じてQAタスクに対処する最初のモデルです。 0.72
However, to do so, it further needs to augment the training data with annotation of the gold program and gold program execution i.e. しかし、それを行うには、ゴールドプログラムとゴールドプログラム実行のアノテーションでトレーニングデータをさらに強化する必要があります。 0.67
the exact discrete operation and numerical expression (i.e., the numerical operation and operands) that leads to the correct answer for e.g., the supervision of the gold numerical expression in Figure 1 is SUM(23, 26, 42). 正確な離散演算と数値式(すなわち、数値演算と演算)、例えば図1の金数値表現の監督はSUM(23, 26, 42)である。
訳抜け防止モード: 正確な離散演算と数値表現(すなわち数値演算とオペランド) 図1における金の数値表現の監督などに対する正しい答えにつながる は sum(23 , 26 , 42 ) である。
0.69
This is usually obtained through manual inspection of the data through regex based pattern matching and heuristics applied on the query language. これは通常、regexベースのパターンマッチングとクエリ言語に適用されるヒューリスティックを通じて、データの手動検査によって得られる。 0.71
However, because of the abundance of templatized queries in DROP this pattern matching is infact quite effective and noise-free, resulting in the annotations acting as strong supervision. しかし、DROPのテンプレート化クエリが豊富にあるため、このパターンマッチングは非常に効果的でノイズフリーであり、結果としてアノテーションは強力な監視役として機能する。 0.54
However such a manual intensive process severely limits the overall model from scaling to more general settings. しかし、このような手動の集中的なプロセスは、モデル全体のスケーリングをもっと一般的な設定に制限します。 0.58
This is especially true for some of the previous reasoning based models, NABERT+, これは、以前の推論ベースのモデル、NABERT+では特に当てはまります。 0.71
18 18 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
NumNet and MTMSN which perform better on than NMN (infact achieve SoTA performance) on the full DROP dataset. NumNet と MTMSN は、完全な DROP データセット上で NMN よりも優れたパフォーマンスを発揮します。 0.77
But we do not consider them as our primary baselines, as, unlike NMN, these models (Hu et al. しかし、NMNとは異なり、これらのモデル (Hu et al) は主要なベースラインとはみなしていない。 0.76
(2019); ? ); Dua et al. (2019); ? ; Dua et al。 0.65
(2019); Ran et al. (2019年)、Ran et al。 0.68
(2019)) do not have any provision to learn in absence of the additional supervision generated through exhaustive enumeration and manual inspection. (2019)) 徹底的な列挙と手作業による検査によって生成された追加の監督なしでは学習する条項がない。 0.70
(Gupta et al., 2020) have been the first to train a modular network strong, albeit a more fine-grained supervision for a fraction of training data, and auxiliary losses that allow them to learn from the QA pairs alone. (Gupta et al., 2020)は、トレーニングデータの一部に対してよりきめ細やかな監督とQAペアだけで学ぶことができる補助的損失にもかかわらず、モジュール化されたネットワークを強力にトレーニングした最初の例です。 0.75
Consequently on a carefully-chosen subset of DROP, NMN showcased better performance than NABERT and MTMSN, when strong supervision is available only for partial training data. その結果、DROPの慎重に選択されたサブセットでは、NMNはNABERTやMTMSNよりも優れたパフォーマンスを示しました。 0.58
Our work takes it further along the direction in two ways 私たちの研究は 方向をさらに2つの方法で 0.75
• while NMN baseline can handle only 6 specific kinds of reasoning, for which they tailored the program generation and gold reasoning annotation, our model works on the full DROPnum, that involves more diverse kinds of reasoning or more open-ended questions, and requires evaluating on a subset ×7.5, larger by training on ×4.5 larger training data. • nmn ベースラインはプログラム生成とゴールド推論アノテーションを調整した 6 種類の推論しか扱えないが、我々のモデルは、より多様な推論やよりオープンな質問を含む完全なdropnum で動作し、×4.5 より大きいトレーニングデータでトレーニングすることで、サブセット ×7.5 で評価する必要がある。 0.75
• while NMN generalized poorly on the full DROP-num, especially when only one or more types of supervision is removed, our model performs significantly better without any of these types of supervision. • NMN は完全な DROP-num を十分に一般化していないが,特に 1 種類以上の監督が取り除かれた場合,これらの種類の監督を伴わずに,我々のモデルは大幅に向上した。
訳抜け防止モード: • NMN は完全な DROP - num ではあまり一般化しなかった。 特に1つ以上の 監督が取り除かれた場合 我々のモデルは いかなる監視も無しに はるかに優れた性能を発揮できる
0.75
Together, NMN and GenBERT are some of the latest works in the two popular directions (reasoning and language model based) for DROP that allow learning with partial no strong supervision and hence act as primary baselines for our model. nmnとgenbertは共同で、部分的な監督なしで学習を可能とし、それゆえ、私たちのモデルの基本的なベースラインとして振る舞う2つの一般的な方向性(合理化と言語モデルに基づく)における最新の作品である。
訳抜け防止モード: NMNとGenBERTは、この2つの人気方向の最新作の1つだ。 (推論と言語モデルに基づく) DROPは、部分的な教師なしの学習を可能にするため、モデルの主要なベースラインとして機能します。
0.65
Since in this work we are investigating how neural models can incorporate explicit reasoning, we focus on only answering questions having numerical answer (DROP-num), where we believe the effect of explicit reasoning is more directly observeable. この研究では、神経モデルが明示的推論をどのように組み込むかを調査しているため、明示的推論の効果がより直接観察可能であると信じている数値的回答(drop-num)を持つ質問のみに焦点をあてる。 0.64
This is backed up by the category-wise performance comparison of reasoning-free language model GenBERT (reported in Geva et al. これは、推論フリー言語モデルGenBERT(Geva et alで報告)のカテゴリ単位のパフォーマンス比較によって裏付けられています。 0.66
(2020)) with other hybrid models (MTMSN and NABERT+) that exploit numerical computation required in answering DROP questions. DROPの質問に答えるために必要な数値計算を利用する他のハイブリッドモデル(MTMSNおよびNABERT+)と(2020)。 0.80
While, on DROP-num, there is an accuracy gap of 33% between the GenBERT model and the hybrid models (when all are trained on DROP only), there is only a 2-3% performance gap on the subset having answers as single span, despite the latter also needing reasoning. DROP-numでは、GenBERTモデルとハイブリッドモデルの間には33%の精度のギャップがある(すべてDROPでトレーニングされている場合)が、後者も推論を必要とするにもかかわらず、サブセットの回答が単一のスパンである場合、パフォーマンスのギャップは2-3%に過ぎない。 0.75
This evinces that the performance gap is indeed due to exploiting explicit reasoning under such strong supervised settings. これは、パフォーマンスのギャップが実際にそのような強力な監督された設定の下で明示的な推論を利用するためであることを証明します。 0.36
A.4.1 LIMITATIONS OF NMN A.4.1 NMNの制限 0.56
The primary motivation behind our work comes from some of the limitations of the contemporary neural module networks, NMN and the reasoning-free hybrid models MTMSN, NABERT+, NumNet, NAQANet; specifically their dependence on the availability of various kinds of strong supervision. 私たちの研究の背後にある主な動機は、現代のニューラルネットワークネットワークであるNMNと、推論不要のハイブリッドモデルであるMTMSN、NABERT+、NumNet、NAQANetの制限、特に、さまざまな強力な監視の可用性への依存によるものです。 0.68
For that we first describe the nature of programmatic decompositions of queries used in the modular architectures in the closest comparable work of NMN. そのため、NMNの最も近い研究において、モジュラーアーキテクチャで使用されるクエリのプログラム分解の性質を最初に記述する。 0.65
NMN defined a program structure with modules like ‘find’, ‘filter’, ‘relocate’, ‘find-num’, ‘find-date’, ‘year-difference’, ‘max-num’, ‘min-num’, ‘compose-number’ etc., to handle a carefully chosen subset of DROP showcasing only 6 types of reasoning, (i.e. NMNは、‘find’, ‘filter’, ‘relocate’, ‘find-num’, ‘find-date’, ‘year-difference’, ‘max-num’, ‘min-num’, ‘compose-number’などのモジュールを持つプログラム構造を定義し、DROPの慎重に選択されたサブセットを処理する。 0.93
Date-Difference, Count, Extract Number, Number Compare). Date-Difference, Count, Extract Number, Number Compare)。 0.92
For e.g. for the query Which is the longest goal by Carpenter? 例えば。 Carpenterの一番長いゴールはどれですか? 0.50
the program structure would be (MAX(FILTER(FIND(‘Carpenter’), ‘goal’)), where each of these operations are learnable networks. プログラム構造は(MAX(FILTER(FIND(‘Carpenter’), ‘goal’)で、それぞれが学習可能なネットワークになります。 0.66
However to facilitate learning of such specialized programs and the networks corresponding to these modules, the model needs precomputation of the exhaustive output space for different discrete operation and also various kinds of strong supervision signals pertaining to the program generation and execution. しかし、これらの特殊なプログラムやこれらのモジュールに対応するネットワークの学習を容易にするためには、プログラムの生成と実行に関する各種の強い監視信号と、異なる個別操作のためのアウトプット空間の事前計算が必要である。 0.72
Precomputation of the Exhaustive Output-Space: For operations that generate a new number as its output (e.g., sum/diff ), the annotation enumerates the set of all possible outputs by computing over all subsets of number or date entities in the passage. 排他的出力空間の事前計算: 出力として新しい数を生成する演算(例えば sum/diff )に対して、アノテーションは、その節における数または日付エンティティのすべてのサブセットの計算により、可能なすべての出力の集合を列挙する。 0.74
This simplifies the task by allowing the model to directly learn to optimize the likelihood of the arithmetic expression that lead to the final answer, without any need for handling discrete operations. これにより、モデルは、離散的な操作を処理することなく、最終的な答えにつながる算術式の可能性を直接学習できるようになり、タスクを簡素化する。
訳抜け防止モード: これにより、モデルを直接学習させることで、タスクを単純化する 最後の答えにつながる算術表現の可能性を最適化するのです 個別の操作は不要です
0.81
Program Supervision provides supervision of the query category out of the 6 reasoning categories, on which their program induction grammar is tailored to. プログラム監督は、プログラム誘導文法が調整されている6つの推論カテゴリのうち、クエリカテゴリの監督を提供します。 0.72
With this knowledge they can directly use the category specific grammar to induce the program ( for e.g. この知識で、プログラムを誘導する(例えば、)ためにカテゴリ固有の文法を直接使うことができる。 0.65
SUM(FILTER(FIND)) in Fig 1). 図1のSUM(FILTER(FIND))。 0.69
Further all 19 さらに全部 19 0.79
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
these models (NMN, MTMSN, NABERT+, NumNet, NAQANet) use the supervision of the query category to understand whether the discrete operation is of type count or add/sub or max/min. これらのモデル(nmn、mtmsn、nabert+、numnet、naqanet)はクエリカテゴリの監督を使用して、離散演算が型カウントかadd/subかmax/minかを理解する。
訳抜け防止モード: これらのモデル(nmn, mtmsn, nabert+, numnet, naqanet)はクエリカテゴリの監督を利用する。 離散演算が型数かadd/subかmax/minかを理解する。
0.71
which includes the knowledge of the ‘gold’ discrete operation (i.e. これは‘金の’離散演算(すなわち)の知識を含む。 0.62
count or max/min or add/sub) to perform. count, max/min, add/sub) を実行する。 0.70
Query Attention Supervision provides information about the query segment to attend upon in each step of the program, as the program argument for e.g. クエリ注意監督は、例えば、プログラムの引数として、プログラムの各ステップに出席すべきクエリセグメントに関する情報を提供する。 0.72
in Fig 1, ‘Carpenter’ and ‘goal’ in the 1st and 2nd step of the program. fig 1では、'carpenter' と 'goal' はプログラムの第1および第2段階である。 0.77
Execution Supervision: For operations that select one or more of the number/date entities in the passage, (for e.g. 実行監督: 通路内の番号/日付のエンティティの1つ以上を選択する操作(例えば、)。 0.73
max/min), rule based techniques provide supervision of the subset of numbers or dates entities from the passage, over which the operation is to be performed. max/min)、ルールベースの技術は、操作を実行するためのパスから、数や日付のエンティティのサブセットの監督を提供する。
訳抜け防止モード: max / min )ルールベースの手法は、数の部分集合の監督を提供する あるいは、その操作が実行される節から日付を付けます。
0.66
These annotations are heuristically generated through manual inspection and regular expression based pattern matching of queries, thus limiting their applicability to a small subset of DROP only. これらのアノテーションは、手動検査と正規表現に基づくクエリのパターンマッチングによってヒューリスティックに生成され、DROPの小さなサブセットに限定される。 0.78
Furthermore, using a hand-crafted grammar to cater to the program generation for each of their reasoning categories, hinders their generalizability to more open ended settings. さらに、各推論カテゴリのプログラム生成に対応するために手作りの文法を使用することで、よりオープンな設定への一般化を妨げている。 0.65
While this kind of annotation is feasible to get in DROP, this is clearly not the case with other futuristic datasets, with more open-ended forms of query, thus calling for the need for other paradigms of learning that do not require such manually intensive annotation effort. この種のアノテーションはDROPでは実現可能ですが、これは明らかに他の未来的なデータセットには当てはまりません。よりオープンな形式のクエリでは、このような手作業による集中的なアノテーション作業を必要としない他の学習パラダイムの必要性が求められます。 0.65
A.4.2 PRETRAINING DATA FOR GENBERT A.4.2 ゲノムの予測データ 0.48
While GenBERT (Geva et al. GenBERT (Geva et al) の略。 0.66
(2020)) greatly benefits from pretraining on synthetic data, there are few notable aspects of how the synthetic textual data was carefully designed to be similar to DROP. (2020) は, 合成データの事前学習に大きく寄与するが, DROPと類似したテキストデータを慎重に設計する方法については, 注目すべき点がほとんどない。 0.72
The textual data was generated for the same two categories nfl and history as DROP with similar vocabulary and involving the same numerical operations over similar ranges of numbers (2-3 digit numbers for DROP and 2-4 digit numbers for synthetic textual data). テキストデータは、類似の語彙を持つDROPと同一の2つのカテゴリnflと履歴に対して生成され、類似の数字(DROPでは2-3桁、合成テキストデータでは2-4桁)の数値演算を含む。 0.81
The intentional overlap between these two datasets is evident from the t-SNE plots (in Figure 6) of the pretrained Sentence-Transformer embedding of questions from DROP-num (blue) and the Synthetic Textual Data (red). これらの2つのデータセット間の意図的な重複は、drop-num(青)とsynthetic textual data(赤)からの質問を事前学習した文変換のt-sneプロット(図6)から明らかである。 0.70
Further, while the generalizability of GenBERT was tested on add/sub operations from math word problems (MWP) datasets ADD-SUB, SOP, SEQ, their synthetic textual data was also generated using the same structure involving world state and entities and verb categories used by ? さらに、算術語問題(MWP)データセットの加算/副操作に対して、GenBERTの一般化可能性をテストする一方で、それらの合成テキストデータも、世界状態や実体、動詞のカテゴリが使われるのと同じ構造を用いて生成した。 0.70
to generate these MWP datasets. MWPデータセットを生成します 0.75
Such bias limits mitigates the real challenges of generalizability, limiting the true test of robustness of such language models for numerical reasoning. このようなバイアスは一般化可能性の真の課題を軽減し、数値推論のための言語モデルの堅牢性に関する真のテストを制限する。 0.59
Figure 6: t-SNE of questions in DROP-num-Test and Synthetic Textual Data used in GenBERT models (TD and ND+TD) 図6:GenBERTモデル(TDおよびND+TD)におけるDROP-num-TestおよびSynthetic Textual Dataにおける質問のt-SNE 0.73
A.5 QUERY PARSING: DETAILS A.5 問い合わせ処理:DETAILS 0.62
The Stanford Dependency parse tree of the query is organized into a program structure as follows クエリのスタンフォード依存構文解析ツリーは、以下のプログラム構造に編成される。 0.77
• Step 1) A node is constructed out of the subtrees rooted at each immediate child of the root, • Step 1) ノードは、ルートの各初期子にルートされたサブツリーから構築される。 0.73
the left-most node is called the root-clause 左端のノードはroot-clauseと呼ばれる 0.74
• Step 2) Traversing the nodes from left to right, an edge is added between the left-most to every other node, and each of these are added as steps of the program with the node as the query span argument of that step and the reference argument as the incoming edges from past program steps • ステップ 2) ノードを左から右にトラバースし、エッジを最左端から他のすべてのノードの間に追加し、各ノードをそのステップのクエリスパン引数としてプログラムのステップとして追加し、参照引数を過去のプログラムステップからのエッジとして参照する。 0.84
• Step 3) The terminal (leaf) nodes obtained in this manner are then further used to add a final step of the program which is responsible for handling the discrete operation. • step 3) この方法で得られた端末(リーフ)ノードは、離散操作を処理するプログラムの最終ステップを追加するためにさらに使用される。 0.78
The query-span argument of this step is the root-clause, which often is indicative of the kind of discrete reasoning to perform. このステップのクエリスパン引数はroot-clauseであり、これはしばしば実行すべき離散推論の種類を示す。 0.71
The reference arguments of this step are the leaf nodes obtained from Step 2). このステップの参照引数は、ステップ2から取得したリーフノードである。 0.69
Figure 7 provides some example queries similar to those in DROP along with their Dependency Parse Tree and the Simplified Representation obtained by constructing the nodes and edges as in Step 1) and 2) above, and the final program which is used by WNSMN. 図7は、Dependency Parse Treeと、上記のステップ1)と2)のようにノードとエッジを構築して得られるSimplified Representationと、WNSMNによって使用される最終プログラムと、DROPのそれらに類似したクエリの例です。 0.75
Note that in this simplified representation of the parse tree the root-word of the original parse tree is absorbed in its immediate このパースツリーの単純化された表現において、元のパースツリーの根語はその即時に吸収されることに注意。 0.54
20 20 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
Figure 7: Examples of Programs for WNSMN obtained from the Dependency Parse Tree of the Query 図7:クエリの依存性Parseツリーから得られたWNSMNのプログラム例 0.71
succeeding child. Also we simplify the structure in order to limit the number of reference arguments in any step of the program to 2, which in turn requires the number of terminal nodes (after step 2 of the above process) to be limited to 2. 後継の子。 また、プログラムの任意のステップで参照引数の数を2に制限するために構造を簡素化します。これは、(上記のプロセスのステップ2の後)端末ノードの数を2に制限する必要があります。 0.67
This is done in our left to right traversal by collapsing any additional terminal node into a single node. これは左から右のトラバーサルで行われ、追加の終端ノードを1つのノードに分解します。 0.67
A.6 RL FRAMEWORK: DETAILS A.6 RL FRAMEWORK:DETAILS 0.82
In this section we discuss some additional details of the RL framework and tricks applied in the objective function Iterative ML Objective: In absence of supervision of the true discrete action that leads to the correct answer, this iterative procedure fixes the policy parameters to search for the good actions (where Agood = {a : R(x, a) = 1}) and then optimizes the likelihood of the best one out of them. このセクションでは、RLフレームワークのさらなる詳細と、目的関数の反復ML Objectiveに適用されるトリックについて説明します。正しい答えにつながる真の離散的なアクションの監督がない場合、この反復手順は、良いアクション(Agood = {a : R(x, a) = 1})を検索するためのポリシーパラメータを修正し、そこから最高のアクションの可能性を最適化します。 0.79
However, the simple, conservative approach of defining the best action as the most likely one according to the current policy can lead to local minima and overfitting issues, especially in our particularly sparse and confounding reward setting. しかし、現在の方針に従ってベストアクションを最も可能性の高いものとして定義する単純で保守的なアプローチは、局所的なミニマと過度に適合する問題を引き起こす可能性がある。 0.70
So we take a convex combination of a conservative and a non-conservative selection that respectively pick the most and least likely action according to the current policy out of Agood as best. したがって、我々は保守的な選択と非保守的な選択の凸を組み合わせ、それぞれがAgoodの現在の方針に従って最もかつ最もありそうにない行動を選択する。 0.75
Hyperparameter λ weighs these two parts of the objective and is chosen to be quite low (1e−3), to serve the purpose of an epsilon-greedy exploration strategy without diverging significantly from the current policy. ハイパーパラメータλは、この2つの目標の重み付けをしており、現在の政策から大きく逸脱することなく、エプシロン・グリーディ探査戦略の目的のために非常に低い(1e−3)と選択されている。 0.66
(1 − λ) max a∈Agood 1 − λ) max a∈Agood 0.90
log Pθ,φ(a|x) + λ min a∈Agood log P φ(a|x) + λ min a∈Agood 0.91
log Pθ,φ(a|x) log Pθ,φ(a|x) 0.86
Using Noisy Pseudo-Reward: In addition to using the REINFORCE objective to maximise the likelihood of actions that lead to the correct answer, we can also obtain different noisy pseudo rewards (∈ {−1, +1}) for the different modules that contribute towards the action sampling (i.e. Noisy Pseudo-Rewardの使用:REINFORCEの目的を使用して正しい答えにつながる行動の可能性を最大化することに加えて、アクションサンプリング(すなわち、アクションサンプリングに寄与する異なるモジュールのための異なる騒々しい擬似報酬(∈ {−1, +1})を得ることもできます。 0.79
the operator and the entity-type and different argument sampler networks). 演算子とエンティティタイプと異なる引数サンプルネットワーク)。 0.67
Towards this end, we この目的に向けて 我々は 0.53
J IM L(θ, φ) = J IM L(θ, φ) = 0.85
(cid:88) x (cid:88) x 0.82
21 21 0.85
英語(論文から抽出)日本語訳スコア
Arxiv Preprint Version 2021 Arxiv プレプリントバージョン 2021 0.90
define pseudo-reward for sampling an operator as the maximum of the reward obtained from all the actions involving that operator. オペレータをサンプリングする擬似再帰を、オペレータを含むすべてのアクションから得られる報酬の最大値として定義する。 0.75
Similarly, we can also define reward for predicting the entity-type (date or number) over which the discrete operation should be executed. 同様に、離散操作を実行するエンティティタイプ(日付または数)を予測するための報酬を定義することもできます。 0.74
Following the same idea, we also obtain pseudo rewards for the different argument sampling modules. 同じ考えに従って、異なる引数サンプリングモジュールの擬似報酬も取得します。 0.64
For e.g. if the most likely operator (as selected by the Operator Sampler) is of type count and it gets a pseudo-reward of +1, then, in that case, we can use the reward obtained by the different possible outputs of the Counter network as a noisy pseudo-label supervision and subsequently add an explicit loss of negative log-likelihood to the final objective for the Counter module. 例えば。 もし最も可能性の高い演算子 (Operator Sampler が選択した) が型数で +1 の擬似逆戻り値を得るなら、その場合、Counter ネットワークの異なる出力によって得られる報酬をノイズの多い擬似ラベルの監視として利用でき、その後、Counter モジュールの最終目的に負のログライクフィフレーションの明示的な損失を加えることができる。 0.58
Similar pseudo-reward can be designed for the Entity-Ranker module when the most likely operator sampled by the Operator Sampler needs arbitrary number of arguments. 同様の擬似報酬は、Operator Samplerがサンプリングする最も可能性の高い演算子が任意の数の引数を必要とする場合、Entity-Rankerモジュール用に設計することができる。 0.59
Treating the pseudo-reward as a noisy label can lead to a negative-log-likelih ood based loss on output distribution from the Entity-Ranker, following the idea that the correct entities should atleast be ranked high so as to get selected when sampling any arbitrary number of entities. 偽リワードをノイズラベルとして扱うことは、任意の数のエンティティをサンプリングする際に選択されるように、正しいエンティティを上位にランク付けするという考えに従い、Entity-Rankerからの出力分布に負のlog-likelihoodに基づく損失をもたらす可能性がある。 0.68
22 22 0.85
                                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。