論文の概要、ライセンス

# (参考訳) 構成的に一般化するメタラーニング [全文訳有]

Meta-Learning to Compositionally Generalize ( http://arxiv.org/abs/2106.04252v1 )

ライセンス: CC BY 4.0
Henry Conklin, Bailin Wang, Kenny Smith and Ivan Titov(参考訳) 自然言語は構成的であり、文の意味はその部分の意味の関数である。 この性質により、人間が新しい文を作成して解釈することができ、以前の経験から外れて堅牢に一般化できる。 ニューラルネットワークはこの種の一般化に苦しむことが示されており、特に構成的一般化(すなわち、構成的一般化)を評価するために設計されたタスクでは不十分である。 トレーニングとテストのディストリビューションが異なる場合は、構成戦略が解決するには簡単な方法になります)。 これらのタスクにおける彼らのパフォーマンスの低さは、トレーニングとテストデータが同じ分布から引き出されることを前提とした教師あり学習の性質によるものかもしれない。 分散一般化のために直接最適化された教師付き学習のメタラーニング拡張版を実装した。 既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。 それぞれのタスクは、モデルが入力を記憶することを阻止するために、類似度計量によって決定される関連する例を含むように構成される。 COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。

Natural language is compositional; the meaning of a sentence is a function of the meaning of its parts. This property allows humans to create and interpret novel sentences, generalizing robustly outside their prior experience. Neural networks have been shown to struggle with this kind of generalization, in particular performing poorly on tasks designed to assess compositional generalization (i.e. where training and testing distributions differ in ways that would be trivial for a compositional strategy to resolve). Their poor performance on these tasks may in part be due to the nature of supervised learning which assumes training and testing data to be drawn from the same distribution. We implement a meta-learning augmented version of supervised learning whose objective directly optimizes for out-of-distribution generalization. We construct pairs of tasks for meta-learning by sub-sampling existing training data. Each pair of tasks is constructed to contain relevant examples, as determined by a similarity metric, in an effort to inhibit models from memorizing their input. Experimental results on the COGS and SCAN datasets show that our similarity-driven meta-learning can improve generalization performance.
公開日: Tue, 8 Jun 2021 11:21:48 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Meta-Learning to Compositionally Generalize 構成的に一般化するメタラーニング 0.38
Henry Conklin1∗, Bailin Wang1∗, Kenny Smith1 and Ivan Titov1,2 Henry Conklin1∗, Bailin Wang1∗, Kenny Smith1 and Ivan Titov1,2 0.78
{henry.conklin, bailin.wang, kenny.smith}@ed.ac.uk, ititov@inf.ed.ac.uk enry.conklin, bailin.wang, kenny.smith}@ed.ac.uk, ititov@inf.ed.ac.uk 0.56
1University of Edinburgh エディンバラ大学1校 0.70
2University of Amsterdam アムステルダム大学2校 0.78
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 2 5 2 4 0 1 v 2 5 2 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Natural language is compositional; the meaning of a sentence is a function of the meaning of its parts. 概要 自然言語は構成的であり、文の意味はその部分の意味の関数である。 0.55
This property allows humans to create and interpret novel sentences, generalizing robustly outside their prior experience. この性質により、人間が新しい文を作成して解釈することができ、以前の経験から外れて堅牢に一般化できる。 0.48
Neural networks have been shown to struggle with this kind of generalization, in particular performing poorly on tasks designed to assess compositional generalization (i.e. ニューラルネットワークはこの種の一般化に苦しむことが示されており、特に構成的一般化(すなわち、構成的一般化)を評価するために設計されたタスクでは不十分である。 0.49
where training and testing distributions differ in ways that would be trivial for a compositional strategy to resolve). トレーニングとテストのディストリビューションが異なる場合は、構成戦略が解決するには簡単な方法になります)。 0.67
Their poor performance on these tasks may in part be due to the nature of supervised learning which assumes training and testing data to be drawn from the same distribution. これらのタスクにおける彼らのパフォーマンスの低さは、トレーニングとテストデータが同じ分布から引き出されることを前提とした教師あり学習の性質によるものかもしれない。 0.64
We implement a meta-learning augmented version of supervised learning whose objective directly optimizes for out-of-distribution generalization. 分散一般化のために直接最適化された教師付き学習のメタラーニング拡張版を実装した。 0.52
We construct pairs of tasks for meta-learning by sub-sampling existing training data. 既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。 0.57
Each pair of tasks is constructed to contain relevant examples, as determined by a similarity metric, in an effort to inhibit models from memorizing their input. それぞれのタスクは、モデルが入力を記憶することを阻止するために、類似度計量によって決定される関連する例を含むように構成される。 0.72
Experimental results on the COGS and SCAN datasets show that our similaritydriven meta-learning can improve generalization performance. COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。 0.54
Introduction 1 Compositionality is the property of human language that allows for the meaning of a sentence to be constructed from the meaning of its parts and the way in which they are combined (Cann, 1993). はじめに 1合成性は、文の意味をその部分の意味とそれらの組み合わせ方から構築することを可能にする人間の言語の性質である(cann, 1993)。
訳抜け防止モード: はじめに 1構成性は、文の意味がその部分の意味から構築されることを可能にする人間の言語の性質である そのやり方は 彼らは合わさっています ( Cann , 1993 ) .
0.67
By decomposing phrases into known parts we can generalize to novel sentences despite never having encountered them before. フレーズを既知の部分に分解することで、今まで会ったことがなくても、新しい文に一般化することができる。 0.44
In practice this allows us to produce and interpret a functionally limitless number of sentences given finite means (Chomsky, 1965). 実際には、有限の手段を与える機能的に無限の文を生成・解釈することができる(chomsky, 1965)。 0.74
∗Equal contribution. Whether or not neural networks can generalize in this way remains unanswered. 等しく貢献する。 ニューラルネットワークがこのように一般化できるかどうかは、まだ不明だ。 0.62
Prior work asserts that there exist fundamental differences between cognitive and connectionist architectures that makes compositional generalization by the latter unlikely (Fodor and Pylyshyn, 1988). 先行研究によれば、認知主義と接続主義のアーキテクチャには根本的な違いがあり、後者による構成的一般化はあり得ない(fodor and pylyshyn, 1988)。 0.65
However, recent work has shown these models’ capacity for learning some syntactic properties. しかし、最近の研究はこれらのモデルがいくつかの構文的性質を学習する能力を示している。 0.53
Hupkes et al (2018) show how some architectures can handle hierarchy in an algebraic context and generalize in a limited way to unseen depths and lengths. Hupkes et al (2018) は、あるアーキテクチャが代数的文脈で階層を扱い、制限された方法で、深さや長さが見えないように一般化できることを示す。 0.55
Work looking at the latent representations learned by deep machine translation systems show how these models seem to extract constituency and syntactic class information from data (Blevins et al , 2018; Belinkov et al , 2018). 深層機械翻訳システムによって学習された潜伏表現を見ると、これらのモデルがデータから選挙区や統語学のクラス情報を抽出する方法が示されている(Blevins et al , 2018; Belinkov et al , 2018)。 0.73
These results, and the more general fact that neural models perform a variety of NLP tasks with high fidelity (eg. これらの結果、そしてより一般的な事実として、ニューラルモデルは高い忠実度(例えば)で様々なNLPタスクを実行する。 0.61
Vaswani et al , 2017; Dong and Lapata, 2016), suggest these models have some sensitivity to syntactic structure and by extension may be able to learn to generalize compositionally. Vaswani et al , 2017; Dong and Lapata, 2016) はこれらのモデルが構文構造にある種の感受性を持ち、拡張によって構成を一般化することができることを示唆している。 0.70
Recently there have been a number of datasets designed to more formally assess connectionist models’ aptitude for compositional generalization (Kim and Linzen, 2020; Lake and Baroni, 2018; Hupkes et al , 2019). 最近、コネクショニストモデルの作曲一般化に対する適性をより正式に評価するために設計されたデータセットがいくつかある(Kim and Linzen, 2020; Lake and Baroni, 2018; Hupkes et al , 2019)。 0.79
These datasets frame the problem of compositional generalization as one of outof-distribution generalization: the model is trained on one distribution and tested on another which differs in ways that would be trivial for a compositional strategy to resolve. これらのデータセットは、構成一般化の問題を非分布の一般化の1つとして捉えており、モデルは1つの分布で訓練され、他の分布でテストされる。 0.64
A variety of neural network architectures have shown mixed performance across these tasks, failing to show conclusively that connectionist models are reliably capable of generalizing compositionally (Keysers et al , 2020; Lake and Baroni, 2018). さまざまなニューラルネットワークアーキテクチャは、これらのタスク全体でさまざまなパフォーマンスを示しており、コネクショナリストモデルが構成を確実に一般化可能であることを決定的に示していない(Keysers et al , 2020; Lake and Baroni, 2018)。 0.67
Natural language requires a mixture of memorization and generalization (Jiang et al , 2020), memorizing exceptions and atomic concepts with which to generalize. 自然言語には記憶と一般化の混合(Jiang et al , 2020)、記憶の例外と一般化する原子概念が必要である。 0.76
Previous work 前作 0.26
英語(論文から抽出)日本語訳スコア
looking at compositional generalization has suggested that models may memorize large spans of sentences multiple words in length (Hupkes et al , 2019; Keysers et al , 2020). 合成の一般化は、モデルが複数の単語の長いスパンを記憶する可能性を示唆している(hupkes et al , 2019; keyers et al , 2020)。 0.74
This practice may not harm in-domain performance, but if at test time the model encounters a sequence of words it has not encountered before it will be unable to interpret it having not learned the atoms (words) that comprise it. このプラクティスはドメイン内のパフォーマンスに影響を与えないかもしれないが、もしテスト時にモデルが遭遇していない単語のシーケンスに遭遇した場合、それを構成する原子(単語)を学ばずに解釈できないだろう。 0.73
Griffiths (2020) looks at the role of limitations in the development of human cognitive mechanisms. Griffiths (2020) は人間の認知メカニズムの発達における限界の役割を考察した。 0.82
Humans’ finite computational ability and limited memory may be central to the emergence of robust generalization strategies like compositionality. 人間の有限計算能力と限られた記憶力は、構成性のような堅牢な一般化戦略の出現の中心である。 0.66
A hard upper-bound on the amount we can memorize may be in part what forces us to generalize as we do. 記憶できる量の上限が難しいことは、私たちの行動に一般化を迫る要因の1つかもしれない。 0.61
Without the same restriction models may prefer a strategy that memorizes large sections of the input potentially inhibiting their ability to compositionally generalize. 同じ制限モデルがなければ、入力の大きな部分を記憶して、構成的に一般化する能力を阻害する戦略が好まれる。 0.59
In a way the difficulty of these models to generalize out of distribution is unsurprising: supervised learning assumes that training and testing data are drawn from the same distribution, and therefore does not necessarily favour strategies that are robust out of distribution. 教師あり学習(supervised learning)は、トレーニングとテストのデータを同じ分布から引き出すことを前提としているので、必ずしも分布から堅牢な戦略を好まない。
訳抜け防止モード: これらのモデルが分布から一般化することの難しさは、予想外である。 教師付き学習は トレーニングとテストデータは 同じ分布から引き出されます したがって、必ずしも分布から不安定な戦略を好まない。
0.75
Data necessarily underspecifies for the generalizations that produced it. データは必ずしもそれを生成する一般化について過小評価する。 0.48
Accordingly for a given dataset there may be a large number of generalization strategies that are compatible with the data, only some of which will perform well outside of training (D’Amour et al , 2020). したがって、所定のデータセットに対して、データと互換性のある多くの一般化戦略が存在する可能性があり、その一部はトレーニング外でうまく機能する(d’amour et al , 2020)。 0.69
It seems connectionist models do not reliably extract the strategies from their training data that generalize well outside of the training distribution. コネクショニストモデルはトレーニング分布の外部でよく一般化されるトレーニングデータから戦略を確実に抽出していないようだ。 0.81
Here we focus on an approach that tries to to introduce a bias during training such that the model arrives at a more robust strategy. ここでは、モデルがより堅牢な戦略に到達するように、トレーニング中にバイアスを導入しようとするアプローチに注目します。 0.74
To do this we implement a variant of the model agnostic meta-learning algorithm (MAML, Finn et al , 2017a). そこで我々は,モデル非依存メタ学習アルゴリズム(MAML, Finn et al , 2017a)の変種を実装した。 0.76
The approach used here follows Wang et al (2020a) which implements an objective function that explicitly optimizes for out-ofdistribution generalization in line with Li et al (2018). ここで用いられるアプローチは Wang et al (2020a) に従っており、これは Li et al (2018) と並んで分布外一般化を明示的に最適化する目的関数を実装している。 0.69
Wang et al (2020a) creates pairs of tasks for each batch (which here we call meta-train and meta-test) by sub-sampling the existing training data. Wang et al (2020a)は、既存のトレーニングデータをサブサンプリングすることで、各バッチ(ここでメタトレインとメタテストと呼ぶ)用のタスクのペアを生成する。 0.64
Each meta-train, meta-test task pair is designed to simulate the divergence between training and testing: meta-train is designed to resemble the training distribution, and meta-test to resemble the test distribution. メタトレーニングはトレーニング分布に類似するように設計され、メタテストはテスト分布に類似するように設計されている。
訳抜け防止モード: それぞれのメタ-トレイン、メタ-テストタスクペアは、トレーニングとテストの相違をシミュレートするように設計されている。 そして、meta - テストはテスト分布に似ている。
0.62
The training objective then requires that update steps taken on meta-train are トレーニングの目的はメタトレインで行う更新ステップが要求される。 0.77
also beneficial for meta-test. メタテストにも有益です。 0.59
This serves as a kind of regularizer, inhibiting the model from taking update steps that only benefit meta-train. これは一種のレギュラライザとして機能し、モデルがメタトレーニングにのみ役立つ更新ステップを取ることを妨げます。 0.61
By manipulating the composition of meta-test we can control the nature of the regularization applied. メタテストの構成を操作することで、適用される正規化の性質を制御できる。 0.59
Unlike other meta-learning methods this is not used for few or zero-shot performance. 他のメタ学習手法とは異なり、これはほとんど、あるいはゼロショットのパフォーマンスには使われない。 0.51
Instead it acts as a kind of meta-augmented supervised learning, that helps the model to generalize robustly outside of its training distribution. 代わりに、メタ強化された教師付き学習の一種として機能し、トレーニングディストリビューションの外でモデルを堅牢に一般化するのに役立ちます。 0.54
The approach taken by Wang et al (2020a) relies on the knowledge of the test setting. Wang et al (2020a) によるアプローチは、テスト設定の知識に依存している。 0.79
While it does not assume access to the test distribution, it assumes access to the family of test distributions, from which the actual test distribution will be drawn. テストディストリビューションへのアクセスを前提としないが、テストディストリビューションのファミリーへのアクセスを前提としており、そこから実際のテストディストリビューションが描画される。 0.60
While substantially less restrictive than the standard iid setting, it still poses a problem if we do not know the test distribution, or if the model is evaluated in a way that does not lend itself to being represented by discrete pairs of tasks (i.e. 標準的な iid 設定よりもかなり制限的ではないが、テスト分布を知らない場合や、モデルを個別のタスクのペア(つまり)によって表現されない方法で評価する場合には、依然として問題となる。 0.73
if test and train differ in a variety of distinct ways). テスト・アンド・トレインが様々な異なる方法で異なる場合) 0.69
Here we propose a more general approach that aims to generate meta-train, meta-test pairs which are populated with similar (rather than divergent) examples in an effort to inhibit the model from memorizing its input. 本稿では,モデルが入力を記憶することを阻害するために,類似の例(発散するよりもむしろ)をポピュレートした,メタトレントなメタテストペアを生成することを目的とした,より一般的なアプローチを提案する。
訳抜け防止モード: ここではメタを生成するためのより一般的なアプローチを提案する。 -列車、メタ 努力において類似した(発散するよりむしろ)例が集まるテストペア モデルが入力を記憶するのを防ぎます
0.74
Similarity is determined by a string or tree kernel so that for each meta-train task a corresponding meta-test task is created from examples deemed similar. 類似性は文字列またはツリーカーネルによって決定され、各メタトレインタスクに対して対応するメタテストタスクが類似していると考えられる例から生成される。 0.61
By selecting for similar examples we design the meta-test task to include examples with many of the same words as meta-train, but in novel combinations. 類似した例を選択することで、メタテストタスクを設計し、メタトレインと同じ単語の多くを含むが、新しい組み合わせで実装する。 0.70
As our training objective encourages gradient steps that are beneficial for both tasks we expect the model to be less likely to memorize large chunks which are unlikely to occur in both tasks, and therefore generalize more compositionally. 私たちのトレーニング目標は、両方のタスクに有益である勾配ステップを奨励するため、モデルが両方のタスクで起こりそうにない大きなチャンクを記憶しにくくなることを期待しています。 0.62
This generalizes the approach from Wang et al (2020a), by using the meta-test task to apply a bias not-strictly related to the test distribution: the design of the meta-test task allows us to design the bias which it applies. これにより、Wang et al (2020a) からのアプローチを一般化し、メタテストタスクを使用して、テスト分布に厳密に関係しないバイアスを適用する:メタテストタスクの設計により、適用するバイアスを設計できる。
訳抜け防止モード: これはメタ-テストタスクを用いて Wang et al ( 2020a ) からのアプローチを一般化する 偏見を)テスト分布に厳密に関連付ける メタ-テストタスクの設計により、適用するバイアスを設計することができます。
0.78
It is worth noting that other recent approaches to this problem have leveraged data augmentation to make the training distribution more representative of the test distribution (Andreas, 2020). この問題に対する他の最近のアプローチでは、データ拡張を利用してトレーニング分布をテスト分布(andreas, 2020)をより代表している点に注意が必要だ。 0.77
We believe this line of work is orthogonal to ours as it does not focus on getting a model to generalize compositionally, but rather making the task simple enough that compositional generalization is not needed. この一連の作業は、モデルに合成を一般化させるのではなく、構成の一般化が不要なタスクをシンプルにすることに注力するため、私たちの作業と直交していると考えています。 0.63
Our method is model agnostic, and does not require prior knowledge of 我々の手法はモデル非依存であり、事前の知識を必要としない。 0.56
英語(論文から抽出)日本語訳スコア
the target distribution. ターゲットの分布です 0.73
We summarise our contributions as follows: • We approach the problem of compositional generalization with a meta-learning objective that tries to explicitly reduce input memorization using similarity-driven virtual tasks. 我々は, 類似性に基づく仮想タスクを用いて入力記憶を明示的に減らそうとするメタ学習目標を用いて, 構成一般化の問題にアプローチする。 0.73
• We perform experiments on two text-tosemantic compositional datasets: COGS and SCAN. • cogs と scan の2つのテキスト合成データセットで実験を行う。 0.75
Our new training objectives lead to significant improvements in accuracy over a baseline parser trained with conventional supervised learning. 従来の教師付き学習で学習したベースラインパーサに対して,新たなトレーニング目標により精度が大幅に向上した。 0.67
1 2 Methods We introduce the meta-learning augmented approach to supervised learning from Li et al (2018); Wang et al (2020a) that explicitly optimizes for outof-distribution generalization. 1 2つの方法 We introduced the meta-learning augmented approach to supervised learning from Li et al (2018), Wang et al (2020a) which explicitly optimizations for outof-distriion generalization。 0.79
Central to this approach is the generation of tasks for meta-learning by sub-sampling training data. このアプローチの中心は、サブサンプリングトレーニングデータによるメタ学習タスクの生成である。 0.73
We introduce three kinds of similarity metrics used to guide the construction of these tasks. これらのタスクの構築に使用される3種類の類似度指標を紹介する。 0.78
2.1 Problem Definition Compositional Generalization Lake and Baroni (eg. 2.1 問題定義構成一般化湖と男爵(例) 0.80
2018); Kim and Linzen (eg. 2018年) キムとリンゼン。 0.53
2020) introduce datasets designed to assess compositional generalization. 2020) 構成の一般化を評価するために設計されたデータセットを導入する。 0.50
These datasets are created by generating synthetic data with different distributions for testing and training. これらのデータセットは、テストとトレーニングのために異なる分布を持つ合成データを生成することで生成される。
訳抜け防止モード: これらのデータセットは テストとトレーニングのために異なる分布を持つ合成データを生成する。
0.74
The differences between the distributions are trivially resolved by a compositional strategy. 分布の違いは構成戦略によって自明に解決される。 0.80
At their core these tasks tend to assess three key components of compositional ability: systematicity, productivity, and primitive application. これらのタスクの中核にあるのは,構成能力の3つの重要なコンポーネント – 体系性,生産性,プリミティブなアプリケーション – を評価する傾向がある。 0.59
Systematicity allows for the use of known parts in novel combinations as in (a). 体系性は、(a)のような新しい組み合わせで既知の部品を使用することを可能にする。 0.60
Productivity enables generalization to longer sequences than those seen in training as in (b). 生産性は、(b)のようにトレーニングで見られるものよりも長いシーケンスを一般化することができる。 0.56
Primitive application allows for a word only seen in isolation during training to be applied compositionally at test time as in (c). 原始的な応用は、訓練中に単独で見られる単語を、(c)のようにテスト時に合成的に適用することができる。 0.66
(a) The cat gives the dog a gift → The dog gives (a)猫は犬に贈り物を与える →犬に贈る 0.75
the cat a gift (b) The cat gives the dog a gift → The cat gives 猫は贈り物をします (b)猫は犬に贈り物を与える →猫が与える 0.74
the dog a gift and the bird a gift 犬は贈り物を、鳥は贈り物を 0.67
Algorithm 1 MAML Training Algorithm Require: Original training set T Require: Learning rate α, Batch size N 1: for step ← 1 to T do 2: アルゴリズム 1 MAML トレーニングアルゴリズム 必要: オリジナルトレーニングセット T 必要: 学習率 α, バッチサイズ N 1: ステップ 1 から T do 2: 0.73
Sample a random batch from T as a virtual training set Bt Initialize an empty generalization set Bg for i ← 1 to N do Sample an example from ˜p(· | Bt[i]) Add it to Bg 仮想トレーニング集合 Bt として T からランダムなバッチをサンプリングする 空の一般化集合 Bg を i > 1 から N に初期化し、サンプルを >p(· | Bt[i]) から Bg に追加する。 0.86
end for Construct a virtual task τ := (Bt,Bg) end for Construct a virtual task τ := (Bt,Bg) 0.85
3: 4: 5: 6: 7: 8: 9: Meta-train update: 3: 4: 5: 6: 7: 8: 9: Meta-train update: 0.94
10: 11: θ(cid:48) ← θ − α∇θLBt(θ) Compute meta-test objective: Lτ (θ) = LBt(θ) + LBg (θ(cid:48)) θ ← Update(θ,∇θLτ (θ)) 10: 11: Lτ(θ) = LBt(θ) + LBg(θ(cid:48)) θ > Update(θ, θLτ(θ)) 0.76
Final Update: 12: end for 最終アップデート: 12:終わり 0.69
A compositional grammar like the one that generated the data would be able to resolve these three kinds of generalization easily, and therefore performance on these tasks is taken as an indication of a model’s compositional ability. データを生成するような合成文法は、これらの3種類の一般化を容易に解決することができるため、これらのタスクのパフォーマンスはモデルの合成能力の指標として捉えられる。 0.73
Conventional Supervised Learning The compositional generalization datasets we look at are semantic parsing tasks, mapping between natural language and a formal representation. 従来の教師付き学習 構成一般化データセットは、意味的パースタスク、自然言語と形式表現の間のマッピングです。 0.70
A usual supervised learning objective for semantic parsing is to minimize the negative log-likelihood of the correct formal representation given a natural language input sentence, i.e. 意味解析のための通常の教師付き学習目的は、自然言語入力文、すなわち、正しい形式表現の負のログ様相を最小化することである。 0.67
minimising N(cid:88) 最小化 n(cid:88) 0.70
i=1 LB(θ) = − 1 N i=1 LB(θ) = − 1 N 0.72
log pθ(y|x) log pθ(y|x) 0.78
(1) where N is the size of batch B, y is a formal representation and x is a natural language sentence. (1) n がバッチ b の大きさであるとき、y は形式表現であり、x は自然言語文である。 0.79
This approach assumes that the training and testing data are independent and identically distributed. このアプローチでは、トレーニングとテストのデータは独立しており、同一に分散していると仮定する。 0.54
Task Distributions Following from Wang et al (2020a), we utilize a learning algorithm that can enable a parser to benefit from a distribution of virtual tasks, denoted by p(τ ), where τ refers to an instance of a virtual compositional generalization task that has its own training and test examples. Wang et al (2020a) から引き継いだタスク分布は,p(τ) で表される仮想タスクの分布からパーサが恩恵を受けることができる学習アルゴリズムを用いており,τ は独自のトレーニングとテスト例を持つ仮想構成一般化タスクのインスタンスを指す。 0.80
(c) made → The cat made the dog a gift (c)作り→猫が犬に贈り物した 0.74
2.2 MAML Training 2.2MAMLトレーニング 0.71
1Our implementations are available at https:// 1時間 実装はhttps:// 0.36
github.com/berlino/t ensor2struct-public. github.com/berlino/t ensor2struct-public 0.28
Once we have constructed our pairs of virtual tasks we need a training algorithm that encourages 仮想タスクのペアを構築したら、トレーニングアルゴリズムが必要になります。 0.64
英語(論文から抽出)日本語訳スコア
compositional generalization in each. Like Wang et al (2020a), we turn to optimization-based metalearning algorithms (Finn et al , 2017b; Li et al , 2018) and apply DG-MAML (Domain Generalization with Model-Agnostic Meta-Learning), a variant of MAML (Finn et al , 2017b). 各構成の一般化。 Wang et al (2020a)と同様に、最適化に基づくメタ学習アルゴリズム(Finn et al , 2017b; Li et al , 2018)に目を向け、DG-MAML(Domain Generalization with Model-Agnostic Meta-Learning)を適用します。 0.81
Intuitively, DGMAML encourages optimization on meta-training examples to have a positive effect on the meta-test examples as well. 直感的には、DGMAMLはメタトレーニング例の最適化を奨励し、メタテスト例にも肯定的な影響を与える。 0.57
During each learning episode of MAML training we randomly sample a task τ which consists of a training batch Bt and a generalization batch Bg and conduct optimization in two steps, namely metatrain and meta-test. MAMLトレーニングの各学習エピソードにおいて、トレーニングバッチBtと一般化バッチBgからなるタスクτをランダムにサンプリングし、メタトレインとメタテストという2つのステップで最適化を行う。 0.72
Meta-Train The meta-train task is sampled at random from the training data. メタトレイン メタトレインタスクはトレーニングデータからランダムにサンプリングされる。 0.71
The model performs one stochastic gradient descent step on this batch モデルは、このバッチで確率的勾配降下ステップを実行する 0.72
θ(cid:48) ← θ − α∇θLBt(θ) θ(cid:48) > θ − α θLBt(θ) 0.86
(2) where α is the meta-train learning rate. (2) αはメタトレイン学習率です。 0.74
Meta-Test The fine-tuned parameters θ(cid:48) are evaluated on the accompanying generalization task, meta-test, by computing their loss on it denoted as LBg (θ(cid:48)). メタテスト 微調整されたパラメータ θ(cid:48) は、その損失を LBg (cid:48) と表すことによって、付随する一般化タスク、メタテストで評価される。 0.64
The final objective for a task τ is then to jointly optimize the following: タスク τ の最終目標は、以下を共同で最適化することである。 0.79
Lτ (θ) = LBt(θ) + LBg (θ(cid:48)) Lτ(θ) = LBt(θ) + LBg(θ(cid:48)) 0.98
= LBt(θ) + LBg (θ − α∇θLβ(θ)) = LBt(θ) + LBg (θ − α θLβ(θ)) 0.99
(3) The objective now becomes to reduce the joint loss of both the meta-train and meta-test tasks. (3) 現在の目的はメタトレインタスクとメタテストタスクの併用損失を減らすことである。 0.77
Optimizing in this way ensures that updates on metatrain are also beneficial to meta-test. このように最適化することで、メタトレインのアップデートもメタテストに有用である。 0.54
The loss on meta-test acts as a constraint on the loss from metatrain. メタテストにおける損失は、メタトレインからの損失に対する制約となる。 0.68
This is unlike traditional supervised learning (Lτ (θ) = LBt(θ) + LBg (θ)) where the loss on one batch does not constrain the loss on another. これは従来の教師付き学習(Lτ (θ) = LBt(θ) + LBg (θ))とは異なり、一方のバッチでの損失は他方での損失を制約しない。 0.78
With a random Bt and Bg, the joint loss function can be seen as a kind of generic regularizer, ensuring that update steps are not overly beneficial to meta-train alone. ランダムなBtとBgでは、結合損失関数はある種の汎用正則化器と見なすことができ、更新ステップがメタトレイン単独で過剰に有用でないことが保証される。 0.62
By constructing Bt and Bg in ways which we expect to be relevant to compositionality, we aim to allow the MAML algorithm to apply specialized regularization during training. 我々は,BtとBgを構成性に関連があると思われる方法で構築することにより,MAMLアルゴリズムが訓練中に特別な正規化を適用できるようにする。 0.77
Here we design meta-test to be similar to the metatrain task because we believe this highlights the systematicity generalization that is key to compositional ability: selecting for examples comprised of the same atoms but in different arrangements. ここではメタトレインタスクに類似したメタテストを設計する。これは構成能力の鍵となる体系的一般化を強調している。
訳抜け防止モード: ここでは、メタトレーニングタスクに類似したテストを設計する。 これは構成能力の鍵となる体系性一般化を強調するものだと信じているためである。 異なる配置で同じ原子からなる例を選択する。
0.64
In constraining each update step with respect to meta-train by performance on similar examples 類似例のパフォーマンスによるメタトレインに対する各更新ステップの制約 0.71
Source Example: The girl changed a sandwich beside the table . ソース例:女の子はテーブルの横にあるサンドイッチを変更しました。 0.71
Neighbours using Tree Kernel A sandwich changed . Tree Kernelの隣人 サンドイッチが変わった。 0.69
The girl changed . The block was changed by the girl . 女の子は変わった。 ブロックは女の子によって変更されました。 0.74
The girl changed the cake . 女の子はケーキを変えた。 0.80
change Neighbours using String Kernel The girl rolled a drink beside the table . 変化 文字列カーネルを使用する隣人の少女テーブルの横で飲み物を転がしました。 0.64
The girl liked a dealer beside the table . 女の子はテーブルの横のディーラーが好きでした。 0.64
The girl cleaned a teacher beside the table . 女の子はテーブルの横で先生を掃除しました。 0.68
The girl froze a bear beside the table . 女の子はテーブルの横でクマを凍らせます。 0.68
The girl grew a pencil beside the table . 女の子はテーブルの横に鉛筆を育てました。 0.64
Neighbours using LevDistance The girl rolled a drink beside the table . LevDistanceを使用する隣人の女の子は、テーブルの横で飲み物を転がしました。 0.58
The girl liked a dealer beside the table . 女の子はテーブルの横のディーラーが好きでした。 0.64
The girl cleaned a teacher beside the table . 女の子はテーブルの横で先生を掃除しました。 0.68
The girl froze a bear beside the table . 女の子はテーブルの横でクマを凍らせます。 0.68
The girl grew a pencil beside the table . 女の子はテーブルの横に鉛筆を育てました。 0.64
Similarity 0.55 0.55 0.39 0.39 0.32 Similarity 0.55 0.55 0.39 0.39 0.32 0.48
0.35 0.35 0.35 0.35 0.35 0.35 0.35 0.35 0.35 0.35 0.44
-2.00 -2.00 -2.00 -2.00 -2.00 -2.00 -2.00 -2.00 -2.00 -2.00 0.34
Table 1: Top scoring examples according to the tree kernel, string kernel and Levenshtein distance for the sentence ‘The girl changed a sandwich beside the table .’ and accompanying scores. 表1:「少女はテーブルの横にあるサンドイッチを変更し、スコアを添えた」という文に対して、ツリーカーネル、文字列カーネル、Levenshtein距離によるスコアの上位の例。 0.64
in meta-test we expect the model to dis-prefer a strategy that does not also work for meta-test like memorization of whole phrases or large sections of the input. メタテストでは、すべてのフレーズの記憶や入力の大きなセクションのようなメタテストでも機能しない戦略を非推奨にすることを期待しています。 0.61
2.3 Similarity Metrics Ideally, the design of virtual tasks should reflect specific generalization cases for each dataset. 2.3 類似度メトリクス 理想的には、仮想タスクの設計はデータセットごとに特定の一般化ケースを反映すべきである。 0.63
However, in practice this requires some prior knowledge of the distribution to which the model will be expected to generalize, which is not always available. しかし実際には、これはモデルが一般化されることを期待する分布に関する事前の知識を必要とする。 0.67
Instead we aim to naively structure the virtual tasks to resemble each other. 代わりに、仮想タスクを互いに類似するように鼻で構成することを目指しています。 0.55
To do this we use a number of similarity measures intended to help select examples which highlight the systematicity of natural language. これを実現するために、自然言語の体系性を強調する例を選定するために、いくつかの類似度尺度を使用します。
訳抜け防止モード: これを行うには 様々な類似性対策を 自然言語の体系性を強調した例を選ぶのに役立ちます
0.88
Inspired by kernel density estimation (Parzen, 1962), we define a relevance distribution for each example: カーネル密度推定(Parzen, 1962)にインスパイアされた各例の関連分布を定義する。 0.79
˜p(x(cid:48), y(cid:48)|x, y) ∝ exp(cid:0)k([x, y], [x(cid:48), y(cid:48)]/η(cid:1) y(cid:48), y(cid:48)|x, y) > exp(cid:0)k([x, y], [x(cid:48), y(cid:48)]/η(cid:1) 0.93
(4) where k is the similarity function, [x, y] is a training example, η is a temperature that controls the sharpness of the distribution. (4) k が類似関数である場合、[x, y] は訓練例であり、η は分布の鋭さを制御する温度である。 0.83
Based on our extended interpretation of relevance, a high ˜p implies that [x, y] is systematically relevant to [x(cid:48), y(cid:48)] - containing many of the same atoms but in a novel combination. 関連性に関する我々の拡張された解釈に基づいて、高いエンプは [x, y] が [x(cid:48), y(cid:48)] と体系的に関連していることを示している。
訳抜け防止モード: 関連性に関する我々の拡張解釈に基づいて、高い yp は [x, y ] が [x(cid:48 ) に体系的に関連していることを意味する。 y(cid:48 )- 同じ原子の多くを含むが、新しい組み合わせである。
0.73
We look at three similarity metrics to guide subsampling existing training data into meta-test tasks proportional to each example’s ˜p. 既存のトレーニングデータをメタテストタスクにサブサンプル化するための3つの類似度指標について検討する。 0.77
英語(論文から抽出)日本語訳スコア
Sentence: Logical Form: Dependency Tree: 文:論理形式:依存木: 0.63
Partial Trees: A rose was helped by Emma . 部分木 バラはエマに助けられた。 0.52
∃x help(cid:48)(rose(ci d:48)(x), Emma) ~x help(cid:48)(rose(ci d:48)(x), Emma 0.95
help rose emma 助けて ローズ エマ 0.63
Tree-Kernel Similarity In semantic parsing, the formal representation y usually has a known grammar which can be used to represent it as a tree structure. ツリー-カーネル類似性 意味解析において、形式表現 y は通常、木構造として表現できる既知の文法を持つ。 0.72
In light of this we use tree convolution kernels to compute similarity between examples: 3 これを踏まえて、例間の類似性を計算するためにツリー畳み込みカーネルを使用します。 0.57
help rose help 助けて ローズ 助けて 0.68
rose help emma ローズ 助けて エマ 0.63
emma A rose was helped by a dog . エマ バラは犬に助けられた。 0.59
∃x,y help(cid:48)(rose(ci d:48)(x), dog(cid:48)(y)) ~x,y help(cid:48)(rose(ci d:48)(x), dog(cid:48)(y) 0.96
Sentence: Logical Form: Dependency Tree: 文:論理形式:依存木: 0.63
Partial Trees: help rose 部分木 助けて ローズ 0.59
help rose help 助けて ローズ 助けて 0.68
rose dog help dog ローズ 犬 助けて 犬 0.72
dog Figure 1: The dependency-tree forms for the logical forms of two sentences. 犬 図1: 2つの文の論理形式に対する依存関係ツリー形式。 0.76
Shown below each tree are its partial trees. 各木の下には部分木がある。 0.66
As there are three partial trees shared by the examples their un-normalized tree kernel score is 3. 例によって共有される部分木が3つあるので、その非正規化木核スコアは3である。 0.57
Levenshtein Distance First, we consider Levenshtein distance, a kind of edit distance widely used to measure the dissimilarity between strings. レベンシュテイン距離(levenshtein distance)は、文字列間の相似性を測定するために広く用いられる編集距離の一種である。 0.70
We compute the negative Levenshtein distance at the word-level between natural language sentences of two examples: k([x, y], [x(cid:48), y(cid:48)]) = −1 ∗ LevDistance(x, x(cid:48)) (5) where LevDistance returns the number of edit operations required to transform x into x(cid:48). k([x, y], [x(cid:48), y(cid:48)]) = −1 ∗ lev distance(x, x(cid:48)) (5) ここで lev distance は x を x(cid:48) に変換するのに必要な編集操作の数を返す。
訳抜け防止モード: 2つの例(k([x,))の自然言語文間の単語における負のレベンシュテイン距離を計算する。 y ], [ x(cid:48 ), y(cid:48 ) ] ) = −1 ∗ LevDistance(x, x(cid:48 ) ( 5 ) LevDistanceはxをxに変換するのに必要な編集操作数を返す(cid:48 )。
0.89
See Table 1 for examples. Another family of similarity metrics for discrete structures are convolution kernels (Haussler, 1999). 表1の例を参照。 離散構造に対するもう一つの類似性指標は畳み込み核である(haussler, 1999)。 0.82
String-Kernel Similarity We use the string subsequence kernel (Lodhi et al , 2002): String-Kernel類似 文字列列カーネルを使用する(Lodhi et al , 2002): 0.86
k([x, y], [x(cid:48), y(cid:48)]) = SSK(x, x(cid:48)) k([x, y], [x(cid:48), y(cid:48)]) = SSK(x, x(cid:48)) 0.88
(6) where SSK computes the number of common subsequences between natural language sentences at the word-level. (6) ここでSSKは、単語レベルで自然言語文間の共通部分列数を計算します。 0.80
See Table 1 for examples. 2 表1の例を参照。 2 0.85
i.e., k(cid:48)(x1, x2) = k(x1, x2)/(cid:112)k(x1, x1)k(x2, x2) k(cid:48)(x1, x2) = k(x1, x2)/(cid:112)k(x1, x1)k(x2, x2) 0.90
2We use the normalized convolution kernels in this work, 2 この作業では正規化畳み込みカーネルを使用します。 0.60
k([x, y], [x(cid:48), y(cid:48)]) = TreeKernel(y, y(cid:48)) k([x, y], [x(cid:48), y(cid:48)]) = treekernel(y, y(cid:48))) 0.88
(7) where the TreeKernel function is a convolution kernel (Collins and Duffy, 2001) applied to trees. (7) TreeKernel関数は、ツリーに適用された畳み込みカーネル(Collins and Duffy, 2001)である。 0.84
Here we consider a particular case where y is represented as a dependency structure, as shown in Figure 1. ここでは、図1に示すように、y が依存構造として表される特定の場合を考える。 0.78
We use the partial tree kernel (Moschitti, 2006) which is designed for application to dependency trees. 依存木に適用するために設計された部分木カーネル(moschitti, 2006)を使用する。 0.73
For a given dependency tree partial tree kernels generate a series of all possible partial trees: any set of one or more connected nodes. ある依存木に対して、部分木カーネルは1つ以上の連結ノードの集合である全ての可能な部分木を生成する。 0.76
Given two trees the kernel returns the number of partial trees they have in common, interpreted as a similarity score. 2つの木が与えられたとき、カーネルは共通する部分木の数を返し、類似度スコアとして解釈する。 0.62
Compared with string-based similarity, this kernel prefers sentences that share common syntactic sub-structures, some of which are not assigned high scores in string-based similarity metrics, as shown in Table 1. 文字列ベースの類似性と比較して、このカーネルは共通構文的な部分構造を共有する文を好むが、表1に示すように、文字列ベースの類似性メトリクスでは高いスコアが割り当てられていないものもある。 0.60
Though tree-structured formal representations are more informative in obtaining relevance, not all logical forms can be represented as tree structures. 木構造形式表現は関連性を得る際により有益であるが、すべての論理形式を木構造として表すことはできない。 0.59
In SCAN (Lake and Baroni, 2018) y are action sequences without given grammars. SCAN (Lake and Baroni, 2018) では、y は与えられた文法を持たないアクションシーケンスである。 0.63
As we will show in the experiments, string-based similarity metrics have a broader scope of applications but are less effective than tree kernels in cases where y can be tree-structured. 実験で示すように、文字列ベースの類似度メトリクスはアプリケーションの範囲が広いが、yが木構造化される場合、ツリーカーネルよりも効果が低い。 0.72
Sampling for Meta-Test Using our kernels we compute the relevance distribution in Eq 4 to construct virtual tasks for MAML training. メタテストのサンプリング カーネルを用いてEq 4の関連分布を計算し、MAMLトレーニングのための仮想タスクを構築する。 0.75
We show the resulting procedure in Algorithm 1. 得られた手順をアルゴリズム1で示す。 0.67
In order to construct a virtual task τ, a meta-train batch is first sampled at random from the training data (line 2), then the accompanying meta-test batch is created by sampling examples similar to those in meta-train (line 5). 仮想タスクτを構築するために、トレーニングデータ(ライン2)からまずメタトレインバッチをランダムにサンプリングし(ライン5)、メタトレインに類似したサンプルをサンプリングすることにより、付随するメタテストバッチを作成する。 0.75
We use Lev-MAML, Str-MAML and Tree-MAML to denote the meta-training using Levenshtein distance, string-kernel and tree-kernel similarity, respectively. 本稿では,Lev-MAML,Str-MAML,T ree-MAMLを用いて,Levenshtein距離,文字列カーネル,ツリーカーネル類似度を用いてメタトレーニングを行う。 0.52
3Alternatively, we can use tree edit-distance (Zhang and 3 代替として、ツリー編集距離(Zhang および)を使用できる。 0.56
Shasha, 1989). 1989年)。 0.44
英語(論文から抽出)日本語訳スコア
3 Experiments 3.1 Datasets and Splits We evaluate our methods on the following semantic parsing benchmarks that target compositional generalization. 3 実験 3.1 データセットと分割 構成一般化をターゲットにした以下のセマンティック解析ベンチマークを用いて,本手法の評価を行った。 0.58
SCAN contains a set of natural language commands and their corresponding action sequences (Lake and Baroni, 2018). SCANには自然言語コマンドとその対応するアクションシーケンスが含まれている(Lake and Baroni, 2018)。 0.90
We use the Maximum Compound Divergence (MCD) splits (Keysers et al , 2020), which are created based on the principle of maximizing the divergence between the compound (e g , patterns of 2 or more action sequences) distributions of the training and test tests. 我々は, 最大複合分枝(MCD)分割(Keysers et al , 2020)を用いて, トレーニングおよび試験試験における化合物(例えば, 2つ以上のアクションシーケンスのパターン)の分散を最大化する原理に基づいて作成する。 0.80
We apply Lev-MAML and Str-MAML to SCAN where similarity measures are applied to the natural language commands. 本稿では,Lev-MAML と Str-MAML を SCAN に適用する。
訳抜け防止モード: 我々は SCAN に Lev - MAML と Str - MAML を適用する。 類似度は自然言語コマンドに適用される。
0.68
Tree-MAML (which uses a tree kernel) is not applied as the action sequences do not have an underlying dependency tree-structure. tree-maml(ツリーカーネルを使用する)は、アクションシーケンスが依存性ツリー構造を持っていないため適用されない。 0.74
COGS contains a diverse set of natural language sentences paired with logical forms based on lambda calculus (Kim and Linzen, 2020). COGSには、ラムダ計算(Kim and Linzen, 2020)に基づく論理形式と組み合わせた多種多様な自然言語文が含まれている。 0.79
Compared with SCAN, it covers various systematic linguistic abstractions (e g , passive to active) including examples of lexical and structural generalization, and thus better reflects the compositionality of natural language. SCANと比較すると、語彙的および構造的一般化の例を含む様々な体系的な言語的抽象化(例えば、受動的から能動的への)を網羅し、自然言語の構成性を良く反映している。 0.67
In addition to the standard splits of Train/Dev/Test, COGS provides a generalization (Gen) set drawn from a different distribution that specifically assesses compositional generalization. Train/Dev/Testの標準分割に加えて、COGSは構成一般化を特に評価する異なる分布から引き出された一般化(Gen)セットを提供する。 0.73
We apply Lev-MAML, Str-MAML and Tree-MAML to COGS; Lev-MAML and StrMAML make use of the natural language sentences while Tree-MAML uses the dependency structures reconstructed from the logical forms. 我々は、Lev-MAML、Str-MAML、Tree-MAMLをCOGSに適用し、Lev-MAMLとStrMAMLは自然言語文を使用し、Tree-MAMLは論理形式から再構成された依存関係構造を用いる。
訳抜け防止モード: 我々は,Lev - MAML, Str - MAML, Tree - MAMLをCOGSに適用する。 Tree - MAMLは論理形式から再構築された依存性構造を使用する。
0.73
3.2 Baselines In general, our method is model-agnostic and can be coupled with any semantic parser to improve its compositional generalization. 3.2 ベースライン 一般に、本手法はモデルに依存しず、任意の意味解析器と結合して構成一般化を改善することができる。 0.59
Additionally LevMAML, and Str-MAML are dataset agnostic provided the dataset has a natural language input. さらに、データセットが自然言語入力を持つ場合、LevMAMLとStr-MAMLはデータセットに依存しない。 0.63
In this work, we apply our methods on two widely used sequence-to-sequence s models. 本研究では,本手法を広く用いられている2つのシーケンス・ツー・シーケンスモデルに適用する。 0.53
4 LSTM-based Seq2Seq has been the backbone of many neural semantic parsers (Dong and Lapata, 2016; Jia and Liang, 2016). 4 LSTMベースのSeq2Seqは多くのニューラルネットワークセマンティックパーサー(Dong and Lapata, 2016; Jia and Liang, 2016)のバックボーンとなっている。 0.80
It utilizes 4Details of implementations and hyperparameters can be 利用します 4-details of implementation and hyperparameters can be 0.77
found in the Appendix. Appendixにある。 0.53
LSTM (Hochreiter and Schmidhuber, 1997) and attention (Bahdanau et al , 2014) under an encoderdecoder (Sutskever et al , 2014) framework. LSTM (Hochreiter and Schmidhuber, 1997), and attention (Bahdanau et al , 2014) under a encoderdecoder (Sutskever et al , 2014) framework。 0.81
Transformer-based Seq2Seq also follows the encoder-decoder framework, but it uses Transformers (Vaswani et al , 2017) to replace the LSTM for encoding and decoding. Transformer ベースの Seq2Seq も encoder-decoder フレームワークに従っているが、Transformer (Vaswani et al , 2017) を使用してエンコードとデコードに LSTM を置き換えている。 0.72
It has proved successful in many NLP tasks e g , machine translation. 多くのNLPタスク、例えば機械翻訳で成功している。 0.61
Recently, it has been adapted for semantic parsing (Wang et al , 2020b) with superior performance. 近年, セマンティック解析 (Wang et al , 2020b) に適応し, 性能が向上している。 0.70
We try to see whether our MAML training can improve the compositional generalization of contemporary semantic parsers, compared with standard supervised learning. 我々は,我々のMAMLトレーニングが,標準的な教師付き学習と比較して,現代意味構文解析の合成一般化を向上できるかどうかを確かめる。 0.61
Moreover, we include a meta-baseline, referred to as Uni-MAML, that constructs meta-train and meta-test splits by uniformly sampling training examples. さらに,一様にトレーニング例をサンプリングすることで,メタトレインとメタテストの分割を構成するメタベースラインをUni-MAMLと呼ぶ。 0.73
By comparing with this meta-baseline, we show the effect of similarity-driven construction of meta-learning splits. このメタベースラインとの比較により、メタ学習分割の類似性駆動構築の効果を示す。 0.67
Note that we do not focus on making comparisons with other methods that feature specialized architectures for SCAN datasets (see Section 5), as these methods do not generalize well to more complex datasets (Furrer et al , 2020). これらの手法はより複雑なデータセット(Furrer et al , 2020)によく当てはまらないので、SCANデータセットの特別なアーキテクチャを特徴とする他の手法(セクション5参照)との比較に重点を置いていないことに注意してください。 0.72
GECA We additionally apply the good enough compositional augmentation (GECA) method laid out in Andreas (2020) to the SCAN MCD splits. GECA は Andreas (2020) に記載された十分な構成拡張法(GECA) を SCAN MCD 分割に適用する。 0.68
Data augmentation of this kind tries to make the training distribution more representative of the test distribution. この種のデータ拡張は、トレーニング分布をテスト分布のより代表的なものにしようとするものだ。
訳抜け防止モード: この種のデータ拡張の試み トレーニング分布を テスト分布の より代表的なものにするために。
0.82
This approach is distinct from ours which focuses on the training objective, but the two can be combined with better overall performance as we will show. このアプローチは、トレーニング目標に焦点を当てた私たちのものとは違いますが、この2つは、私たちが示すように、全体的なパフォーマンスと組み合わせることができます。 0.58
Specifically, we show the results of GECA applied to the MCD splits as well as GECA combined with our Lev-MAML variant. 具体的には,MDDスプリットに適用したGECAと,我々のLev-MAMLと組み合わせたGECAの結果を示す。 0.84
Note that we elect not to apply GECA to COGS, as the time and space complexity 5 of GECA proves very costly for COGS in our preliminary experiments. GECAの時間と空間の複雑さ5は、予備実験においてCOGSにとって非常にコストがかかることを証明している。
訳抜け防止モード: 注意すべき点 COGSにGECAを適用しない GECAの時間と空間の複雑さ5は、予備実験でCOGSにとって非常にコストがかかります。
0.80
3.3 Construction of Virtual Tasks The similarity-driven sampling distribution ˜p in Eq 4 requires computing the similarity between every pair of training examples, which can be very expensive depending on the size of of the dataset. 3.3 仮想タスクの構築 Eq 4における類似性駆動型サンプリングの分散は、データセットのサイズによって非常に高価なトレーニング例のペア間の類似性を計算する必要がある。 0.85
As the sampling distributions are fixed during training, we compute and cache them beforehand. トレーニング中にサンプリング分布が固定されると、事前に計算してキャッシュする。 0.72
However, they take an excess of disk space to store as essentially we need to store an N × N matrix where N しかし、N を N とする N × N 行列を本質的に保存する必要があるため、それらはディスク空間の余剰を取る。 0.72
5See the original paper for details. 5 詳細は原文を参照。 0.50
英語(論文から抽出)日本語訳スコア
err 翻訳エラー 0.00
英語(論文から抽出)日本語訳スコア
in MCD1). More importantly, augmenting GECA with Lev-MAML further boosts the performance substantially in MCD1 and MCD2, signifying that our MAML training is complementary to GECA to some degree. MCD1)。 さらに, GECAを Lev-MAML で増強することにより, MCD1 と MCD2 のパフォーマンスが大幅に向上し,MAML トレーニングが GECA をある程度補完することを示す。 0.74
Table 3 shows our results on COGS. 表3はCOGSの結果を示しています。 0.63
TreeMAML boosts the performance of both LSTM and Transformer base parsers by a large margin: 6.5% and 8.1% respectively in average accuracy. TreeMAMLはLSTMとTransformerのベースパーサのパフォーマンスをそれぞれ6.5%と8.1%という大きなマージンで向上させる。 0.73
Moreover, Tree-MAML is consistently better than other MAML variants, showing the effectiveness of exploiting tree structures of formal representation to construct virtual tasks. さらに、Tree-MAMLは他のMAMLよりも一貫して優れており、仮想タスクを構築するために形式表現のツリー構造を利用する効果を示している。 0.63
9 4 Discussion 4.1 SCAN Discussion The application of our string-similarity driven metalearning approaches to the SCAN dataset improved the performance of the LSTM baseline parser. 9 4 討論 文字列類似性に基づくメタラーニング手法のSCANデータセットへの適用により,LSTMベースラインパーサの性能が向上した。 0.76
Our results are reported on three splits of the dataset generated according to the maximum compound divergence (MCD) principle. 本研究の結果は, 最大成分分散(MCD)原理に基づいて生成されたデータセットの3つの分割について報告する。 0.65
We report results on the only MCD tasks for SCAN as these tasks explicitly focus on the systematicity of language. SCAN の MCD タスクについて,これらのタスクは言語体系性に重点を置いているため,その成果を報告する。 0.68
As such they assess a model’s ability to extract sufficiently atomic concepts from its input, such that it can still recognize those concepts in a new context (i.e. そのため、モデルが入力から十分な原子概念を抽出する能力を評価し、新しい文脈(すなわち、新しい文脈)でそれらの概念を認識することができる。 0.75
as part of a different compound). 異なる化合物の一部として) 0.78
To succeed here a model must learn atoms from the training data and apply them compositionally at test time. ここで成功するためには、モデルがトレーニングデータから原子を学習し、テスト時に合成的に適用する必要がある。 0.63
The improvement in performance our approach achieves on this task suggests that it does disincentivise the model from memorizing large sections - or entire compounds - from its input. 我々のアプローチがこのタスクで達成した性能改善は、モデルが入力から大きなセクション(または化合物全体)を記憶することからインセンティブを失わせることを示唆している。
訳抜け防止モード: この課題で我々のアプローチが達成した性能改善は モデルにインセンティブを与え、入力から大きなセクション(あるいは化合物全体)を記憶することを妨げる。
0.75
GECA applied to the SCAN MCD splits does improve performance of the baseline, however not to the same extent as when applied to other SCAN tasks in Andreas (2020). SCAN MCDスプリットに適用されるGECAはベースラインの性能を向上させるが、Andreas (2020) の他のSCANタスクに適用される場合と同じ程度ではない。 0.83
GECA’s improvement is comparable to our meta-learning method, despite the fact that our method does not leverage any data augmentation. GECAの改善は我々のメタ学習手法に匹敵するものである。
訳抜け防止モード: GECAの改善は私たちのメタ学習手法に匹敵するものです。 我々の方法は データの増大を 生かしていないにもかかわらず
0.66
This means that our method achieves high performance by generalizing robustly outside of its training distribution, rather than by making its training data more representative of the test distribution. これは,トレーニングデータにテスト分布を表わすのではなく,トレーニング分布の外部でロバストに一般化することで,高い性能を実現することを意味する。 0.78
The application of our LevMAML approach to GECA-augmented data results in further improvements in performance, suggest- GECA強化データへのLevMAMLアプローチの適用により、さらなるパフォーマンス向上が期待できる。 0.75
9The improvement of all of our MAML variants applied to the Transformer are significant (p < 0.03) compared to the baseline, of our methods applied to LSTMs, Tree-MAML is significant (p < 0.01) compared to the baseline. 9 トランスフォーマーに適用したすべてのMAML変種の改善は,ベースラインと比較して有意(p < 0.03)であり,LSTMに適用した手法では,ベースラインと比較して,Tree-MAMLが有意(p < 0.01)である。 0.76
ing that these approaches aid the model in distinct yet complementary ways. これらのアプローチは、明確な相補的な方法でモデルを支援する。 0.67
4.2 COGS Discussion All variants of our meta-learning approach improved both the LSTM and Transformer baseline parsers’ performance on the COGS dataset. 4.2 COGS議論 メタラーニングアプローチのすべてのバリエーションは、LSTMとTransformerベースラインパーサのパフォーマンスをCOGSデータセット上で改善した。 0.78
The Tree-MAML method outperforms the Lev-MAML, Str-MAML, and Uni-MAML versions. Tree-MAMLメソッドは、Lev-MAML、Str-MAML、Uni-MAMLバージョンより優れている。 0.57
The only difference between these methods is the similarity metric used, and so differences in performance must be driven by what each metric selects for. これらのメソッド間の唯一の違いは、使用される類似度メトリックであり、そのため、それぞれのメトリックが選択したものによってパフォーマンスの違いが駆動されなければならない。 0.61
For further analysis of the metrics refer to the appendix. メトリクスのさらなる分析は、付録を参照してください。 0.64
The strong performance of the Uni-MAML variant highlights the usefulness of our approach generally in improving models’ generalization performance. The strong performance of the Uni-MAML variant is highlights the usefulness of our approach general in improve model’s generalization performance。 0.95
Even without a specially designed metatest task this approach substantially improves on the baseline Transformer model. 特別に設計されたメタテストタスクがなくても、このアプローチはベースライントランスフォーマーモデルを大幅に改善する。 0.60
We see this as evidence that this kind of meta-augmented supervised learning acts as a robust regularizer particularly for tasks requiring out of distribution generalization. このようなメタ教師付き教師付き学習が、特に分布の一般化を必要とするタスクにおいて、堅牢な正規化として機能する証拠であると考えています。 0.45
Although the Uni-MAML, Lev-MAML, and StrMAML versions perform similarly overall on the COGS dataset they may select for different generalization strategies. Uni-MAML、Lev-MAML、StrMAMLのバージョンも同様にCOGSデータセット上で機能するが、異なる一般化戦略を選択することができる。 0.64
The COGS generalization set is comprised of 21 sub-tasks which can be used to better understand the ways in which a model is generalizing (refer to Table 4 for examples of subtask performance). COGS一般化セットは21のサブタスクで構成されており、モデルが一般化する方法についてよりよく理解することができる(サブタスク性能の例についてはテーブル4を参照)。 0.75
Despite having very similar overall performance Uni-MAML and Str-MAML perform distinctly on individual COGS tasks - with their performance appearing to diverge on a number of of them. 全体的なパフォーマンスは非常によく似ているが、Uni-MAMLとStr-MAMLは個々のCOGSタスクで明確に機能する。 0.62
This would suggest that the design of the meta-test task may have a substantive impact on the kind of generalization strategy that emerges in the model. これはメタテストタスクの設計がモデルに現れる一般化戦略の種別に実質的な影響を与える可能性を示唆している。 0.82
For further analysis of COGS sub-task performance see the appendix. COGSサブタスク性能のさらなる分析には、付録を参照のこと。 0.58
Our approaches’ strong results on both of these datasets suggest that it aids compositional generalization generally. これら2つのデータセットに対する我々のアプローチの強い結果は、合成の一般化に一般的に役立つことを示唆している。 0.51
However it is worth nothing that both datasets shown here are synthetic, and although COGS endeavours to be similar to natural data, the application of our methods outside of synthetic datasets is important future work. しかし、ここで示す2つのデータセットが合成であり、cogは自然データと類似しているように見えるが、合成データセット以外の手法の適用は将来の重要な作業である。 0.74
5 Related Work Compositional Generalization A large body of work on compositional generalization provide models with strong compositional bias, such as specialized neural architectures (Li et al , 2019; Russin 5 関連作業 合成一般化 合成一般化に関する大規模な研究は、特殊な神経アーキテクチャ(li et al, 2019; russin)のような強い構成バイアスを持つモデルを提供する。
訳抜け防止モード: 5 関連作業 構成一般化 構成一般化に関する大きな研究は、強い構成バイアスを持つモデルを提供する。 例えば、特殊神経アーキテクチャ(Li et al , 2019 ; Russin
0.74
英語(論文から抽出)日本語訳スコア
Case Primitive noun → Subject (common noun) case Primitive noun → Subject (common noun) 0.84
Training shark Primitive noun → Subject (proper noun) 研修 サメ 原始名詞 → 主語(固有名詞) 0.60
Primitive noun → Object (common noun) Primitive noun → Object (common noun) 0.85
Primitive noun → Object (proper noun) Primitive noun → Object (proper noun) 0.85
Paula shark Paula パウラ サメ パウラ 0.54
Generalization Accuracy Distribution A shark examined the child. 一般化 精度分布 サメが子供を調べました。 0.65
Tree-MAML Paula sketched William. Tree-MAML ポーラはウィリアムをスケッチした。 0.50
A chief heard the shark. チーフがそのサメを聞いた。 0.54
The child helped Paula. 子供はパウラを助けました。 0.48
Baseline Tree-MAML ベースライン Tree-MAML 0.65
Baseline Tree-MAML ベースライン Tree-MAML 0.65
Baseline Tree-MAML ベースライン Tree-MAML 0.65
Baseline 0.5 ベースライン 0.5 0.65
1 0.4 0.6 0.8 1 0.4 0.6 0.8 0.65
1 0 0.2 0.4 1 0 0.2 0.4 0.72
0 0.5 1 Table 4: Accuracy on COGS by generalization case. 0 0.5 1 表4: 一般化事例によるCOGSの精度。 0.77
Each dot represents a single run of the model. 各ドットはモデルの単一の実行を表す。 0.79
et al , 2019; Gordon et al , 2019), or grammar-based models that accommodate alignments between natural language utterances and programs (Shaw et al , 2020; Herzig and Berant, 2020). 自然言語の発話とプログラムのアライメントに対応する文法ベースのモデル(Shaw et al , 2020; Herzig and Berant, 2020)。
訳抜け防止モード: al, 2019; Gordon, al, 2019)。 文法 - 自然言語の発話とプログラムのアライメントに対応するモデル(Shaw et al, 2020; Herzig と Berant)。 2020 ) .
0.75
Another line of work utilizes data augmentation via fixed rules (Andreas, 2020) or a learned network (Akyürek et al , 2020) in an effort to transform the out-of-distribution compositional generalization task into an in-distribution one. 別の作業では、固定ルール(andreas, 2020)または学習ネットワーク(akyürek et al, 2020)によるデータ拡張を使用して、分散的構成一般化タスクを分散的タスクに変換する。 0.70
Our work follows an orthogonal direction, injecting compositional bias using a specialized training algorithm. 本研究は, 特別訓練アルゴリズムを用いて構成バイアスを注入し, 直交方向を追従する。 0.63
A related area of research looks at the emergence of compositional languages, often showing that languages which seem to lack natural-language like compositional structure may still be able to generalize to novel concepts (Kottur et al , 2017; Chaabouni et al , 2020). 関連する研究分野は、作曲言語の出現に注目しており、しばしば、構成構造のような自然言語が欠落しているように見える言語が、新しい概念に一般化できることを示している(Kottur et al , 2017; Chaabouni et al , 2020)。 0.76
This may help to explain the ways in which models can generalize robustly on in-distribution data unseen during training while still struggling on tasks specifically targeting compositionality. これはモデルがトレーニング中に見いだされない分散データにロバストに一般化できる方法を説明するのに役立つかもしれない。 0.54
Meta-Learning for NLP Meta-learning methods (Vinyals et al , 2016; Ravi and Larochelle, 2016; Finn et al , 2017b) that are widely used for few-shot learning, have been adapted for NLP applications like machine translation (Gu et al , 2018) and relation classification (Obamuyide and Vlachos, 2019). NLPメタラーニングのためのメタラーニング(Vinyals et al , 2016; Ravi and Larochelle, 2016; Finn et al , 2017b)は、数ショットラーニングに広く使われているが、機械翻訳(Gu et al , 2018)や関係分類(Obamuyide and Vlachos, 2019)のようなNLPアプリケーションに適応している。 0.83
In this work, we extend the conventional MAML (Finn et al , 2017b) algorithm, which was initially proposed for few-shot learning, as a tool to inject inductive bias, inspired by Li et al (2018); Wang et al (2020a). 本研究では,Li et al (2018), Wang et al (2020a), Wang et al (2020a) にインスパイアされた帰納的バイアスを注入するツールとして,最初は少数ショット学習のために提案されていた従来のMAMLアルゴリズムを拡張した。 0.71
For compositional generalization, Lake (2019) proposes a meta-learning procedure to train a memory-augmented neural model. 合成一般化のために、Lake (2019)は、メモリ拡張ニューラルモデルをトレーニングするためのメタラーニング手順を提案する。 0.57
However, its meta-learning algorithm is specialized for the SCAN dataset (Lake and Baroni, 2018) and not suitable to more realistic datasets. しかし、そのメタ学習アルゴリズムはSCANデータセット(Lake and Baroni, 2018)に特化しており、より現実的なデータセットには適していない。 0.70
6 Conclusion Our work highlights the importance of training objectives that select for robust generalization strategies. 6 結論 我々の研究は、堅牢な一般化戦略を選択する訓練目標の重要性を強調している。 0.63
The meta-learning augmented approach to supervised learning used here allows for the specification of different constraints on learning through the design of the meta-tasks. ここで使われる教師付き学習へのメタラーニング拡張アプローチは、メタタスクの設計を通じて学習の異なる制約の仕様を可能にする。 0.74
Our similarity-driven task design improved on baseline performance on two different compositional generalization datasets, by inhibiting the model’s ability to memorize large sections of its input. 我々の類似性駆動型タスク設計は、2つの異なる構成一般化データセットのベースライン性能を改善し、入力の大きな部分を記憶するモデルの能力を阻害した。 0.68
Importantly though the overall approach used here is model agnostic, with portions of it (Str-MAML, Lev-MAML, and Uni-MAML) proving dataset agnostic as well requiring only that the input be a natural language sentence. ここで使われる全体的なアプローチはモデル非依存であり、その部分(Str-MAML、Lev-MAML、Uni-MAML)はデータセット非依存であり、入力が自然言語文であることを要求する。 0.65
Our methods are simple to implement compared with other approaches to improving compositional generalization, and we look forward to their use in combination with other techniques to further improve models’ compositional ability. 提案手法は, 構成一般化を改善する他の手法と比較して実装が簡単であり, モデルの構成能力を向上するための他の手法と組み合わせての利用を楽しみにしている。 0.74
Acknowledgements This work was supported in part by the UKRI Centre for Doctoral Training in Natural Language Processing, funded by the UKRI (grant EP/S022481/1) and the University of Edinburgh, School of Informatics and School of Philosophy, Psychology & Language Sciences. この研究は、ユリ大学(grant ep/s022481/1)とエディンバラ大学(university of edinburgh, school of informatics and school of philosophy, psychology & language sciences)によって資金提供された自然言語処理の博士課程(ukri centre for doctoral training in natural language processing)によって支援された。
訳抜け防止モード: 認定 この研究は、一部はUKRIの自然言語処理の博士訓練センターによって支援された。 UKRI(EP / S022481/1を付与)とエディンバラ大学が出資。 専門はインフォマティクス・哲学・心理学・言語学。
0.67
We also acknowledge the financial support of the European Research Council (Titov, ERC StG BroadSem 678254) and the Dutch National Science Foundation (Titov, NWO VIDI 639.022.518). また、欧州研究評議会(Titov, ERC StG BroadSem 678254)とオランダ国立科学財団(Titov, NWO VIDI 639.022.518)の財政支援も認めている。 0.80
References Ekin Akyürek, Afra Feyza Akyürek, and Jacob Andreas. 参考文献 Ekin Akyürek、Afra Feyza Akyürek、Jacob Andreas。 0.68
2020. Learning to recombine and resam- 2020. リコンビネートとリセームの学習 0.78
英語(論文から抽出)日本語訳スコア
ple data for compositional generalization. ple data for compositional generalization 0.67
preprint arXiv:2010.03706. arXiv:2010.03706 0.62
arXiv Jacob Andreas. arXiv Jacob Andreas 0.72
2020. Good-enough compositional data augmentation. 2020. 良質な合成データ拡張。 0.74
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7556–7566, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 7556-7566, Online 0.66
Association for Computational Linguistics. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 計算言語学会会員。 Dzmitry Bahdanau,kyunghyun Cho,Yoshua Bengio 0.53
2014. Neural machine translation by jointly arXiv preprint learning to align and translate. 2014. 共用arxivプレプリント学習によるニューラルマシン翻訳によるアライメントと翻訳 0.73
arXiv:1409.0473. arXiv:1409.0473。 0.48
Yonatan Belinkov, Lluís Màrquez, Hassan Sajjad, Nadir Durrani, Fahim Dalvi, and James Glass. Yonatan Belinkov, Lluís Màrquez, Hassan Sajjad, Nadir Durrani, Fahim Dalvi, James Glass 0.68
2018. Evaluating Layers of Representation in Neural Machine Translation on Part-of-Speech and Semantic arXiv:1801.07772 [cs]. 2018. 音声とセマンティックarXiv:1801.07772[cs]のニューラルネットワーク翻訳における表現層の評価 0.73
ArXiv: Tagging Tasks. ArXiv: タスクのタグ付け。 0.69
1801.07772. 1801.07772. 0.71
Terra Blevins, Omer Levy, and Luke Zettlemoyer. Terra Blevins、Omer Levy、Luke Zettlemoyer。 0.65
2018. Deep RNNs Encode Soft Hierarchical Syntax. 2018. 深部RNNはソフト階層構文を符号化する。 0.73
arXiv:1805.04218 [cs]. arXiv:1805.04218 [cs] 0.71
ArXiv: 1805.04218. ArXiv: 1805.04218。 0.79
Ronnie Cann. 1993. ロニー・カン 1993. 0.67
Formal semantics an introduction. 形式的意味論の導入。 0.63
Cambridge University Press, Cambridge [etc. ケンブリッジ大学出版局 (cambridge university press, cambridge)。 0.62
OCLC: 1120437841. OCLC:1120437841。 0.80
Rahma Chaabouni, Eugene Kharitonov, Diane Bouchacourt, Emmanuel Dupoux, and Marco Baroni. Rahma Chaabouni、Eugene Kharitonov、Diane Bouchacourt、Emmanuel Dupoux、Marco Baroni。 0.70
2020. Compositionality and generalization in emergent languages. 2020. 創発言語における構成性と一般化 0.71
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4427–4442, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 4427–4442, Online 0.67
Association for Computational Linguistics. Noam Chomsky. 計算言語学会会員。 ノーム・チョムスキー。 0.51
1965. Aspects of the theory of syntax, 50th anniversary edition edition. 1965. the theory of syntax, 50th anniversary edition edition(英語) 0.81
Number no. 11 in Massachusetts Institute of Technology. No番。 マサチューセッツ工科大学で11位。 0.51
Research Laboratory of Electronics. 電子工学研究所教授。 0.68
Special technical report. The MIT Press, Cambridge, Massachusetts. 特別技術報告。 マサチューセッツ州ケンブリッジのMITプレス。 0.59
Michael Collins and Nigel Duffy. マイケル・コリンズと ナイジェル・ダフィー 0.55
2001. Convolution kernels for natural language. 2001. 自然言語のための畳み込みカーネル。 0.75
In Advances in neural information processing systems, pages 625–632. 神経情報処理システムの進歩』では、625–632頁。 0.70
Alexander D’Amour, Katherine Heller, Dan Moldovan, Ben Adlam, Babak Alipanahi, Alex Beutel, Christina Chen, Jonathan Deaton, Jacob Eisenstein, Matthew D. Hoffman, Farhad Hormozdiari, Neil Houlsby, Shaobo Hou, Ghassen Jerfel, Alan Karthikesalingam, Mario Lucic, Yian Ma, Cory McLean, Diana Mincu, Akinori Mitani, Andrea Montanari, Zachary Nado, Vivek Natarajan, Christopher Nielson, Thomas F. Osborne, Rajiv Raman, Kim Ramasamy, Rory Sayres, Jessica Schrouff, Martin Seneviratne, Shannon Sequeira, Harini Suresh, Victor Veitch, Max Vladymyrov, Xuezhi Wang, Kellie Webster, Steve Yadlowsky, Taedong Yun, Xiaohua Zhai, and D. Sculley. Alexander D’Amour, Katherine Heller, Dan Moldovan, Ben Adlam, Babak Alipanahi, Alex Beutel, Christina Chen, Jonathan Deaton, Jacob Eisenstein, Matthew D. Hoffman, Farhad Hormozdiari, Neil Houlsby, Shaobo Hou, Ghassen Jerfel, Alan Karthikesalingam, Mario Lucic, Yian Ma, Cory McLean, Diana Mincu, Akinori Mitani, Andrea Montanari, Zachary Nado, Vivek Natarajan, Christopher Nielson, Thomas F. Osborne, Rajiv Raman, Kim Ramasamy, Rory Sayres, Jessica Schrouff, Martin Seneviratne, Shannon Sequeira, Harini Suresh, Victor Veitch, Max Vladymyrov, Xuezhi Wang, Kellie Webster, Steve Yadlowsky, Taedong Yun, Xiaohua Zhai, and D. Sculley. 0.87
2020. Underspecification Presents Challenges for Credibility in Modern Machine Learning. 2020. 現代機械学習における信頼性の課題 0.69
arXiv:2011.03395 [cs, stat]. arXiv:2011.03395 [cs, stat] 0.81
ArXiv: 2011.03395. arxiv: 201103395年。 0.78
Li Dong and Mirella Lapata. リ・ドンとミレラ・ラパタ。 0.47
2016. Language to logical form with neural attention. 2016. 神経に注意を向けた言語から論理形式へ。 0.75
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 33–43, Berlin, Germany. 第54回計算言語学会年次大会(第1巻:長い論文)の議事録では、ドイツ、ベルリンの33-43ページが引用されている。 0.60
Association for Computational Linguistics. Chelsea Finn, Pieter Abbeel, and Sergey Levine. 計算言語学会会員。 Chelsea Finn、Pieter Abbeel、Sergey Levine。 0.56
2017a. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. 2017年。 ディープネットワークの高速適応のためのモデル非依存なメタ学習 0.64
arXiv:1703.03400 [cs]. arXiv:1703.03400 [cs] 0.74
ArXiv: 1703.03400. ArXiv: 1703.03400。 0.79
Chelsea Finn, Pieter Abbeel, and Sergey Levine. Chelsea Finn、Pieter Abbeel、Sergey Levine。 0.61
2017b. Model-agnostic meta-learning for fast adaptation of deep networks. 2017年。 深層ネットワークの高速適応のためのモデル非依存メタラーニング 0.59
In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 1126–1135. 第34回機械学習に関する国際会議の議事録、1126-1135頁。 0.71
JMLR. org. Jerry A. Fodor and Zenon W. Pylyshyn. jmlr。 と。 Jerry A. FodorとZenon W. Pylyshyn。 0.58
1988. Connectionism and cognitive architecture: A critical analysis. 1988. 接続主義と認知アーキテクチャ:批判的な分析。 0.81
Cognition, 28(1-2):3–71. 28(1-2):3-71。 0.70
Daniel Furrer, Marc van Zee, Nathan Scales, and Nathanael Schärli. Daniel Furrer、Marc van Zee、Nathan Scales、Nathanael Schärli。 0.68
2020. Compositional generalization in semantic parsing: Pre-training vs. specialized architectures. 2020. 意味解析における構成一般化: 事前学習と特殊アーキテクチャ 0.77
arXiv preprint arXiv:2007.08970. arXiv preprint arXiv:2007.08970。 0.64
Jonathan Gordon, David Lopez-Paz, Marco Baroni, and Diane Bouchacourt. ジョナサン・ゴードン、デヴィッド・ロペス=パス、マルコ・バロン、ダイアン・ブーチャクール。 0.46
2019. Permutation equivariant models for compositional generalization in language. 2019. 言語合成一般化のための置換同変モデル 0.75
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
Thomas L Griffiths. トーマス・l・グリフィス 0.52
2020. Understanding human intelligence through human limitations. 2020. 人間の知性を人間の限界を通して理解する。 0.71
Trends in Cognitive Sciences. Jiatao Gu, Yong Wang, Yun Chen, Victor O. K. Li, and Kyunghyun Cho. 認知科学の進歩。 Jiatao Gu, Yong Wang, Yun Chen, Victor O.K. Li,kyunghyun Cho 0.63
2018. Meta-learning for lowIn Proceedresource neural machine translation. 2018. LowIn Proceedresource ニューラルマシン翻訳のためのメタラーニング 0.78
ings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3622–3631, Brussels, Belgium. ings of the 2018 conference on empirical methods in natural language processing, pages 3622–3631, brussels, belgium (英語) 0.86
Association for Computational Linguistics. David Haussler. 計算言語学会会員。 David Haussler 0.54
1999. Convolution kernels on discrete structures. 1999. 離散構造上の畳み込み核。 0.75
Technical report, Technical report, Department of Computer Science, University of California . カリフォルニア大学コンピュータ科学科技術報告。 0.33
. . . Jonathan Herzig and Jonathan Berant. . . . ジョナサン・ヘルツィヒとジョナサン・ベラント。 0.75
2020. Spanbased semantic parsing for compositional generalization. 2020. 合成一般化のためのスパンベース意味解析 0.67
arXiv preprint arXiv:2009.06040. arXiv preprint arXiv:2009.06040 0.72
Sepp Hochreiter and Jürgen Schmidhuber. Sepp HochreiterとJürgen Schmidhuber。 0.74
1997. Neural computation, 1997. 神経計算 0.64
Long short-term memory. 9(8):1735–1780. 短期記憶。 9(8):1735–1780. 0.68
Dieuwke Hupkes, Verna Dankers, Mathijs Mul, and Elia Bruni. Dieuwke Hupkes、Verna Dankers、Mathijs Mul、Elia Bruni。 0.68
2019. The compositionality of neuintegrating symbolism and connecral networks: arXiv:1908.08351 [cs, stat]. 2019. neuintegrating symbolism and connecral networks: arxiv:1908.08351 [cs, stat] の合成性。 0.82
ArXiv: tionism. ArXiv: イオン性。 0.67
1908.08351. 1908.08351. 0.71
英語(論文から抽出)日本語訳スコア
Dieuwke Hupkes, Sara Veldhoen, and Willem Zuidema. Dieuwke Hupkes、Sara Veldhoen、Willem Zuidema。 0.64
2018. Visualisation and’diagnostic classifiers’ reveal how recurrent and recursive neural networks process hierarchical structure. 2018. 視覚化と‘診断的分類器’は、再帰的かつ再帰的なニューラルネットワークが階層構造をどのように処理するかを明らかにする。 0.69
Journal of Artificial Intelligence Research, 61:907–926. Journal of Artificial Intelligence Research, 61:907–926。 0.78
Robin Jia and Percy Liang. ロビン・ジアとパーシー・リアン 0.44
2016. Data recombination for neural semantic parsing. 2016. ニューラルセマンティック解析のためのデータ組換え 0.76
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 12–22, Berlin, Germany. 第54回計算言語学会年次大会(第1巻:長い論文)では、ドイツのベルリンで12-22頁が開催された。 0.64
Association for Computational Linguistics. Ziheng Jiang, Chiyuan Zhang, Kunal Talwar, and Michael C. Mozer. 計算言語学会会員。 Ziheng Jiang、Chiyuan Zhang、Kunal Talwar、Michael C. Mozer。 0.63
2020. Characterizing Structural Regularities of Labeled Data in Overparameterized Models. 2020. 過パラメータ化モデルにおけるラベル付きデータの構造規則性の評価 0.75
arXiv:2002.03206 [cs, stat]. arXiv:2002.03206 [cs, stat] 0.81
ArXiv: 2002.03206. arxiv: 2002.03206。 0.71
Daniel Keysers, Nathanael Schärli, Nathan Scales, Hylke Buisman, Daniel Furrer, Sergii Kashubin, Nikola Momchev, Danila Sinopalnikov, Lukasz Stafiniak, Tibor Tihon, Dmitry Tsarkov, Xiao Wang, Marc van Zee, and Olivier Bousquet. Daniel Keysers, Nathanael Schärli, Nathan Scales, Hylke Buisman, Daniel Furrer, Sergii Kashubin, Nikola Momchev, Danila Sinopalnikov, Lukasz Stafiniak, Tibor Tihon, Dmitry Tsarkov, Xiao Wang, Marc van Zee, Olivier Bousquet
訳抜け防止モード: Daniel Keysers, Nathanael Schärli, Nathan Scales, Hylke Buisman Daniel Furrer, Sergii Kashubin, Nikola Momchev, Danila Sinopalnikov Lukasz Stafiniak, Tibor Tihon, Dmitry Tsarkov, Xiao Wang マルク・ファン・ゼー(Marc van Zee)とオリヴィエ・ブーケ(Olivier Bousquet)。
0.93
2020. Measuring compositional generalization: A comprehensive In International Confermethod on realistic data. 2020. 構成一般化の測定: 実データに基づく包括的国際会議。 0.80
ence on Learning Representations. Najoung Kim and Tal Linzen. 表現を学ぶこと。 ナジュン・キムとタル・リンゼン。 0.52
2020. COGS: A Compositional Generalization Challenge Based on Semantic Interpretation. 2020. COGS:意味論的解釈に基づく構成的一般化挑戦 0.84
arXiv:2010.05465 [cs]. arXiv:2010.05465 [cs] 0.74
ArXiv: 2010.05465. ArXIV 201005465。 0.56
Satwik Kottur, José MF Moura, Stefan Lee, and Dhruv Batra. Satwik Kottur、José MF Moura、Stefan Lee、Dhruv Batra。 0.67
2017. Natural language does not arXiv emerge’naturally’in multi-agent dialog. 2017. 自然言語は、‘自然に’マルチエージェントダイアログを生成するものではない。 0.72
preprint arXiv:1706.08502. arXiv:1706.08502 0.64
Brenden Lake and Marco Baroni. ブレンデン湖とマルコ・バロン 0.59
2018. Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. 2018. 系統性のない一般化:シーケンス列リカレントネットワークの構成スキルについて 0.78
In International Conference on Machine Learning, pages 2873–2882. 機械学習に関する国際会議』2873-2882頁。 0.78
PMLR. Brenden M Lake. PMLR。 ブレンデンM湖。 0.71
2019. Compositional generalization through meta sequence-to-sequence learning. 2019. メタシーケンス対シーケンス学習による合成一般化 0.75
arXiv preprint arXiv:1906.05381. arXiv preprint arXiv:1906.05381 0.71
Da Li, Yongxin Yang, Yi-Zhe Song, and Timothy M Hospedales. Da Li, Yongxin Yang, Yi-Zhe Song, Timothy M Hospedales 0.75
2018. Learning to generalize: MetaIn Thirtylearning for domain generalization. 2018. 一般化のための学習: ドメインの一般化のためのメタインサーティラーニング。 0.67
Second AAAI Conference on Artificial Intelligence. 第2回 aaai conference on artificial intelligence 参加報告 0.58
Yuanpeng Li, Liang Zhao, Jianyu Wang, and Joel Hestness. Yuanpeng Li, Liang Zhao, Jianyu Wang, Joel Hestness。 0.69
2019. Compositional generalization for primitive substitutions. 2019. 原始置換の合成一般化。 0.75
arXiv preprint arXiv:1910.02612. arXiv preprint arXiv:1910.02612。 0.63
2015 Conference on Empirical Methods in Natural Language Processing, pages 1412–1421, Lisbon, Portugal. 2015 Conference on Empirical Methods in Natural Language Processing, page 1412–1421, Portugal, Lisbon 0.86
Association for Computational Linguistics. Alessandro Moschitti. 計算言語学会会員。 Alessandro Moschitti 0.55
2006. Efficient convolution kernels for dependency and constituent syntactic trees. 2006. 依存関係と構成構文木のための効率的な畳み込みカーネル。 0.71
In European Conference on Machine Learning, pages 318–329. European Conference on Machine Learning』 318-329頁。 0.74
Springer. Abiola Obamuyide and Andreas Vlachos. Springer Abiola ObamuyideとAndreas Vlachos。 0.63
2019. Model-agnostic meta-learning for relation classification with limited supervision. 2019. 限定教師付き関係分類のためのモデル非依存メタラーニング 0.74
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5873–5879, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 5873–5879, イタリア・フィレンツェ。 0.72
Association for Computational Linguistics. Emanuel Parzen. 計算言語学会会員。 エマニュエル・パーゼン。 0.50
1962. On estimation of a probability density function and mode. 1962. 確率密度関数とモードの推定について 0.78
The annals of mathematical statistics, 33(3):1065–1076. annals of mathematical statistics、33(3):1065–1076。 0.88
Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al 2019. Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al 2019 0.82
Pytorch: An imperative style, high-performance deep learning library. Pytorch: 命令型で高性能なディープラーニングライブラリです。 0.77
arXiv preprint arXiv:1912.01703. arXiv preprint arXiv:1912.01703 0.72
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J Liu
訳抜け防止モード: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リウ(Peter J Liu)。
0.89
2019. Exploring the limits of transfer learning with a unified text-to-text transformer. 2019. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.83
arXiv preprint arXiv:1910.10683. arXiv preprint arXiv:1910.10683 0.71
Sachin Ravi and Hugo Larochelle. Sachin RaviとHugo Larochelle。 0.79
2016. Optimization as a model for few-shot learning. 2016. 最適化 数発の学習のモデルです。 0.75
Jake Russin, Jason Jo, Randall C O’Reilly, and Yoshua Bengio. Jake Russin、Jason Jo、Randall C O’Reilly、Yoshua Bengio。 0.70
2019. Compositional generalization in a deep seq2seq model by separating syntax and semantics. 2019. 構文と意味を分離した深部Seq2seqモデルの合成一般化 0.79
arXiv preprint arXiv:1904.09708. arXiv preprint arXiv:1904.09708 0.72
Peter Shaw, Ming-Wei Chang, Panupong Pasupat, and Kristina Toutanova. Peter Shaw、Ming-Wei Chang、Panupong Pasupat、Kristina Toutanova。 0.73
2020. Compositional generalization and natural language variation: Can a semanarXiv preprint tic parsing approach handle both? 2020. 合成一般化と自然言語変異: semanarxiv preprint ticパースアプローチは両方を処理できるのか? 0.81
arXiv:2010.12725. 2010.12725。 0.29
Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Ilya Sutskever、Oriol Vinyals、Quoc V Le。 0.62
2014. Sequence to sequence learning with neural networks. 2014. ニューラルネットワークを用いたシーケンスからシーケンスへの学習。 0.76
arXiv preprint arXiv:1409.3215. arXiv preprint arXiv:1409.3215 0.71
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, Illia Polosukhin 0.72
2017. Attention is all you need. 2017. 注意はあなたが必要とするすべてです。 0.74
arXiv preprint arXiv:1706.03762. arXiv preprint arXiv:1706.03762 0.71
Huma Lodhi, Craig Saunders, John Shawe-Taylor, Nello Cristianini, and Chris Watkins. Huma Lodhi、Craig Saunders、John Shawe-Taylor、Nello Cristianini、Chris Watkins。 0.84
2002. Text classification using string kernels. 2002. 文字列カーネルを用いたテキスト分類 0.81
Journal of Machine Learning Research, 2(Feb):419–444. Journal of Machine Learning Research, 2(Feb):419-444。 0.89
Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Daan Wierstra, et al 2016. Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Daan Wierstra, et al 2016 0.78
Matching networks for In Advances in neural informaone shot learning. ニューラルインフォメーション・ショットラーニングにおけるIn Advancesのマッチングネットワーク 0.72
tion processing systems, pages 3630–3638. 配偶処理システム、3630-3638頁。 0.67
Thang Luong, Hieu Pham, and Christopher D. Manning. Thang Luong、Hieu Pham、Christopher D. Manning。 0.72
2015. Effective approaches to attention-based In Proceedings of the neural machine translation. 2015. 神経機械翻訳の推論における注意に基づく効果的なアプローチ 0.80
Bailin Wang, Mirella Lapata, and Ivan Titov. ベイリン・ワン、ミレラ・ラパタ、イヴァン・ティトフ。 0.41
2020a. Meta-learning for domain generalization in semantic parsing. 2020a 意味解析におけるドメイン一般化のためのメタラーニング 0.66
arXiv preprint arXiv:2010.11988. arXiv preprint arXiv:2010.11988 0.72
英語(論文から抽出)日本語訳スコア
Bailin Wang, Richard Shin, Xiaodong Liu, Oleksandr Polozov, and Matthew Richardson. Bailin Wang, Richard Shin, Xiaodong Liu, Oleksandr Polozov, そしてMatthew Richardson。 0.81
2020b. RATSQL: Relation-aware schema encoding and linking for text-to-SQL parsers. 2020年。 RATSQL: テキストからSQLへのパーサのスキーマエンコーディングとリンク。 0.73
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7567–7578, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 7567-7578, Online 0.67
Association for Computational Linguistics. Kaizhong Zhang and Dennis Shasha. 計算言語学会会員。 Kaizhong ZhangとDennis Shasha。 0.65
1989. Simple fast algorithms for the editing distance between trees and related problems. 1989. 木間の編集距離と関連する問題に対する単純な高速アルゴリズム。 0.84
SIAM journal on computing, 18(6):1245–1262. SIAM Journal on Computing, 18(6):1245–1262。 0.85
A Experiments A.1 Details of Base Parsers We implemented all models with Pytorch (Paszke et al , 2019). A Experiments A.1 details of Base Parsers 我々はすべてのモデルをPytorchで実装した(Paszke et al , 2019)。 0.77
For the LSTM parsers, we use a twolayer encoder and one-layer decoder with attention (Bahdanau et al , 2014) and input-feeding (Luong et al , 2015). LSTMパーサでは、2層エンコーダと1層デコーダ(Bahdanau et al , 2014)と入力フィード(Luong et al , 2015)が使用される。 0.72
We only test bidirectional LSTM encoders, as unidirectional LSTM models do not perform very well in our preliminary experiments. 我々は,一方向LSTMモデルが予備実験であまりうまく動作しないため,双方向LSTMエンコーダのみをテストする。 0.85
For Transformer parsers, we use 2 encoder and decoder layers, 4 attention heads, and a feed-forward dimension of 1024. Transformerパーサでは,2つのエンコーダ層とデコーダ層,4つのアテンションヘッド,フィードフォワード次元が1024である。 0.72
The hidden size for both LSTM and Transformer models are 256. LSTMモデルとTransformerモデルの両方の隠れサイズは256である。 0.77
The hyparameters of base parsers are mostly borrowed from related work and not tuned, as the primary goal of this work is the MAML training algorithm. この研究の主な目的はMAMLトレーニングアルゴリズムであるため、ベースパーサーのヒパラメーターは主に関連する作業から借用され、チューニングされていない。 0.78
To experiment with a wide variety of possible Seq2Seq models, we also try a Transformer encoder + LSTM decoder and find that this variant actually performs slightly better than both vanilla Transformer and LSTM models. Seq2Seqモデルを多種多様なモデルで実験するために、Transformer encoder + LSTM decoder も試し、この変種が実際にvanilla Transformer と LSTM モデルよりわずかに優れていることを発見した。 0.82
Further exploration of this combination in pursuit of a better neural architecture for compositional generalization might be interesting for future work. 合成一般化のためのより良いニューラルアーキテクチャの追求において、この組み合わせをさらに探究することは、将来の研究にとって興味深いことである。 0.52
A.2 Model Selection Protocol In our preliminary experiments on COGS, we find almost all the Seq2Seq models achieve > 99% in accuracy on the original Dev set. A.2 モデル選択プロトコル COGS の予備実験では、Seq2Seq モデルのほとんどは、オリジナルの Dev セットで 99% の精度で達成されている。 0.80
However, their performance on the Gen set diverge dramatically, ranging from 10% to 70%. しかし、Genセットのパフォーマンスは10%から70%まで劇的に変化した。 0.62
The lack of an informative Dev set makes model selection extremely difficult and difficult to reproduce. 情報的なDevセットがないため、モデルの選択は非常に難しく、再現が難しい。 0.75
This issue might also be one of the factors that results in the large variance of performance reported in previous work. この問題は、以前の作業で報告されたパフォーマンスの大きなばらつきをもたらす要因の1つかもしれない。 0.75
Meanwhile, we found that some random seeds 10 yield consistently better performance than others across different conditions. 一方,無作為種子10種によっては,異なる条件下での他種よりも一貫して優れた性能が得られることがわかった。
訳抜け防止モード: その間に私たちは ランダムシード10は 異なる条件で 他の種よりも 常に優れた性能を得る
0.72
For example, among 10Random seeds control the initialization of parameters and 例を挙げると 10Random seedはパラメータと初期化を制御する 0.73
the order of training batches. バッチの訓練の順序です 0.51
the ten random seeds used for Lev-MAML + Transformer on COGS, the best performing seed obtains 73% whereas the lowest performing seed obtains 54%. COGS上でLev-MAML + Transformerに使用される10個のランダム種子は73%、最も低い実行種子は54%である。
訳抜け防止モード: COGS で Lev - MAML + Transformer に使用される 10 個のランダムな種 最高実行種子は73%、最低実行種子は54%となる。
0.79
Thus, it is important to compare different models using the same set of random seeds, and not to tune the random seeds in any model. したがって、同じランダムシードを用いて異なるモデルを比較することが重要であり、任意のモデルにおいてランダムシードをチューニングしないことが重要である。
訳抜け防止モード: したがって、同じ無作為種子を用いて異なるモデルを比較することが重要である。 どんなモデルでも ランダムな種をチューニングしないことです
0.85
To alleviate these two concerns, we choose the protocol that is mentioned in the main paper. これら2つの懸念を緩和するために、本論文で述べたプロトコルを選択します。 0.65
This protocol helps to make the results reported in our paper reproducible. このプロトコルは、我々の論文で報告された結果を再現可能にするのに役立つ。 0.53
A.3 Details of Training and Evaluation Following Kim and Linzen (2020), we train all models from scratch using randomly initialized embeddings. A.3 Kim and Linzen (2020) に続き、ランダムに初期化された埋め込みを用いて全てのモデルをスクラッチから訓練する。 0.72
For SCAN, models are trained for 1,000 steps with batch size 128. SCANでは、モデルをバッチサイズ128の1,000ステップでトレーニングする。 0.71
We choose model checkpoints based on their performance on the Dev set. 開発セットのパフォーマンスに基づいて、モデルチェックポイントを選択します。 0.75
For COGS, models are trained for 6,000 steps with batch size of 128. COGSでは、バッチサイズ128の6000ステップのモデルがトレーニングされている。 0.58
We choose the meta-train learning rate α in Equation 2, temperature η in Equation 4 based on the performance on the Gen Dev set. 我々は、Gen Devセットの性能に基づいて、方程式2のメタトレイン学習率αを方程式4の温度ηに選択する。
訳抜け防止モード: 方程式 2 において、メタ-トレイン学習率 α を選択する。 温度 η in Equation 4 on the performance on the Gen Dev set .
0.88
Finally we use the chosen α, η to train models with new random seeds, and only the last checkpoints (at step 6,000) are used for evaluation on the Test and Gen set. 最後に、選択したα,ηを用いて新しいランダムシードでモデルを訓練し、テストセットとGenセットの評価には最後のチェックポイント(ステップ6,000)のみを使用する。 0.77
A.4 Other Splits of SCAN The SCAN dataset contains many splits, such as Add-Jump, Around Right, and Length split, each assessing a particular case of compositional generalization. A.4 その他の SCAN の分割 SCAN データセットには、Add-Jump, Around Right, Length split などの多くの分割が含まれている。 0.74
We think that MCD splits are more representative of compositional generalization due to the nature of the principle of maximum compound divergence. mcd分割は、最大化合物の発散の原理の性質から、組成一般化のより代表的であると考える。 0.68
Moreover, it is more challenging than other splits (except the Length split) according to Furrer et al (2020). さらに、 furrer et al (2020) によれば、他の分割(長さ分割を除く)よりも難しい。 0.70
That GECA, which obtains 82% in accuracy on JUMP and Around Right splits, only obtains < 52% in accuracy on MCD splits in our experiments confirms that MCD splits are more challenging. JUMP と around Right の分割で 82% の精度が得られたGECA は MCD の分割で 52% の精度しか得られず,本実験では MCD の分割の方が困難であることが確認された。 0.74
A.5 Kernel Analysis The primary difference between the tree-kernel and string-kernel methods is in the diversity of the examples they select for the meta-test task. a.5 kernel analysis tree-kernelとstring-kernelメソッドの主な違いは、メタテストタスクに選択したサンプルの多様性にある。 0.78
The tree kernel selects a broader range of lengths, often including atomic examples, a single word in length, matching a word in the original example from metatrain (see table 5). ツリーカーネルは、しばしば原子例、単一の単語の長さを含む幅広い範囲の長さを選択し、元の例の単語をメタトレインからマッチングする(表5参照)。 0.81
By design the partial tree kernel will always assign a non-zero value to an example that is an atom contained in the original sentence. 設計によって、部分木カーネルは常に元の文に含まれる原子の例にゼロでない値を割り当てる。 0.74
We believe the diversity of the sentences selected 選択された文の多様性は 0.66
英語(論文から抽出)日本語訳スコア
Partial Tree Kernel Mean Example Length (chars) Std dev Mean No. 部分木カーネル 平均長 (chars) Std dev Mean No。 0.60
of Atoms Std dev Atoms Std Devの例 0.82
100 26.59 1000 top 10 29.87 26.71 ± 6.80 ± 7.61 ± 8.85 1.13 ± 0.67 ± 1.05 ± 0.81 100 26.59 1000 top 10 29.87 26.71 ± 6.80 ± 7.61 ± 8.85 1.13 ± 0.67 ± 1.05 ± 0.81 0.66
0.46 0.81 LevDistance Mean Example Length (chars) Std dev Mean No. 0.46 0.81 LevDistance Mean Example Length (chars) Std dev Mean No。 0.66
of Atoms Std dev Atoms Std Devの例 0.82
100 30.45 1000 top 10 29.28 31.04 ± 2.80 ± 3.77 ± 4.78 0.02 ± 0.00 ± 0.02 ± 0.17 100 30.45 1000 top 10 29.28 31.04 ± 2.80 ± 3.77 ± 4.78 0.02 ± 0.00 ± 0.02 ± 0.17 0.66
0.00 0.00 Table 5: Analyses of kernel diversity. 0.00 0.00 表5: カーネルの多様性の分析。 0.64
Reporting mean example length and number of atoms for the top k highest scoring examples for each kernel. 報告すると、各カーネルの最高評価例は、トップkの原子の長さと数である。 0.66
Note that atoms are only counted that also occur in the original example. 原子は元の例でも見られる原子しか数えられないことに注意。 0.72
Source Example: Emma lended the donut to the dog . 出典: emmaはドーナツを犬に貸した。 0.58
Source Example: The crocodile valued that a girl snapped . 出典: クロコダイルは、女の子がスナップしたことを重んじた。 0.49
Neighbours using Tree Kernel Emma was lended the donut . Tree Kernel Emma の隣人はドーナツを貸された。 0.74
The donut was lended to Emma . ドーナツはエマに貸与された。 0.53
Emma lended the donut to a dog . エマはドーナツを犬に貸した。 0.67
Emma lended Liam the donut . エマはリアムにドーナツを貸した。 0.41
Emma lended a girl the donut . エマは女の子にドーナツを貸した。 0.60
Neighbours using String Kernel Emma lended the donut to a dog . 文字列カーネルemmaを使用している隣人は、ドーナツを犬に貸した。 0.46
Emma lended the box to a dog . エマは犬に箱を貸した。 0.66
Emma gave the cake to the dog . エマは犬にケーキをあげた。 0.72
Emma lended the cake to the girl . エマは女の子にケーキを貸した。 0.63
Emma lended the liver to the girl . エマはその少女に肝臓を貸した。 0.72
Neighbours using LevDistance Emma lended the donut to a dog . LevDistance Emmaの隣人は犬にドーナツを貸した。 0.68
Emma loaned the donut to the teacher . エマは先生にドーナツを貸した。 0.67
Emma forwarded the donut to the monster . エマはドーナツをモンスターに転送した。 0.63
Emma gave the cake to the dog . エマは犬にケーキをあげた。 0.72
Charlotte lended the donut to the fish . シャーロットはそのドーナツを魚に貸した。 0.70
Similarity 0.74 0.62 0.55 0.55 0.55 Similarity 0.74 0.62 0.55 0.55 0.55 0.48
Neighbours using Tree Kernel A girl snapped . ツリーカーネルを使用している隣人の少女。 0.56
A rose was snapped by a girl . バラは女の子にスナップされました。 0.69
The cookie was snapped by a girl . クッキーは女の子にスナップされました。 0.73
girl value 0.61 0.36 0.33 0.33 0.33 女の子の価値 0.61 0.36 0.33 0.33 0.33 0.60
-1.00 -2.00 -2.00 -2.00 -2.00 -1.00 -2.00 -2.00 -2.00 -2.00 0.34
Neighbours using String Kernel The crocodile liked a girl . 文字列カーネルを使用する隣人 ワニは女の子が好きでした。 0.48
The girl snapped . 女の子はスナップしました。 0.54
The crocodile hoped that a boy observed a girl . ワニは男の子が女の子を観察することを望んだ。 0.63
The boy hoped that a girl juggled . 少年は少女がジャグリングすることを望んだ。 0.54
The cat hoped that a girl sketched . 猫は女の子がスケッチするのを望んだ。 0.66
Neighbours using LevDistance The crocodile liked a girl . LevDistance クロコダイルは女の子が好きだった。 0.51
The boy hoped that a girl juggled . 少年は少女がジャグリングすることを望んだ。 0.54
The cat hoped that a girl sketched . 猫は女の子がスケッチするのを望んだ。 0.66
The cat hoped that a girl smiled . 猫は女の子が笑うことを望んだ。 0.75
Emma liked that a girl saw . エマは女の子が見たのが好きだった 0.48
Similarity 0.55 0.39 0.39 0.32 0.32 Similarity 0.55 0.39 0.39 0.32 0.32 0.48
0.28 0.27 0.26 0.15 0.15 0.28 0.27 0.26 0.15 0.15 0.44
-3.00 -3.00 -3.00 -3.00 -4.00 -3.00 -3.00 -3.00 -3.00 -4.00 0.34
Table 6: Top scoring examples according to the tree kernel, string kernel and Levenshtein distance for two sentences and accompanying scores. 表6: ツリーカーネル、文字列カーネル、レヴェンシュテイン距離による2つの文とそれに伴うスコアの上位スコアの例。 0.69
by the tree kernel accounts for the superior performance of Tree-MAML compared with the other MAML conditions. ツリーカーネルによって、他のMAML条件と比較して、Tree-MAMLの優れたパフォーマンスが説明できる。 0.63
The selection of a variety of lengths for meta-test constrains model updates on the meta-train task such that they must also accommodate the diverse and often atomic examples selected for meta-test. メタテストの制約に対する様々な長さの選択は、メタトレインタスクをモデルに更新し、メタテストのために選択された多種多様でしばしばアトミックな例に対応する必要がある。 0.64
This constraint would seem to better inhibit memorizing large spans of the input unlikely to be present in meta-test. この制約は、メタテストでは起こりそうもない入力の広いスパンを記憶することを阻害すると考えられる。 0.61
A.7 COGS Subtask Analysis A.7 COGSサブタスク解析 0.68
We notice distinct performance for different conditions on the different subtasks from the COGS dataset. COGSデータセットと異なるサブタスクで異なる条件で異なる性能を示す。 0.67
In Figure 2 we show the performance of the Uni-MAML and Str-MAML conditions compared with the mean of those conditions. 図2では、Uni-MAML と Str-MAML の条件の性能を、それらの条件の平均と比較して示す。 0.65
Where the bars are equal to zero the models’ performance on that task is roughly equal. バーがゼロに等しい場合、そのタスクにおけるモデルのパフォーマンスはほぼ同じです。 0.73
A.6 Meta-Test Examples A.6のメタテスト例 0.54
In Table 6, we show top scoring examples retrieved by the similarity metrics for two sentences. 表6では、2文の類似度指標で得られた上位スコアの例を示す。 0.75
We found that in some cases (e g , the right part of Table 6), the tree-kernel can retrieve examples that diverge in length but are still semantically relevant. いくつかのケース(例えばテーブル6の右部分)では、ツリーカーネルは長さが分散するが意味論的に関連がある例を検索できる。 0.71
In contrast, string-based similarity metrics, especially LevDistance, tends to choose examples with similar lengths. 対照的に、文字列ベースの類似度メトリクス、特にLevDistanceは、同様の長さの例を選択する傾向がある。 0.60
Full task names for figure 2: (1) prim→subj proper, (2) active→passive, (3) only seen as unacc subj → unerg subj, (4) subj→obj proper, (5) only seen as unacc subj → obj omitted transitive subj, (6) pp recursion, (7) cp recursion, (8) obj pp→subj pp, (9) obj→subj common, (10) do dative→pp dative, (11) passive→active, 図2: (1) prim→subj proper, (2) active→passive, (3) only seen as unacc subj → unerg subj, (4) subj→obj proper, (5) only seen as unacc subj → obj omitted transitive subj, (6) pp recursion, (7) cp recursion, (8) obj pp→subj pp, (9) obj→subj common, (10) do dative→pp dative, (11) passive→active, 0.92
英語(論文から抽出)日本語訳スコア
Figure 2: Performance for the Uni-MAML and LevMAML conditions compared to the mean of those two conditions. 図2: この2つの条件の平均と比較して、Uni-MAMLとLevMAMLの条件のパフォーマンス。 0.70
(12) only seen as transitive subj → unacc subj, (13) obj omitted transitive→transitive, (14) subj→obj common, (15) prim→obj proper, (16) obj→subj proper, (17) pp dative→do dative, (18) unacc→transitive, (19) prim→subj common, (20) prim→obj common, (21) prim→inf arg. (12) 推移的subj → unacc subj, (13) obj omitted transitive→transitive, (14) subj→obj common, (15) prim→obj proper, (16) obj→subj proper, (17) pp dative→do dative, (18) unacc→transitive, (19) prim→subj common, (20) prim→obj common, (21) prim→inf arg 0.94
                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。