論文の概要、ライセンス

# (参考訳) 「この記事はglaxefwで、これはglaxuzbです」:人工ニューラルネットワークを用いた言語伝達による構成性 [全文訳有]

"This item is a glaxefw, and this is a glaxuzb": Compositionality Through Language Transmission, using Artificial Neural Networks ( http://arxiv.org/abs/2101.11739v1 )

ライセンス: CC BY 4.0
Hugh Perkins(参考訳) 本稿では,ニューラルネットワークのための反復学習モデル(ilm)を用いたアーキテクチャとプロセスを提案する。 ILMはDCGと同じ明確な構成性をもたらすのではなく、ホールドアウト精度とトポロジカルな類似性によって測定されるように、構成性は緩やかに改善されることを示す。 ILMは、保留精度とトポロジカルローの反相関につながる可能性があることを示した。 非記号的高次元像を入力として使用する場合、ILMは構成性を向上させることができることを示す。

We propose an architecture and process for using the Iterated Learning Model ("ILM") for artificial neural networks. We show that ILM does not lead to the same clear compositionality as observed using DCGs, but does lead to a modest improvement in compositionality, as measured by holdout accuracy and topologic similarity. We show that ILM can lead to an anti-correlation between holdout accuracy and topologic rho. We demonstrate that ILM can increase compositionality when using non-symbolic high-dimensional images as input.
公開日: Wed, 27 Jan 2021 23:08:16 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
“This item is a glaxefw, and this is a glaxuzb”: Compositionality Through 「このアイテムはグラックスフであり、これはグラックスズブです」:構成性を通して 0.60
Language Transmission, using Artificial Neural Networks 人工ニューラルネットワークを用いた言語伝達 0.84
Hugh Perkins (hp@asapp.com) Hugh Perkins (hp@asapp.com) 0.94
ASAPP (https://asapp.com) ASAPP (https://asapp.com) 0.75
1 World Trade Center, NY 10007 USA 1 World Trade Center、NY 10007 USA。 0.88
1 2 0 2 n a J 1 2 0 2 n a J 0.85
7 2 ] L C . 7 2 ] L C。 0.78
s c [ 1 v 9 3 7 1 1 sc [ 1 v 9 3 7 1 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
Abstract We propose an architecture and process for using the Iterated Learning Model (”ILM”) for artificial neural networks. 概要 本稿では,ニューラルネットワークのための反復学習モデル("ilm")を用いたアーキテクチャとプロセスを提案する。 0.61
We show that ILM does not lead to the same clear compositionality as observed using DCGs, but does lead to a modest improvement in compositionality, as measured by holdout accuracy and topologic similarity. ILMはDCGと同じ明確な構成性をもたらすのではなく、ホールドアウト精度とトポロジカルな類似性によって測定されるように、構成性は緩やかに改善されることを示す。 0.78
We show that ILM can lead to an anti-correlation between holdout accuracy and topologic rho. ILMは、保留精度とトポロジカルローの反相関につながる可能性があることを示した。 0.54
We demonstrate that ILM can increase compositionality when using non-symbolic high-dimensional images as input. 非記号的高次元像を入力として使用する場合、ILMは構成性を向上させることができることを示す。 0.40
1 Introduction Human languages are compositional. 1 はじめに 人間の言語は構成的です。 0.67
For example, if we wish to communicate the idea of a ‘red box’, we use one word to represent the color ‘red‘, and one to represent the shape ‘box‘. 例えば、もし私たちが 'red box' のアイデアを伝えたいなら、'red' の色を表すために1つの単語を使い、'box' の形を表すために1つの単語を使います。 0.70
We can use the same set of colors with other shapes, such as ‘sphere‘. 同じ色を‘sphere’のような他の形状で使うことができます。 0.75
This contrasts with a non-compositional language, where each combination of color and shape would have its own unique word, such as ‘aefabg‘. これは非構成言語とは対照的であり、色と形の組み合わせはそれぞれ'aefabg'のような独自の単語を持つ。 0.78
That we use words at all is a characteristic of compositionality. 私たちが言葉を使うことは、構成性の特徴です。 0.68
We could alternatively use a unique sequence of letters or phonemes for each possible thought or utterance. 考えられる思考や発話ごとに、文字や音素のユニークなシーケンスを使うこともできます。 0.69
Compositionality provides advantages over non-compositional language. 構成性は非構成言語に勝る。 0.56
Compositional language allows us to generalize concepts such as colors across different situations and scenarios. 構成言語は、さまざまな状況やシナリオにまたがる色などの概念を一般化できる。 0.77
However, it is unclear what is the concrete mechanism that led to human languages being compositional. しかし、人間の言語が構成されるに至った具体的なメカニズムは明らかではない。 0.74
In laboratory experiments using artificial neural networks, languages emerging between multiple communicating agents show some small signs of compositionality, but do not show the clear compositional behavior that human languages show. 人工ニューラルネットワークを用いた実験では、複数の通信エージェントの間に出現する言語は構成性の小さな兆候を示すが、人間の言語が示す明確な構成行動は示さない。 0.73
(Kottur et al., 2017) shows that agents do not learn (Kottur et al., 2017)は、エージェントが学習しないことを示す 0.77
compositionality unless they have to. 構成性は必要としない。 0.42
In the context of referential games, (Lazaridou et al., 2018) showed that agent utterances had a topographic rho of 0.16-0.26, on a scale of 0 to 1, even whilst showing a task accuracy of in excess of 98%. レファレンシャルゲームの文脈では、(Lazaridou et al., 2018)エージェント発話は0から1までのスケールで0.16-0.26の地形rhoを持っていたことを示し、タスクの精度は98%を超えている。 0.63
In this work, following the ideas of (Kirby, 2001), we hypothesize that human languages are compositional because compositional languages are highly compressible, and can be transmitted across generations most easily. 本研究は(kirby, 2001)の考え方に従い,合成言語は圧縮性が高く,世代間で最も容易に伝達できるため,合成言語は合成言語であると仮定する。 0.72
We extend the ideas of (Kirby, 2001) to artificial neural networks, and experiment with using non-symbolic inputs to generate each utterance. 我々は,(Kirby,2001)のアイデアを人工ニューラルネットワークに拡張し,非記号入力を用いて各発話を生成する実験を行った。 0.70
We find that transmitting languages across generations using artificial neural networks does not lead to such clearly visible compositionality as was apparent in (Kirby, 2001). 人工ニューラルネットワークを用いた世代間における言語伝達は, 明快な構成性に結びつくものではないことが判明した(kirby, 2001)。 0.70
However, we were unable to prove a null hypothesis that ILM using artificial neural networks does not increase compositionality across generations. しかし、人工ニューラルネットワークを用いたILMは世代間で構成性を向上しないというヌル仮説を証明できなかった。 0.64
We find that objective measures of compositionality do increase over several generations. 構成性の客観的な尺度は、何世代にもわたって増加する。 0.47
We find that the measures of compositionality reach a relatively modest plateau after several generations. 構成性の尺度は数世代を経て比較的穏やかな台地に達することが判明した。 0.51
Our key contributions are: 私たちの重要な貢献は 0.65
• propose an architecture for using ILM with including with • including with で ilm を使用するアーキテクチャの提案 0.75
artificial neural networks, non-symbolic input 非記号入力という人工ニューラルネットワーク 0.72
• show that ILM with artificial neural networks does not lead to the same clear compositionality as observed using DCGs • 人工ニューラルネットワークを用いたILMがDCGを用いた場合と同じ明確な構成性に繋がらないことを示す。 0.70
• show that ILM does lead to a modest increase ILMが控えめな増加をもたらすことを示します。 0.72
in compositionality for neural models 神経モデルの構成性について 0.52
• show that two measures of compositionality, i.e. • 構成性の2つの尺度、すなわちを示す。 0.67
holdout accuracy and topologic similarity, can correlate negatively, in the presence of ILM ILMの存在下では、ホールドアウト精度と位相的類似性は負に相関する 0.71
英語(論文から抽出)日本語訳スコア
• demonstrate an effect of ILM on compositionality for non-symbolic high-dimensional inputs •非記号的高次元入力の合成性に対するILMの効果の実証 0.70
Iterated Learning Method 2 (Kirby, 2001) hypothesized that compositionality in language emerges because languages need to be easy to learn, in order to be transmitted between generations. 反復学習方法 2 (kirby, 2001) は、言語は世代間で伝達されるために容易に学習する必要があるため、言語の構成性が現れると仮定した。 0.76
(Kirby, 2001) showed that using simulated teachers and students equipped with a context-free grammar, the transmission of a randomly initialized language across generations caused the emergence of an increasingly compositional grammar. (Kirby,2001) は、文脈自由文法を備えた模擬教師と学生を用いて、世代間でランダムに初期化言語が伝達されることで、構成文法の出現が増すことを示した。 0.64
(Kirby et al., 2008) showed evidence for the same process in humans, who were each tasked with transmitting a language to another participant, in a chain. (Kirby et al., 2008)は、それぞれが言語を他の参加者に鎖で伝達する任務を負った人間の同じ過程の証拠を示した。 0.83
(Kirby, 2001) termed this approach the ”Iterated Learning Method” (ILM). (Kirby,2001)は、このアプローチを"Iterated Learning Method"(ILM)と呼んだ。 0.81
Learning proceeds in a sequence of generations. 学習は一連の世代で進行する。 0.73
In each generation, a teacher agent transmits a language to a student agent. 各世代において、教師エージェントは、言語を学生エージェントに送信する。 0.79
The student agent then becomes the teacher agent for the next generation, and a new student agent is created. その後、学生エージェントが次世代の教師エージェントとなり、新しい学生エージェントが作成されます。 0.78
A language G is defined as a mapping G : M (cid:55)→ U from a space of meanings M to a space of utterances U. G can be represented as a set of pairs of meanings and utterances G = {(m1, u1), (m2, u2), . 言語 G は意味 M の空間から発話空間への写像 G : M (cid:55)→ U として定義される。G は意味と発話 G = {(m1, u1), (m2, u2), の組として表すことができる。 0.81
. . (mn, un)}. . . (mn, un)}。 0.82
Transmission from teacher to student is imperfect, in that only a subset, Gtrain of the full language space G is presented to the student. 教師から学生への伝達は不完全であり、そのサブセットのみにおいて、完全な言語空間GのGtrainが学生に提示される。 0.76
Thus the student agent must generalize from the seen meaning/utterance pairs {(mi, ui) | mi ∈ Mtrain,t ⊂ M} to unseen meanings, {mi | mi ∈ (M \ Mtrain, t)}. したがって、学生エージェントは見た意味と発話のペア {(mi, ui) | mi ∈ mtrain, t , m} から見当たらない意味 {mi | mi ∈ (m \ mtrain, t)} へ一般化しなければならない。 0.82
We represent the mapping from meaning mi to utterance ui by the teacher as fT (·). 先生が意味するmiから発話uiへのマッピングをfT(・)として表現します。 0.77
Similarly, we represent the student agent as fS(·) In ILM each generation proceeds as follows: 同様に、学生エージェントを fS(·) In ILM で表すと、各世代は次のようになる。 0.74
• draw subset of meanings Mtrain,t from the full set of meanings M • invention: use teacher agent to generate utterances Utrain,t = {ui,t = fT (mi) | mi ∈ Mtrain,t} • incorporation: 発明: 教師エージェントを使用して発話を生成する Utrain,t = {ui,t = fT (mi) | mi ∈ Mtrain,t} • 定式化。
訳抜け防止モード: • 意味のサブセットを描画する Mtrain, t の意味のフルセットから M • 発明 : 教師エージェントを使用して発話を生成する Utrain。 t = { ui , t = fT ( mi ) | mi ∈ Mtrain , t } • 法人化:
0.89
the student memorizes the teacher’s mapping from Mtrain,t to Utrain,t 生徒は記憶します Mtrain,t から Utrain,t への教師のマッピング。 0.80
• generalization: the student generalizes from the seen meaning/utterance pairs Gtrain,t to determine utterances for the unseen meanings Mtrain,t •一般化: 生徒は見た意味/発話ペアGtrain,tから一般化し、見えない意味Mtrain,tの発話を決定する。
訳抜け防止モード: •一般化 : 生徒は見た意味/発話ペアGtrainから一般化する。 t to determine utterances for the unseen meanings Mtrain , t
0.85
S : (a0, b3) → abc S : (a0, b3) → abc 0.98
S : (x, y) → A : y B : x S : (x, y) → A : y B : x 0.85
A : b3 → ab B : a0 → c A : b3 → ab B : a0 → c 1.00
Figure 1: Two Example sets of DCG rules. 図1:DCGルールの2つの例セット。 0.84
Each set will produce utterance ‘abc’ when presented with meanings (a0, b3). 各セットは、意味(a0, b3)が提示されたときに発話 ‘abc’ を生成します。 0.63
a0 qda qr qa qu qp a0 qda qr qa qu qp 0.97
a1 bguda bgur bgua bguu bgup a1 bguda bgur bgua bguu bgup 0.97
a2 lda lr la lu lp a2 lda lr la lu lp 0.97
a3 kda kr ka ku kp a3 kda kr ka ku kp 0.97
a4 ixcda ixcr ixca ixcu ixcp a4 ixcda ixcr ixca ixcu ixcp 0.97
b0 b1 b2 b3 b4 b0 b1 b2 b3 b4 0.64
Table 1: Example language generated by Kirby’s ILM. 表1: kirby氏のilmで生成された言語例。 0.72
In (Kirby, 2001), the agents are deterministic sets of DCG rules, e.g. カービー (Kirby, 2001) では、エージェントはDCGルールの決定論的集合である。 0.75
see Figure 1. For each pair of meaning and utterance (mi, ui) ∈ Gtrain,t, if (mi, ui) is defined by the existing grammar rules, then no learning takes place. 図1参照。 意味と発話のペア (mi, ui) ∈ Gtrain,t, if (mi, ui) が既存の文法規則によって定義されている場合、学習は行われない。 0.74
Otherwise, a new grammar rule is added, that maps from mi to ui. そうでなければ、miからuiにマップする新しい文法ルールが追加される。 0.80
Then, in the generalization phase, rules are merged, where possible, to form a smaller set of rules, consistent with the set of meaning/utterance pairs seen during training, Gtrain,t. そして、一般化フェーズにおいて、ルールは可能な限りマージされ、トレーニング中に見られる意味/発話ペアの集合、Gtrain,tと一致する、より小さなルールの集合を形成する。 0.68
The generalization phase uses a complex set of hand-crafted merging rules. 一般化フェーズは、手作りのマージルールの複雑なセットを使用する。 0.53
The initial language at generation t0 is randomly initialized, such that each ut,i is initialized with a random sequence of letters. t0 生成時の初期言語はランダムに初期化され、各 ut,i はランダムな文字列で初期化される。 0.81
The meaning space comprised two attributes, each having 5 or 10 possible values, giving a total meaning space of 52 = 25 or 102 = 100 possible meanings. 意味空間は2つの属性で構成され、それぞれ5または10の可能な値を持ち、合計意味空間は52 = 25または102 = 100である。 0.79
(Kirby, 2001) examined the compositionality of the language after each generation, by looking for common substrings in the utterances for each attribute. (Kirby,2001)では,各属性の発話に共通するサブストリングを探すことにより,各世代における言語構成性の検証を行った。 0.73
An example language is shown in Table 1. 例の言語を表1に示します。 0.81
In this language, there are two meaning attributes, a and b taking values {a0, . この言語には2つの意味属性があり、a と b は値 {a0, である。 0.76
. . , a4} and {b0, . . . a4} と {b0, . 0.87
. . , b4}. . . b4 である。 0.80
For example, attribute a could be color, and a0 could represent ‘red’; whilst b could be shape, and b3 could represent ‘square’. 例えば、属性 a は色であり、a0 は「赤」を表し、b は「形」、b3 は「四角」を表すことができる。 0.77
Then the word for ‘red square’, in the example language shown, would be ‘qu’. すると、例の言語では、"red square" の語は 'qu' となる。 0.76
We can see that in the example, the attribute a0 was associated with a prefix 例では a0 属性が接頭辞に関連付けられていたことがわかります 0.75
英語(論文から抽出)日本語訳スコア
‘q’, whilst attribute b3 tended to be associated with a suffix ‘u’. q' は属性 b3 は接尾辞 'u' に関連付けられる傾向にあった。 0.77
The example language thus shows compositionality. したがって、例語は構成性を示す。 0.54
(Kirby et al., 2008) extended ILM to humans. (Kirby et al., 2008) ILMを人間に拡張した。 0.85
They observed that ILM with humans could lead to degenerate grammars, where multiple meanings mapped to identical utterances. 彼らは、人間とILMは、複数の意味が同一の発話にマッピングされた退化文法につながる可能性があることを観察した。 0.47
However, they showed that pruning duplicate utterances from the results of the generation phase, prior to presentation to the student, was sufficient to prevent the formation of such degenerate grammars. しかし,学習者への提示前に,生成相の結果から重複発話を刈り取ることは,このような縮退文法の形成を防止するには十分であることが示された。 0.72
3 ILM using Artificial Neural Networks 3 ニューラルネットワークを用いたILM 0.77
Figure 2: Naive ILM using Artificial Neural Networks 図2: 人工ニューラルネットワークを用いたNaive ILM 0.88
We seek to extend ILM to artificial neural networks, for example using RNNs. 我々は、例えばRNNを用いて、ILMを人工ニューラルネットワークに拡張することを目指しています。 0.64
Different from the DCG in (Kirby, 2001), artificial neural networks generalize over their entire support, for each training example. dcg in (kirby, 2001)とは異なり、ニューラルネットワークはトレーニングの例ごとにサポート全体を一般化している。 0.75
Learning is in general lossy and imperfect. 学習は一般的に損失と不完全です。 0.72
In the case of using ANNs we need to first consider how to represent a single ‘meaning’. ANNを使用する場合は、まず、単一の「意味」を表す方法を検討する必要があります。 0.70
Considering the example language depicted in Table 1 above, we can represent each attribute as a onehot vector, and represent the set of two attributes as the concatenation of two one-hot vectors. 上記の表1に示す例言語を考えると、各属性を1ホットベクトルとして表し、2つの属性の集合を2つの1ホットベクトルの連結として表すことができる。 0.77
More generally, we can represent a meaning as a single real-valued vector, m. In this work, we will use ‘thought vector‘ and ‘meaning vector‘ as synonyms for ‘meaning‘, in the context of ANNs. より一般的には、意味を単一の実数値ベクトルとして表すことができ、この研究では、アンの文脈で ‘thought vector’ と ‘meaning vector’ を ‘meaning’ の同義語として使う。 0.81
We partition the meaning space M into Mtrain and Mholdout, such that M = Mtrain ∪ Mholdout. 意味空間 M を Mtrain と Mholdout に分割し、M = Mtrain > Mholdout とする。 0.72
We will denote a subset of Mtrain at generation t by Mtrain,t. t の生成時に Mtrain のサブセットを Mtrain,t で表します。 0.69
3.1 Naive ANN ILM A naive attempt to extend ILM to artificial neural networks (ANNs) is to simply replace the DCG in ILM with an RNN, see Figure 2. 3.1 Naive ANN ILM ILM ILMを人工ニューラルネットワーク(ANN)に拡張しようとする単純な試みは、単にILMのDCGをRNNに置き換えることである。 0.85
In practice we observed that using this formulation leads to a degenerate grammar, where all meanings map to a single identical utterance. 実際には、この定式化を用いることで、すべての意味が同一の発話にマップされる縮退文法が導かれる。 0.63
Meaning space Nodups Uniq 0.024 0.024 0.039 0.05 意味空間 Nodups Uniq 0.024 0.024 0.039 0.05 0.59
332 105 332 105 332 105 332 105 0.85
yes yes ρ 0.04 0.08 0.1 0.1 はい はい ρ 0.04 0.08 0.1 0.1 0.66
accH 0.05 0 0 0 accH 0.05 0 0 0.98
Table 2: Results using naive ANN ILM architecture. 表2: naive ANN ILMアーキテクチャを使用した結果。 0.79
‘Nodups’: remove duplicates; ρ: topographic similarity (see later); ‘Uniq’: uniqueness. nodups’: 重複を取り除く; ρ: 地形的類似性(後述)、‘Uniq’: ユニーク性。 0.76
Termination criteria for teacher-student training is 98% accuracy. 教員研修の終了基準は98%の精度です。 0.72
ANNs generalize naturally, but learning is lossy and imperfect. ANNは自然に一般化しますが、学習は損失と不完全です。 0.46
This contrasts with a DCG which does not generalize. これは一般化しないDCGと対照的です。 0.72
In the case of a DCG, generalization is implemented by applying certain handcrafted rules. DCGの場合、特定の手作りルールを適用して一般化を行う。 0.66
With careful crafting of the generalization rules, the DCG will learn a training set perfectly, and degenerate grammars are rare. 一般化規則を慎重に作成することで、DCGはトレーニングセットを完璧に学習し、退化文法は稀である。 0.76
In the case of using an ANN, the lossy teacherstudent training progressively smooths the outputs. ANNを使う場合、損失の多い教員養成は徐々にアウトプットを円滑にする。 0.60
In the limit of training over multiple generations, an ANN produces the same output, independent of the input: a degenerate grammar. 複数の世代にわたるトレーニングの限界において、ANNは入力から独立して同じ出力を生成します。 0.69
The first two rows of Table 2 show results for two meaning spaces: 2 attributes each with 33 possible values (depicted as 332), and 5 attributes each with 10 possible values (depicted as 105). 表2の最初の2行は、2つの意味空間についての結果を示す: 2つの属性は33の可能な値(332の値)を持ち、5つの属性は10の値(105の値)を持つ。 0.71
The column ‘uniq’ is a measure of the uniqueness of utterances over the meaning space, where 0 means all utterances are identical, and 1 means all utterances are distinct. 列 'uniq' は意味空間上の発話のユニークさの尺度であり、0 は全ての発話が同一であり、1 は全ての発話が異なることを意味する。 0.73
We can see that the uniqueness values are near zero for both meaning spaces. 両方の意味空間に対して、一意性値はゼロに近いことが分かる。 0.65
We tried the approach of (Kirby et al., 2008) of removing duplicate utterances prior to presentation to the student. 我々は,学生に提示する前に重複発声を除去するアプローチ(Kirby et al., 2008)を試みた。 0.79
Results for ‘nodups’ are shown in the last two rows of Table 2. 表2の最後の2行に「nodups」の結果が表示されます。 0.81
The uniqueness improved slightly, but was still near zero. 独特さはわずかに改善したが、まだゼロに近い状態だった。 0.60
Thus the approach of (Kirby et al., 2008) did not prevent the formation of a degenerate grammar, in our experiments, when using ANNs. したがって,2008年のKirbyらによるアプローチは,ANNを用いた実験において,退化文法の形成を防げなかった。 0.69
3.2 Auto-encoder to enforce uniqueness To prevent the formation of degenerate grammars, we propose to enforce uniqueness of utterances by mapping the generated utterances back into meaning space, and using reconstruction loss on the reconstructed meanings. 3.2 縮退文法の形成を防止するために一意性を強制する自動エンコーダにおいて,生成した発話を意味空間にマッピングし,再構成された意味の再構成損失を用いて発話の一意性を強制する。
訳抜け防止モード: 3.2 Auto - Encoder to enforce uniqueness―for the formation of degenerate grammars 我々は 発話の独特さを 強制することを提案します 生成された発話を 意味空間にマッピングし 再建された意味を 復元する
0.78
Using meaning space reconstruction loss requires a way to map from generated utterances back to meaning space. 意味空間再構成の損失は、生成された発話から意味空間にマップする方法を必要とする。 0.70
One way to achieve this could be to back-propagate from a generated utterance back onto a randomly initialized mean- これを実現する方法の1つは、生成された発話からランダムに初期化された平均へのバックプロパゲートである。
訳抜け防止モード: これを達成する一つの方法は to back - 生成された発話からランダムに初期化された平均へ伝播する
0.57
英語(論文から抽出)日本語訳スコア
Figure 3: Agent sender-receiver architecture 図3: agent sender-receiver architecture 0.87
ing vector. However, this requires multiple backpropagation iterations in general, and we found this approach to be slow. ingベクター。 しかし、これは一般的に複数のバックプロパゲーションイテレーションを必要とし、このアプローチは遅くなることがわかった。 0.64
We choose to introduce a second ANN, which will learn to map from discrete utterances back to meaning vectors. 別個の発話から意味ベクトルへの写像を学習する第2のANNを導入することを選択します。 0.79
Our architecture is thus an auto-encoder. 私たちのアーキテクチャは自動エンコーダです。 0.71
We call the decoder the ‘sender’, which maps from a thought vector into discrete language. 私たちはデコーダを‘sender’と呼び、思考ベクトルから離散言語にマップします。 0.78
The encoder is termed the ‘receiver’. エンコーダは「受信者」と呼ばれます。 0.81
We equip each agent with both a sender and a receiver network, Figure 3. 各エージェントに送信側と受信側ネットワークの両方、図3を装備する。 0.70
3.3 Neural ILM Training Procedure We will denote the teacher sender network as fT,send(·), the student receiver network as fS,recv(·), and the student sender network as The output of f·,send(·) will be nonfS,send. 3.3 ニューラルネットワークILMトレーニング手順 教師送信ネットワークをfT,send(・)、学生受信ネットワークをfS,recv(・)、学生送信ネットワークをf·,send(・)の出力をfS,send(・)と表記します。 0.69
normalized logits, representing a sequence of distributions over discrete tokens. 正規化されたロジット、離散トークン上の分布列を表す。 0.69
These logits can be converted into discrete tokens by applying an argmax. これらのロジットはargmaxを適用して離散トークンに変換することができる。 0.64
For teacher-student training, we use the sender network of the teacher to generate a set of meaning-utterance pairs, which represent a subset of the teacher’s language. 教師-学生教育において,教師の言語の一部を表す意味・発話ペアのセットを生成するために,教師の送信者ネットワークを利用する。 0.83
We present this language to the student, and train both the sender and the receiver network of the student, on this new language. 我々は,この言語を学生に提示し,学生の送信者と受信者ネットワークの両方をこの新しい言語で訓練する。 0.84
The ILM training procedures is depicted in Figure 4. ILMトレーニング手順は図4に示されています。 0.77
A single generation proceeds as follows. 単一の世代は次の通り進みます。 0.61
For each step t, we do: 各ステップtのために、我々はします。 0.57
• meaning sampling we sample a subset of meanings Mtrain,t = {mt,0 . • サンプリングの意味 mtrain,t = {mt,0} の意味の部分集合をサンプリングする。 0.61
. . mt,N} ⊂ Mtrain, where Mtrain is a subset of the space of all meanings, i.e. . . mt,N} は Mtrain であり、Mtrain はすべての意味の空間の部分集合である。 0.83
Mtrain = M \ Mholdout Mtrain = M \ Mholdout 0.85
• teacher generation: use the teacher sender network to generate the set of utterances Ut = {ut,0, . • 教師生成: 教師送信ネットワークを使用して、ut = {ut,0, ....} 発話の集合を生成する。
訳抜け防止モード: ※先生世代 : 教師送信ネットワークを用いて発話集合 ut = { ut,0,} を生成する。
0.79
. . , ut,N}. . . ut,N} である。 0.84
• student supervised training: train the student sender and receiver networks supervised, using Mtrain,t and Ut •学生指導訓練:Mtrain,t,Utを用いて学生送信者と受講者のネットワークを指導する 0.79
• student end-to-end training: train the student sender and receiver network end-to-end, as an auto-encoder •学生のエンドツーエンドトレーニング:自動エンコーダとして学生の送り手と受け手ネットワークのエンドツーエンドを訓練する 0.65
For the teacher generation, each utterance ut,n 教師世代では それぞれの発話はut,n 0.74
is generated as fT,send(mt,n). fT,send(mt,n) として生成される。 0.85
For the student supervised training, we train the student receiver network fS,recv(·) to generate Ut, given Mt, and we train the student sender network fS,send(·) to recover Mt given Ut. 生徒監修研修では、学生の受信機ネットワークfS,recv(・)を訓練してUtを生成し、学生の送信者ネットワークfS,send(・)を訓練して、与えられたUtを回復させます。 0.72
Supervised training for each network terminates after Nsup epochs, or once training accuracy reaches accsup Nsup時代以降、またはトレーニングの精度が上昇すると、各ネットワークの監視トレーニングが終了します。 0.61
The student supervised training serves to transmit the language from the teacher to the student. 生徒が指導した訓練は、教師から生徒に言語を伝えるのに役立ちます。 0.67
The student end-to-end training enforces uniqueness of utterances, so that the language does not become degenerate. 生徒のエンドツーエンドトレーニングは、言語が退化しないように、発話の独特さを強制する。 0.63
In the end-to-end step, we iterate over multiple エンドツーエンドのステップでは、複数のイテレーションを繰り返す 0.60
batches, where for each batch j we do: バッチ j ごとに次のようになります。 0.48
• sample a set of meanings Mtrain,t,j = {mt,j,0 . • 意味の集合 Mtrain,t,j = {mt,j,0 をサンプリングする。 0.83
. . mt,j,Nbatch} ⊂ Mtrain • train, using an end-to-end loss function Le2e as an auto-encoder, using meanings Mtrain,t,j as both the input and the target ground truth. . . mt,j,Nbatch} > Mtrain • train, using a end-to-end loss function Le2e as an auto-encoder, using meaning Mtrain,t,j as both the input and the target ground truth。 0.87
End-to-end training is run for either Ne2e batches, or until end-to-end training accuracy reaches threshold acce2e ne2eバッチまたはエンドツーエンドトレーニング精度が閾値acce2eに達するまでエンドツーエンドトレーニングが実行される。 0.56
3.4 Non-symbolic input In the general case, the meanings m can be presented as raw non-symbolic stimuli x. 3.4 非記号入力 一般的な場合、意味 m は生の非記号的刺激 x として表すことができる。 0.60
Each raw stimulus x can be encoded by some network into a thought-vector m. We denote such an encoding network as a ‘perception’ network. 各生の刺激xは、あるネットワークによって思考ベクトルmに符号化され、そのような符号化ネットワークを「知覚」ネットワークとして表現する。 0.62
As an example of a perception network, an image could be encoded using a convolutional neural network. 知覚ネットワークの例として、畳み込みニューラルネットワークを用いて画像を符号化することができる。 0.83
This then presents a challenge when training a receiver network. これは受信機のネットワークを訓練するときの挑戦を示します。 0.67
One possible architecture would be for the receiver network to generate the original input x. 1つの可能なアーキテクチャは、受信ネットワークが元の入力xを生成することである。 0.65
We choose instead to share the perception network between the sender and receiver networks in each agent. 代わりに、各エージェントの送信者と受信者ネットワーク間で知覚ネットワークを共有することを選択します。 0.69
During supervised training of the sender, using the language generated by the teacher, we train the perception and sender networks jointly. 教師が生成した言語を用いて,送信者の指導訓練中に,知覚ネットワークと送信ネットワークを共同で訓練する。 0.77
To train the receiver network, we hold the perception network weights constant, and train the receiver network to predict the output of the perception network, given input utterance u and target stimulus x. 受信機ネットワークをトレーニングするために、知覚ネットワークの重みを一定に保ち、受信機ネットワークに入力発話uと目標刺激xを与えられた知覚ネットワークの出力を予測するよう訓練する。 0.77
See Figure 5. Note that by 図5を参照。 注意してください 0.70
英語(論文から抽出)日本語訳スコア
Figure 4: Neural ILM Training Procedure 図4:neural ilm training procedure 0.74
Figure 5: Generalized Neural ILM Supervised Training 図5:一般化ニューラルILM監督訓練 0.76
setting the perception network as the identity operator, we recover the earlier supervised training steps. 認識ネットワークをアイデンティティーオペレーターとして設定し 以前の指導訓練手順を回復します 0.65
For end-to-end training, with non-symbolic input, we use a referential task, e.g. 非シンボリックな入力を持つエンドツーエンドのトレーニングでは、例えば、参照タスクを使用します。 0.52
as described in (Lazaridou et al., 2018). に記載されている(Lazaridou et al., 2018)。 0.78
The sender network is presented the output of the perception network, m, and generates utterance u. 送信者ネットワークは、知覚ネットワークmの出力を表示し、発話uを生成する。 0.63
The receiver network chooses a target image from distractors which matches the image presented to the sender. 受信ネットワークは、送信者に提示された画像にマッチするトラクタからターゲット画像を選択する。 0.75
The target image that the receiver network perceives could be the original stimulus presented to the sender, or it could be a stimulus which matches the original image in concept, but is not the same stimulus. 受信機ネットワークが知覚するターゲットイメージは、送信者に提示された元の刺激、または概念上の元のイメージに一致するが、同じ刺激ではない刺激である可能性があります。 0.70
For example, two images could contain the same shapes, having the same colors, but in different positions. 例えば、2つの画像は、同じ色を持つが異なる位置にある同じ形状を含むことができる。 0.89
Figure 6 depicts the architecture, with a single distractor. 図6はアーキテクチャを1つの気晴らしで表現します。 0.69
In practice, multiple distractors are typically used. 実際には、複数の気晴らしが通常使用されます。 0.49
3.5 Discrete versus soft utterances 3.5 離散対軟発話 0.73
When we train a sender and receiver network endto-end, we can put a softmax on the output of the sender network f·,send, to produce a probabil- 送信者ネットワークと受信者ネットワークをエンドツーエンドにトレーニングすると、送信者ネットワークf·,sendの出力にソフトマックスを配置して確率を生成することができる。 0.70
ity distribution over the vocabulary, for each token. それぞれのトークンに対する語彙上のid分布。 0.73
We can feed these probability distributions directly into the receiver network f·,recv, and train using cross-entropy loss. これらの確率分布を、相互エントロピー損失を用いて受信ネットワークf·,recv,トレインに直接供給することができる。 0.73
We denote this scenario SOFTMAX. このシナリオは SOFTMAX を表します。 0.77
Alternatively, we can sample discrete tokens from categorical distributions parameterized by the softmax output. あるいは、softmax出力によってパラメータ化されたカテゴリ分布から離散トークンをサンプリングすることができる。 0.62
We train the resulting end-toend network using REINFORCE. 結果として生じるエンドツーエンドネットワークをREINFORCEでトレーニングします。 0.48
We use a moving average baseline, and entropy regularization. 移動平均ベースラインとエントロピー正規化を使用します。 0.64
This scenario is denoted RL. このシナリオは RL と表記される。 0.70
3.6 Evaluation of Compositionality 3.6 構成性の評価 0.66
We wish to use objective measures of compositionality. 構成性の客観的な尺度を使いたい。 0.49
This is necessary because the compositional signal is empirically relatively weak. これは、組成信号が比較的弱いためである。 0.65
We assume access to the ground truth for the meanings, and use two approaches: topographic similarity, ρ, as defined in (Brighton and Kirby, 2006) and (Lazaridou et al., 2018); and holdout accuracy accH. 我々は、意味の基底的真理へのアクセスを仮定し、(brighton and kirby, 2006) と (lazaridou et al., 2018) で定義された地形類似性 ρ と holdout accuracy acch の2つのアプローチを用いる。 0.79
ρ is the correlation between distance in meaning space, and distance in utterance space, taken across multiple examples. ρ は、意味空間における距離と発話空間における距離の相関であり、複数の例にまたがる。 0.76
For the distance metric, 距離メトリックのため。 0.63
英語(論文から抽出)日本語訳スコア
Figure 6: End-to-end Referential Task for Non-symbolic Inputs, where x s is the input stimulus presented to the sender, x tgt is the target input simulus, and x distr1 is a distractor stimulus. 図6: シンボリック入力の終端参照タスク x s は送信者に提示された入力刺激 x tgt はターゲット入力シミュラス x tgt であり、distr1 はイントラクタ刺激である。 0.73
we use the L0 distance, for both meanings and utterances. 意味と発話の両方に、L0距離を使用します。 0.79
That is, in meaning space, the distance between ‘red square‘ and ‘yellow square‘ is 1; and the distance between ‘red square’ and ‘yellow circle’ is 2. つまり、空間において、'red square' と 'yellow square' の間の距離は 1 であり、'red square' と 'yellow circle' の間の距離は 2 である。 0.84
In utterance space, the difference between ‘glaxefw’ and ‘glaxuzg’ is 3. 発話空間では、'glaxefw' と 'glaxuzg' の違いは 3 である。 0.84
Considered as an edit distance, we consider substitutions; but neither insertions nor deletions. 編集距離として,置換を考えるが,挿入や削除は考慮しない。 0.77
For the correlation measure, we use the Spearman’s Rank Correlation. 相関測定には、スピアマンのランク相関を使用します。 0.60
accH shows the ability of the agents to generalize to combinations of shapes and colors not seen in the training set. accHは、トレーニングセットにない形状と色の組み合わせに一般化するためのエージェントの能力を示しています。 0.72
For example, the training set might contain examples of ‘red square’, ‘yellow square’, and ‘yellow circle’, but not ‘red circle’. 例えば、トレーニングセットには、'red square'、'yellow square'、'yellow circle'の例が含まれているかもしれないが、'red circle'ではない。 0.87
If the utterances were perfectly compositional, both as generated by the sender, and as interpreted by the receiver, then we would expect performance on ‘red circle’ to be similar to the performance on ‘yellow circle’. 送信側が生成したように、また受信側が解釈したように、発話が完全に合成された場合、'赤円'のパフォーマンスは'黄色円'のパフォーマンスと似ていると期待します。 0.74
The performance on the holdout set, relative to the performance on the training set, can thus be interpreted as a measure of compositionality. これにより、トレーニングセットのパフォーマンスに対するホールドアウトセットのパフォーマンスを、構成性の尺度として解釈することができる。 0.77
Note that when there is just a single attribute, it is not possible to exclude any values from training, otherwise the model would never have been exposed to the value at all. 唯一の属性がある場合、トレーニングから値を除外することはできません。そうでなければ、モデルは決して値にさらされることはありません。 0.70
Therefore accH is only a useful measure of compositionality when there are at least 2 attributes. したがって accH は、少なくとも 2 つの属性がある場合のみ、構成性の有用な尺度です。 0.70
We observe that one key difference between ρ and accH is that ρ depends only on the compositional behavior of the sender, whereas acch depends also on the compositional behavior of the receiver. ρ と acch の主な違いは、ρ が送信者の組成的挙動のみに依存することであるが、acch は受信者の組成的挙動にも依存している。 0.80
As noted in (Lowe et al., 2019), it is possible for utterances generated by a sender to exhibit a particular behavior or characteristic without the receiver making use of this behavior or characteristic. のように(Lowe et al., 2019)、送信者によって生成された発話は、この行動または特性を利用して受信者なしで特定の行動または特性を示すことが可能である。 0.75
4 Related Work Work on emergent communications was revived recently for example by (Lazaridou et al., 2016) and (Foerster et al., 2016). 4 関連作業 緊急コミュニケーションの研究は、例えば(Lazaridou et al., 2016)と(Foerster et al., 2016)によって最近復活した。 0.80
CITE and CITE showed emergent communicatoins in a 2d world. CITEとCITEは、2次元世界で突然のコミュニケートインを示した。 0.57
CITE Several works investigate the compositionality of the emergent language, such as CITE, CITE, CITE. CITE CITE、CITE、CITEなど、創発言語の構成性を調査する作品がいくつかあります。 0.61
(Kottur et al., 2017) showed that agents do not generate compositional languages unless they have to. (Kottur et al., 2017) は、エージェントが構成言語を作らなければ生成しないことを示した。 0.82
(Lazaridou et al., 2018) used a referential game with high-dimensional non-symbolic input, and showed the resulting languages contained elements of compositionality, measured by topographic similarity. (Lazaridou et al., 2018)は高次元ノンシンボリック入力のレファレンシャルゲームを使用し、地形類似度によって測定された構成性の要素を含む言語を示した。 0.59
(Bouchacourt and Baroni, 2018) caution that agents may not be communicating what we think they are communicating, by using randomized images, and by investigating the effect of swapping the target image. (Bouchacourt and Baroni, 2018) エージェントは、ランダム化画像を使用して、ターゲット画像のスワップの効果を調べることによって、通信していると思われるものを通信していないかもしれないと警告している。 0.62
(Andreas et al., 2017) proposed an approach to learn to translate from an emergent language into a natural language. (Andreas et al., 2017) は、創発的な言語から自然言語への翻訳を学ぶためのアプローチを提案した。 0.80
Obtaining compositional emergent language can be viewed as disentanglement of the agent communications. 合成創発言語を得ることは、エージェント通信の絡み合いと見なすことができる。 0.56
(Locatello et al., 2019) prove that unsupervised learning of disentangled representations is fundamentally impossible without inductive biases both on the considered learning approaches and the data sets. (Locatello et al., 2019) は、意図的な学習アプローチとデータセットの両方に誘導的なバイアスを伴わずに、非監視的表現の学習は根本的に不可能であることを証明している。 0.57
Kirby pioneered ILM in (Kirby, 2001), extending it to humans in (Kirby et al., 2008). カービーは ILM in (Kirby, 2001) を開拓し、それを人間に拡張した(Kirby et al., 2008)。 0.79
(Griffiths and Kalish, 2007) proved that for Bayesian agents, that the iterated learning method converges to a distribution over languages that is determined entirely by the prior, which is somewhat aligned with the result in (Locatello et al., 2019) for disentangled representations. (Griffiths and Kalish, 2007) は、ベイズエージェントに対して、反復学習法は前者によって完全に決定される言語上の分布に収束することを示した(Locatello et al., 2019)。
訳抜け防止モード: (Griffiths and Kalish, 2007 ) はベイズエージェントに対してこれを証明した。 反復学習法は、前者によって完全に決定される言語上の分布に収束する。 この結果は(Locatello et al ., 2019 )非絡み合った表現の結果と多少一致している。
0.70
(Li and Bowling, 2019), (Cogswell et al., 2020), and (Ren et al., 2020) extend ILM to artificial neural networks, using symbolic inputs. (Li and Bowling, 2019), (Cogswell et al., 2020), (Ren et al., 2020) は象徴的な入力を用いてILMを人工ニューラルネットワークに拡張する。 0.79
Symbolic input vectors are by na- 記号入力ベクトルはnaによる 0.84
英語(論文から抽出)日本語訳スコア
ture themselves compositional, typically, the concatenation of one-hot vectors of attribute values, or of per-attribute embeddings (e.g. チャー自身は構成的であり、典型的には属性値の1ホットベクトルや属性ごとの埋め込み(例えば)の連結である。 0.61
(Kottur et al., 2017)). (Kottur et al., 2017)。 0.74
Thus, these works show that given compositional input, agents can generate compositional output. したがって、これらの作品は、構成入力を与えられたエージェントが構成出力を生成できることを示しています。 0.48
In our work, we extend ILM to highdimensional, non-symbolic inputs. 本研究では,ILMを高次元非記号入力に拡張する。 0.60
However, a concurrent work (Dagan et al., 2020) also extends ILM to image inputs, and also takes an additional step in examining the effect of genetic evolution of the network architecture, in addition to the cultural evolution of the language that we consider in our own work. しかしながら、並行作業(dagan et al., 2020)もまた、ilmを画像入力に拡張するとともに、ネットワークアーキテクチャの遺伝的進化の影響、さらには私たちが自身の仕事で考える言語の文化的進化を調べる上で、追加のステップを踏み出しています。 0.71
(Andreas, 2019) provides a very general framework, TRE, for evaluating compositionality, along with a specific implementation that relates closely to the language representations used in the current work. (Andreas, 2019)は、構成性を評価するための非常に一般的なフレームワークであるTREと、現在の作業で使用される言語表現に密接に関連する特定の実装を提供する。 0.75
It uses a learned linear projection to rearrange tokens within each utterance; and a relaxation to enable the use of gradient descent to learn the projection. 学習された線形プロジェクションを使用して各発話内でトークンを再配置し、勾配降下を使用してプロジェクションを学習できるようにリラクゼーションします。 0.70
Due to time pressure, we did not use TRE in our own work. 時間的プレッシャーのため、私たち自身の作業ではTREを使用していません。 0.68
Our work on neural ILM relates to distillation, (Ba and Caruana, 2014), (Hinton et al., 2015), in which a large teacher networks distills knowledge into a smaller student network. 我々のニューラルilm研究は,大規模教員ネットワークが知識を小さな学生ネットワークに蒸留する蒸留(ba and caruana, 2014),(hinton et al., 2015)に関係している。 0.68
More recently, (Furlanello et al., 2018) showed that when the student network has identical size and architecture to the teacher network, distillation can still give an improvement in validation accuracy on a vision and a language model. 最近では(Furlanello et al., 2018)、学生ネットワークが教師ネットワークと同じサイズとアーキテクチャを持つ場合、蒸留は依然としてビジョンと言語モデルに対する検証精度を向上させることができることを示した。 0.86
Our work relates also to self-training, (He et al., 2019), in which learning proceeds in iterations, similar to ILM generations. 私たちの仕事は、ILM世代と同様、学習が反復で進行する自己訓練(He et al., 2019)にも関係しています。 0.67
5 Experiments 5.1 Experiment 1: Symbolic Input 5.1.1 Dataset construction We conduct experiments first on a synthetic concept dataset, built to resemble that of (Kirby, 2001). 5 Experiments 5.1 Experiment 1: Symbolic Input 5.1.1 Dataset construction 私たちはまず、合成概念データセット上で実験を行い、Kirby, 2001)。 0.89
We experiment conceptually with meanings with a attributes, where each attribute can take one of k values. 属性を持つ意味を概念的に実験し、各属性がk値の1つを取ることができる。 0.62
The set of all possible meanings M comprises ka unique meanings. 可能なすべての意味 m の集合は ka 固有の意味を含む。 0.68
We use the notation ka to describe such a meaning space. そのような意味空間を記述するために、表記法ka を用いる。 0.62
We reserve a holdout set H of 128 meanings, which will not be presented during training. 128の意味のホールドアウトセットhを予約しますが、トレーニング中に提示されません。 0.70
This leaves (ka − 128) meanings for training and validation. これは(ka − 128)トレーニングと検証の意味を残します。 0.81
In addition, we remove from the training set any meanings having 3 or more attributes in common with any meanings in the holdout set. さらに、トレーニングセットから3つ以上の属性を持つ任意の意味を、ホールドアウトセット内の任意の意味と共通して取り除きます。 0.71
We choose two meanings spaces: 332 and 105. 332 と 105 の2つの意味空間を選択する。 0.70
332 is constructed to be similar in nature to (Kirby, 2001), whilst being large enough to train an RNN without immediately over-fitting. 332は(Kirby, 2001)と自然に似ており、RNNをすぐにオーバーフィットさせることなく訓練できるほどの大きさである。 0.77
With 33 possible values per attribute, the number of possible meanings increases from 102 = 100 to 332 ≈ 1, 000. 属性当たり33の値を持つ場合、可能な意味の数は 102 = 100 から 332 の 1, 000 に増加する。 0.82
In addition to not over-fitting, this allows us to set aside a reasonable holdout set of 128 examples. オーバーフィットしないのに加えて、128のサンプルの合理的なホールドアウトセットを除外することができます。 0.59
We experiment in addition with a meaning space of 105, which has a total of 100, 000 possible meanings. 合計100,000の可能な意味を持つ105の意味空間に加えて、我々は実験する。 0.72
We hypothesized that the much larger number of meanings prevents the network from simply memorizing each meaning, and thus force the network to naturally adopt a more compositional representation. より広い数の意味が、ネットワークが単にそれぞれの意味を記憶することを防ぎ、ネットワークに自然により構成的な表現を強制する、という仮説を立てた。 0.65
5.1.2 Experimental Setup The model architecture for the symbolic concept task is that depicted in Figure 4. 5.1.2 実験セットアップ シンボリックコンセプトタスクのモデルアーキテクチャは、図4に示すものです。 0.82
The sender model converts each meaning into a many-hot representation, of dimension k · a, then projects the many-hot representation into an embedding space. 送信者モデルは、各意味を次元 k ・ a の多ホット表現に変換し、多ホット表現を埋め込み空間に投影する。 0.66
5.1.3 Results Table 3 shows the results for the symbolic concept task. 5.1.3 結果表3はシンボリックコンセプトタスクの結果を示す。 0.84
We can see that when using an RL link, ILM improves the topographic similarity measure, for both 332 and 105 meaning spaces. RLリンクを使用すると、332と105の意味空間において、ILMは地形類似度尺度を改善することが分かる。 0.75
This is true for both SOFTMAX and RL. これは SOFTMAX と RL の両方に当てはまる。 0.83
Interestingly, in the 105 meaning space, the increase in compositionality as measured by ρ is associated with a decrease in accH, for both SOFTMAX and RL. 興味深いことに、105の意味空間では、ρ によって測定される組成性の増加は、 SOFTMAX と RL の両方に対して accH の減少と関連している。 0.68
This could indicate potentially that ILM is inducing the sender to generate more compositional output, but that the receiver’s understanding of the utterance becomes less compositional, in this scenario. このことは、ILMがより構成的な出力を生成するために送信者を誘導している可能性があるが、このシナリオでは、受信側の発話に対する理解がより構成的なものになることを示唆している。 0.51
It is interesting that ρ and accH can be inversely correlated, in certain scenarios. ρ と accH が逆相関しうるのは、あるシナリオにおいて興味深い。 0.76
This aligns somewhat with the findings in (Lowe et al., 2019). これは (Lowe et al., 2019) の発見と多少一致している。 0.75
Interestingly, it is not clear that using a 105 meaning space leads to more compositional utterances than the much smaller 332 meaning space. 興味深いことに、105意味空間を使用することが、はるかに小さい332意味空間よりも構成的発話につながることは明らかではない。 0.73
5.2 Experiment 2: Images 5.2.1 Dataset In Experiment One, we conserved the type of stimuli used in prior work on ILM, eg (Kirby, 2001), using highly structured input. 5.2 実験2:画像 5.2.1 実験1では、高度に構造化された入力を用いて、ILM, eg (Kirby, 2001) の先行研究で使用される刺激の種類を保存した。 0.69
In Experiment Two, we investigate the extent to which ILM shows a benefit using unstructured high-dimensional input. 実験2では、非構造化高次元入力を用いたILMのメリットの程度を調べます。 0.69
英語(論文から抽出)日本語訳スコア
M L 332 332 M L 332 332 0.85
SOFTMAX SOFTMAX SOFTMAX SOFTMAXとは? 0.47
332 332 105 105 332 332 105 105 0.85
105 105 RL RL 105 105 RL RL 0.85
SOFTMAX SOFTMAX SOFTMAX SOFTMAXとは? 0.47
RL RL E2E Tgt e=100k e=100k e=500k e=500k e=100k e=100k e=500k e=500k RL RL E2E Tgt e=100k e=100k e=500k e=500k e=100k e=500k e=500k 0.62
ILM? yes yes ILM? はい はい 0.80
yes yes accH 0.97+/-0.02 0.984+/-0.002 0.39+/-0.01 0.52+/-0.04 0.97+/-0.01 0.56+/-0.06 0.65+/-0.17 0.449+/-0.004 はい はい accH 0.97+/-0.02 0.984+/-0.002 0.39+/-0.01 0.52+/-0.04 0.97+/-0.01 0.56+/-0.06 0.65+/-0.17 0.449+/-0.004 0.58
ρ 0.23+/-0.01 0.30+/-0.02 0.18+/-0.01 0.238+/-0.008 0.22+/-0.02 0.28+/-0.01 0.17+/-0.02 0.28+/-0.01 ρ 0.23+/-0.01 0.30+/-0.02 0.18+/-0.01 0.238+/-0.008 0.22+/-0.02 0.28+/-0.01 0.17+/-0.02 0.28+/-0.01 0.52
Table 3: Results using auto-encoder architecture on synthetic concepts dataset. 表3: 合成概念データセット上のオートエンコーダアーキテクチャによる結果。 0.78
”E2E Tgt”: termination criteria (”target”) for end-to-end training; ”ρ”: topographic similarity. E2E Tgt」:エンドツーエンドのトレーニングのための終了基準(「ターゲット」);「ρ」:地形の類似性。 0.76
Where ILM is used, it is run for 5 generations. ILMを使用する場合は、5世代にわたって動作する。 0.78
We used OpenGL to create scenes containing colored objects, of various shapes, in different positions. OpenGLを使用して、さまざまな形状の色付きのオブジェクトを含むシーンをさまざまな位置で作成しました。 0.66
In the previous task, using symbolic meanings, we required the listener to reconstruct the symbolic meaning. 前回の課題では, 記号的意味を用いて, 聴取者が記号的意味を再構築することを要求した。 0.55
In the case of images, we use a referential task, as discussed in Section 3.4. 画像の場合,セクション3.4で議論されているように,参照タスクを使用する。 0.70
The advantage of using a referential task is that we do not require the agents to communicate the exact position and color of each object, just which shapes and colors are present. 参照タスクを使用する利点は、エージェントが各オブジェクトの正確な位置と色、どの形状と色が存在するかを伝える必要がないことである。 0.72
If the agents agree on an ordering over shapes, then the number of attributes to be communicated is exactly equal to the number of objects in the images. エージェントが図形上の順序に同意した場合、通信される属性の数は、画像内のオブジェクトの数とまったく同じです。 0.72
The positions of the objects are randomized to noise the images. オブジェクトの位置はランダム化され、画像がノイズになる。 0.76
We also varied the colors of the ground plane over each image. また,各画像上の地上面の色も変化した。 0.73
Example images are shown in Figure 7. 例画像は図7に示します。 0.75
Each example comprises 6 images: one sender image, the target receiver image, and 4 distractor images. それぞれの例は、6つの画像からなる:1つの送信者画像、ターゲットレシーバー画像、および4つの中断者画像。
訳抜け防止モード: それぞれの例は6つの画像からなる: 1つの送信者画像、ターゲット受信者画像、 4枚の映像です
0.63
Each object in a scene was a different shape, and we varied the colors and the positions of each object. シーン内の各オブジェクトは、異なる形状であり、我々は各オブジェクトの色と位置を変更しました。 0.88
Each shape was unique within each image. 各形状は、各画像内でユニークでした。 0.69
Two images were considered to match if the sets of shapes were identical, and if the objects with the same shapes were identically colored. 形状が同一である場合と、同じ形状のものが同一色の場合の2つの画像が一致したと考えられた。 0.81
The positions of the objects were irrelevant for the purposes of judging if the images matched. オブジェクトの位置は、画像が一致しているかどうかを判断する目的で無関係でした。 0.64
We change only a single color in each distractor, so that we force the sender and receiver to communicate all object colors, not just one or two. 各イントラクタで1つの色だけを変更し、送信側と受信側が1つか2つではなく、すべてのオブジェクト色を通信するように強制します。
訳抜け防止モード: 私たちは各イントラクタで1色だけ変えます。 送信側と受信側は 1つか2つではなく 全ての物体色を通信させます
0.74
We create three datasets, for sets of 1, 2 or 3 objects respectively. 1, 2 または 3 オブジェクトのセットに対して、3 つのデータセットを作成します。 0.67
Each dataset comprises 4096 training examples, and 512 holdout examples. 各データセットは4096のトレーニング例と512のホールドアウト例から構成されている。 0.55
In the case of two shapes and three shapes, we create the holdout set by setting aside combinations of shapes and colors which are never seen in the training set. 2つの形状と3つの形状の場合、トレーニングセットには見られない形状と色の組み合わせを別にして、ホールドアウトセットを作成します。 0.80
That is, the color ‘red’ might つまり「赤」という色は 0.59
have been seen for a cube, but not for a cylinder. 立方体として見てきましたが シリンダーには見えません 0.65
In the case of just one shape, this would mean that the color had never been seen at all, so for a single shape, we relax this requirement, and just use unseen geometrical configurations in the holdout set. たった1つの形状の場合、これは色が全く見えなかったことを意味するので、1つの形状の場合、この要件を緩和し、ホールドアウト集合で見当たらない幾何学的構成を使用するだけである。 0.80
The dataset is constructed using OpenGL and データセットはOpenGLを使って構築され 0.70
python. The code will be made available at 1. python。 コードは1.0で利用可能になる。 0.78
5.2.2 Experimental setup The supervised learning of the student sender and receiver from the teacher generated language is illustrated in Figure 5. 5.2.2 実験セットアップ 教師生成言語からの生徒送信者と受信者の教師学習を図5に示す。 0.88
The referential task architecture is depicted in Figure 6. 参照タスクアーキテクチャは図6に示されます。 0.72
Owing to time pressure, we experimented only with using RL. 時間圧により,RLのみを用いて実験を行った。 0.74
We chose RL over SOFTMAX because we felt that RL is more representative of the discrete nature of natural languages. SOFTMAXよりもRLを選んだのは、RLが自然言語の離散的性質のより代表的であると感じたからです。 0.71
5.2.3 Results Shapes 1 1 2 2 3 3 5.2.3 結果 Shapes 1 1 2 2 3 3 0.66
ILM? Yes Yes ILM? はい はい 0.80
Yes Batches 300k 300k 600k 600k 600k 600k はい バット 300k 300k 600k 600k 600k 600k 0.69
accH 0.76+/-0.11 0.95+/-0.03 0.21+/-0.03 0.30+/-0.06 0.18+/-0.01 0.23+/-0.02 accH 0.76+/-0.11 0.95+/-0.03 0.21+/-0.03 0.30+/-0.06 0.18+/-0.01 0.23+/-0.02 0.21
Holdout ρ 0.55+/-0.03 0.69+/-0.04 0.46+/-0.2 0.64+/-0.05 0.04+/-0.02 0.19+/-0.04 Holdout ρ 0.55+/-0.03 0.69+/-0.04 0.46+/-0.2 0.64+/-0.05 0.04+/-0.02 0.19+/-0.04 0.24
Table 4: Results for OpenGL datasets. 表4: OpenGLデータセットの結果。 0.81
‘Shapes’ is number of shapes, ‘Gens’ is number of ILM generations, and ‘Batches’ is total number of batches. 形状」は形状の数、「世代」はilmの世代数、「バッチ」はバッチの総数である。 0.54
For ILM, batches per generation is total batches divided by number of ILM generations. ILMでは、世代毎のバッチはILM世代数で分割される全バッチである。 0.65
For ILM, three generations are used. ILMでは3世代が使用される。 0.84
Table 4 shows the results using the OpenGL datasets. 表4はOpenGLデータセットを使用して結果を示す。 0.70
We can see that when training using the 私たちはそれを使ってトレーニングするときにそれを見ることができます。 0.42
1https://github.com/ asappresearch/neural -ilm 1https://github.com/ asappresearch/neural -ilm 0.31
英語(論文から抽出)日本語訳スコア
Figure 7: Example referential task images, one example per row. 図7: 参照タスクイメージの例、1行あたりの例。 0.83
The sender image and the correct receiver image are the first two images in each row. 送信側画像と正しい受信側画像は、各列の最初の2枚の画像である。 0.74
Figure 8: Examples of individual runs up to 10 generations. 図8: 個々の例は10世代まで実行されます。 0.81
‘1 ilm’, ‘2 ilm’, and ‘3 ilm’ denote ILM over the one, two and three shape datasets respectively. 1 ilm’、‘2 ilm’、‘3 ilm’はそれぞれ1つ、2つ、3つの形状データセット上のILMを表す。 0.79
‘e2e acc’ denotes end to end training accuracy, ‘e2e holdout acc’ denotes end to end accuracy on the holdout set (accH), and ‘e2e rho’ denotes the topologic similarity of the generated utterances (ρ). e2e acc」はエンドツーエンドのトレーニング精度を表し、「e2e holdout acc」はホールドアウトセット(accH)のエンドツーエンドの精度を表し、「e2e rho」は生成された発話(ρ)のトポロジー類似性を表します。 0.75
RL scenario, ILM shows an improvement across both 332 and 105 meaning spaces. RLシナリオ、ILMは332と105の意味空間の両方で改善を示しています。 0.72
The increase in topographic similarity is associated with an improvement in holdout accuracy, across all scenarios, similar to the 332 symbolic concepts scenario. 地形的類似性の増加は、332のシンボリックな概念のシナリオと同様、すべてのシナリオでホールドアウト精度の向上に関連している。 0.77
Figure 8 shows examples of individual runs. 図8は、個々の実行例を示しています。 0.58
The plots within each row are for the same dataset, i.e. 各行内のプロットは同じデータセット、すなわち同じデータセットに対するものだ。 0.66
one shape, two shapes, or three shapes. 1つの形 2つの形 3つの形 0.65
The first column shows the end to end accuracy, the second column shows holdout accuracy, accH, and the third column shows topologic similarity ρ. 第1列は終端精度を示し、第2列はホールドアウト精度を示し、第3列は位相的類似度ρを示す。 0.70
We note firstly that the variance across runs is high, which makes evaluating trends challenging. 私たち まず、実行間の分散度が高いため、トレンドの評価が難しくなる点に注意が必要だ。 0.58
Results in the table above were reported using five runs per scenario, and pre-selecting which runs to use prior to running them. 上記の表の結果はシナリオ毎に5回の実行と、実行前に使用するランの選択によって報告されている。 0.72
We can see that end to end training accuracy is good for the one and two shapes scenario, but that the model struggles to achieve high training accuracy in the more challenging three shapes dataset. エンドツーエンドのトレーニング精度は、1および2つのシェイプシナリオに適していますが、モデルはより困難な3つのシェイプデータセットで高いトレーニング精度を達成するのに苦労しています。 0.74
The holdout accuracy similarly falls dramatically, relative to the training accuracy, as the number of shapes in the dataset increases. データセットの形状数が増加するにつれて、ホールドアウト精度も同様にトレーニング精度に対して劇的に低下する。 0.78
Our original hy- オリジナル・ハイ 0.52
英語(論文から抽出)日本語訳スコア
pothesis was that the more challenging dataset, i.e. pothesisは、より難しいデータセット、すなわち、 0.63
three shapes, would be harder to memorize, and would thus lead to better compositionality. 3つの形は記憶するのが難しく 構成性が向上します 0.50
That the holdout accuracy actually gets worse, compared to the training accuracy, with more shapes was surprising to us. トレーニングの正確さと比べて、ホールドアウトの精度が悪くなることは、私たちにとって驚きでした。 0.78
Similarly, the topological similarity actually becomes worse as we add more shapes to the dataset. 同様に、データセットにより多くの形状を追加すると、トポロジカルな類似性が悪化します。 0.63
This seems unlikely to be simply because the receiver struggles to learn anything at all, since the end to end training accuracy stays relatively high across all three datasets. これは単に受信機が学習に苦労しているためではなく、エンドツーエンドのトレーニング精度は3つのデータセットすべてにおいて比較的高いままである。 0.70
We note that the ILM effect is only apparent over the first few generations, reaching a plateau after around 2-3 generations. ILM効果は初期の数世代でのみ明らかであり、約2~3世代で高原に達することに留意する。 0.77
6 Conclusion In this paper, we proposed an architecture to use the iterated learning method (”ILM”) for neural networks, including for non-symbolic highdimensional input. 6 結論 本論文では,非対称な高次元入力を含むニューラルネットワークに対して,反復学習法(ILM)を用いたアーキテクチャを提案する。 0.75
We showed that using ILM with neural networks does not lead to the same clear compositionality as observed for DCGs. ニューラルネットワークを用いたIMMは,DCGで観測されるような明確な構成性に繋がらないことを示した。 0.65
However, we showed that ILM does lead to a modest increase in compositionality, as measured by both holdout accuracy and topologic similarity. しかし, ホールドアウト精度とトポロジカル類似度の両方で測定したところ, ILMの組成性は緩やかに増大することがわかった。 0.82
We showed that holdout accuracy and topologic rho can be anti-correlated with each other, in the presence of ILM. ILMの有無で,ホールドアウト精度とトポロジカルローは相互に相関関係があることが判明した。 0.50
Thus caution might be considered when using only a single one of these measures. したがって、これらの措置の1つだけを使用する場合は注意が必要です。 0.59
We showed that ILM leads to an increase in compositionality for non-symbolic highdimensional input images. ILMは非対称な高次元入力画像の構成性を高めることを示した。 0.62
Acknowledgements Thank you to Angeliki Lazaridou for many interesting discussions and ideas that I’ve tried to use in this paper. 認識 angeliki lazaridouに、私がこの論文で使おうとした多くの興味深い議論とアイデアに感謝します。 0.65
References Jacob Andreas. ジェイコブ・アンドレアスを参照。 0.47
2019. Measuring compositionalarXiv preprint 2019. compositionalarXiv プリプリントの測定 0.78
ity in representation learning. 表現学習における等性。 0.54
arXiv:1902.07181 . arXiv:1902.07181。 0.46
Jacob Andreas, Anca Dragan, Translating neuralese. Jacob Andreas、Anca Dragan、神経学の翻訳。 0.77
2017. arXiv:1704.06960 . 2017年 arXiv:1704.06960 。 0.44
and Dan Klein. とDan Klein。 0.76
arXiv preprint arXiv プレプリント 0.83
pages 2654–2662. 2654-2662ページ。 0.61
http://papers.nips.c c/paper/5484do-deep- nets-really-need-to- be-deep.pdf. http://papers.nips.c c/paper/5484do-deep- nets-really-need-to- deep.pdf.com 0.18
Diane Bouchacourt and Marco Baroni. Diane BouchacourtとMarco Baroni。 0.80
2018. How agents see things: On visual representations in arXiv preprint an emergent arXiv:1808.10696 . 2018. エージェントが物事を見る方法: arXivの視覚表現では、創発的なarXivをプリプリントする。 0.75
language game. Henry Brighton and Simon Kirby. 言語ゲーム。 ヘンリー・ブライトンとサイモン・カービー 0.70
2006. Understanding linguistic evolution by visualizing the emergence of topographic mappings. 2006. 地形図の出現を可視化することで言語進化を理解する。 0.76
Artificial life 12(2):229– 242. 人工生命12(2):229– 242。 0.88
Michael Cogswell, Jiasen Lu, Stefan Lee, Devi Parikh, and Dhruv Batra. Michael Cogswell, Jiasen Lu, Stefan Lee, Devi Parikh, Dhruv Batra 0.68
2020. Emergence of compositional language with deep generational transmission. 2020. 深い世代間伝達を伴う構成言語の出現。 0.79
Gautier Dagan, Dieuwke Hupkes, and Elia Bruni. Gautier Dagan、Dieuwke Hupkes、Elia Bruni。 0.68
2020. Co-evolution of language and agents in referential games. 2020. 参照ゲームにおける言語とエージェントの共進化 0.83
arXiv preprint arXiv:2001.03361 . arXiv preprint arXiv:2001.03361 。 0.61
Jakob Foerster, Ioannis Alexandros Assael, Nando de Freitas, and Shimon Whiteson. Jakob Foerster、Ioannis Alexandros Assael、Nando de Freitas、そしてSownn Whiteson。 0.74
2016. Learning to communicate with deep multi-agent reinforcement learning. 2016. 深層多エージェント強化学習とコミュニケーションをとること。 0.80
In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems. D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, R. Garnett, editors, Advances in Neural Information Processing Systems において。 0.93
Curran Associates, Inc., volume 29, pages 2137–2145. Curran Associates, Inc., Volume 29, Page 2137–2145。 0.86
Tommaso Furlanello, Zachary C Lipton, Michael Tschannen, Laurent Itti, and Anima Anandkumar. Tommaso Furlanello、Zachary C Lipton、Michael Tschannen、Laurent Itti、Anima Anandkumar。 0.69
2018. Born again neural networks. 2018. 再びニューラルネットワークが生まれる。 0.83
arXiv preprint arXiv:1805.04770 . arXiv preprint arXiv:1805.04770 0.68
Thomas L Griffiths and Michael L Kalish. トーマス・L・グリフィスとマイケル・L・カリッシュ。 0.49
2007. Language evolution by iterated learning with bayesian agents. 2007. ベイジアンエージェントを用いた反復学習による言語進化 0.80
Cognitive science 31(3):441–480. 認知科学31(3):441–480。 0.71
Junxian He, Jiatao Gu, Jiajun Shen, and Marc’Aurelio Ranzato. Junxian He, Jiatao Gu, Jiajun Shen, Marc’Aurelio Ranzato。 0.70
2019. Revisiting self-training for neural sequence generation. 2019. 神経シーケンス生成のための自己学習の再検討 0.73
Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Geoffrey Hinton、Oriol Vinyals、Jeff Dean。 0.70
2015. Distilling the knowledge in a neural network. 2015. ニューラルネットワークで知識を蒸留する。 0.75
arXiv preprint arXiv:1503.02531 . arXiv preprint arXiv:1503.02531 0.69
Simon Kirby. サイモン・カービー。 0.54
2001. Spontaneous evolution of linguistic structure-an iterated learning model of the emergence of regularity and irregularity. 2001. 言語構造の自発的進化-規則性と不規則性の出現の反復学習モデル 0.83
IEEE Transactions on Evolutionary Computation 5(2):102–110. IEEE Transactions on Evolutionary Computation 5(2):102–110 0.95
Simon Kirby, Hannah Cornish, and Kenny Smith. サイモン・カービー、ハンナ・コーニッシュ、ケニー・スミス。 0.52
2008. Cumulative cultural evolution in the laboratory: An experimental approach to the origins of structure in human language. 2008. 実験室における累積的文化進化 : 人間の言語の構造の起源に対する実験的アプローチ 0.87
Proceedings of the National Academy of Sciences 105(31):10681– 10686. 国立科学アカデミー105(31):10681–10686。 0.60
Satwik Kottur, Jos´e MF Moura, Stefan Lee, and Dhruv Batra. Satwik Kottur、Jos ́e MF Moura、Stefan Lee、Dhruv Batra。 0.77
2017. Natural language does not arXiv emerge’naturally’in multi-agent dialog. 2017. 自然言語は、マルチエージェントダイアログに「自然に出現」しません。 0.75
preprint arXiv:1706.08502 . arXiv:1706.08502 0.60
Jimmy Ba and Rich Caruana. ジミー・バとリッチ・カルアナ 0.38
2014. Do deep nets In Z. Ghahramani, really need to be deep? 2014. Z.Ghahramaniのディープネットは、本当に深い必要がありますか? 0.76
M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 27, Curran Associates, Inc., M. Welling, C. Cortes, N.D. Lawrence, K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 27, Curran Associates, Inc. 0.96
Angeliki Lazaridou, Karl Moritz Hermann, Karl Tuyls, and Stephen Clark. Angeliki Lazaridou、Karl Moritz Hermann、Karl Tuyls、Stephen Clark。 0.71
2018. Emergence of linguistic communication from referential games arXiv preprint with symbolic and pixel arXiv:1804.03984 . 2018. シンボリックおよびピクセル arXiv:1804.03984 を用いた参照ゲーム arXiv プリプリントからの言語コミュニケーションの出現。 0.76
input. 入力。 0.70
英語(論文から抽出)日本語訳スコア
Angeliki Lazaridou, Alexander Peysakhovich, and Marco Baroni. Angeliki Lazaridou、Alexander Peysakhovich、Marco Baroni。 0.65
2016. Multi-agent cooperation and the emergence of (natural) language. 2016. マルチエージェントの協力と(自然な)言語の出現。 0.84
arXiv preprint arXiv:1612.07182 . arXiv preprint arXiv:1612.07182 0.69
Fushan Li and Michael Bowling. Fushan LiとMichael Bowling。 0.80
2019. Ease-ofteaching and language structure from emergent comIn Advances in Neural Information munication. 2019. ニューラル・インフォメーション・ミューニケーションにおける創発的comInの理解と言語構造 0.74
Processing Systems. pages 15851–15861. 処理システム。 15851-15861ページ。 0.69
Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar Raetsch, Sylvain Gelly, Bernhard Sch¨olkopf, and Olivier Bachem. Francesco Locatello、Stefan Bauer、Mario Lucic、Gunnar Raetsch、Sylvain Gelly、Bernhard Sch solkopf、Olivier Bachem。
訳抜け防止モード: Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar Raetsch シルヴァン・ゲリー、ベルンハルト・シュ・オルコプフ、オリヴィエ・バシュム。
0.77
2019. Challenging common assumptions in the unsupervised learning of disentangled representations. 2019. 不整合表現の教師なし学習における一般的な仮定を満たす。 0.65
In international conference on machine learning. 機械学習に関する国際会議で。 0.77
PMLR, pages 4114–4124. PMLR、4114-4124ページ。 0.72
Ryan Lowe, Jakob Foerster, Y-Lan Boureau, Joelle Pineau, and Yann Dauphin. Ryan Lowe、Jakob Foerster、Y-Lan Boureau、Joelle Pineau、Yann Dauphin。 0.79
2019. On the pitfalls of measuring emergent communication. 2019. 創発的コミュニケーションの測定の落とし穴について 0.72
arXiv preprint arXiv:1903.05168 . arXiv preprint arXiv:1903.05168 0.69
Yi Ren, Shangmin Guo, Matthieu Labeau, Shay B Cohen, and Simon Kirby. Yi Ren、Shangmin Guo、Matthieu Labeau、Shay B Cohen、Simon Kirby。 0.67
2020. Compositional languages emerge in a neural iterated learning model. 2020. 合成言語は、ニューラルネットワークの反復学習モデルに現れる。 0.77
arXiv preprint arXiv:2002.01365 . arXiv preprint arXiv:2002.01365 0.69
英語(論文から抽出)日本語訳スコア
Appendix: hyper-parameters For all experiments, results and error bars are reported using five runs per scenario. Appendix: ハイパーパラメータ すべての実験において、結果とエラーバーはシナリオごとに5回の実行で報告される。 0.65
We pre-select which runs to use for reporting before running them. 実行前にレポートに使用する実行を事前に選択します。 0.73
6.1 Experiment 1 For experiment 1, we use a batch-size of 100, embedding size of 50. 6.1実験1 実験1では、バッチサイズ100、埋め込みサイズ50を使用します。 0.78
RNNs are chosen to be GRUs. RNNはGRUに選ばれている。 0.75
We query the teacher for utterances for 40% of the training meaning space each generation. 各世代のトレーニング意味空間の40%の発話のために教師に問い合わせます。 0.72
We use an utterance length of 6, and a vocabulary size of 4. 発話の長さは6で、語彙サイズは4です。 0.60
6.2 Experiment 2 For experiment 2, we use the same architecture as (Lazaridou et al., 2018), with the exception that we add a max pooling layer after the convolutional network layers, with kernel size 8 by 8; and we replace the stride 2 convolutional layers by stride 1 convolutional layers, followed by 2 by 2 max pooling layers. 6.2 実験 2 実験 2 では、畳み込みネットワーク層後に最大プール層をカーネルサイズ 8 × 8 で追加する例外を除いて、(Lazaridou et al., 2018) と同じアーキテクチャを使用し、2 の畳み込み層を 1 の畳み込み層に置き換え、次に 2 対 2 の最大プール層に置き換えます。 0.74
We use entropy regularization for both the sender and receiver networks, as per (Lazaridou et al., 2018). 送信者ネットワークと受信者ネットワークの両方に対してエントロピー正規化を用いる(Lazaridou et al., 2018)。 0.64
At test-time, we take the argmax, instead of sampling. テスト時には、サンプリングの代わりにargmaxを取ります。 0.69
Other hyper-parameters were as follows: 他のハイパーパラメータは以下の通りである。 0.54
• optimizer: RMSProp 最適化: RMSProp。 0.71
• convolutional layers: 8 • batch size: 32 •畳み込み層:8。 •バッチサイズ:32 0.74
• no gradient clipping • utterance length: 6 •勾配切り抜きなし •発話長:6。 0.77
• utterance vocabulary size: 100 •発話語彙サイズ:100 0.75
• embedding size: 50 • RNN type: GRU •埋込サイズ:50 •RNN型:GRU 0.77
• Number RNN layers: 1 • dropout: 0.5 •数RNN層:1。 •ドロップアウト:0.5 0.82
• supervised training fraction: 0.4 •指導訓練分数:0.4 0.80
• number supervised training steps: 200k •数監督訓練段階:200k 0.85
• number end to end training steps: 200k • ナンバー エンド ツー エンド トレーニング ステップ: 200k 0.79
• sender entropy regularization: 0.01 •送信者エントロピー正規化:0.01 0.64
• receiver entropy regularization: 0.001 •レシーバエントロピー正規化:0.001 0.70
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。