# (参考訳) スクラッチからの解釈可能なエージェント通信(側面にジェネリックビジュアルプロセッサが現れる) [全文訳有]

Interpretable agent communication from scratch(with a generic visual processor emerging on the side) ( http://arxiv.org/abs/2106.04258v1 )

ライセンス: CC BY-SA 4.0
Roberto Dess\`i, Eugene Kharitonov, Marco Baroni(参考訳) ディープネットワークが自律的なエージェントとしてデプロイされるようになると、相互に通信する方法の問題が重要になる。 ここでは,教師なしの創発的コミュニケーションによる現実的な参照識別を行うために,スクラッチから2つのディープネットを訓練する。 我々は,ネットワークがトレーニング時に見なかったオブジェクト型についても,ほぼ解釈可能な創発的プロトコルによってうまく通信できることを実証する。 トレーニング体制の副産物として誘導される視覚表現は,近年の自己教師型学習モデルに対して,汎用的な視覚特徴として再使用される場合と同等の品質を示す。 本研究は,より現実的なシナリオで(解釈可能な)創発的深層ネット通信の実現可能性を示す具体的証拠を提供するとともに,この分野と自己教師付き視覚学習との興味をそそるリンクを確立する。

As deep networks begin to be deployed as autonomous agents, the issue of how they can communicate with each other becomes important. Here, we train two deep nets from scratch to perform realistic referent identification through unsupervised emergent communication. We show that the largely interpretable emergent protocol allows the nets to successfully communicate even about object types they did not see at training time. The visual representations induced as a by-product of our training regime, moreover, show comparable quality, when re-used as generic visual features, to a recent self-supervised learning model. Our results provide concrete evidence of the viability of (interpretable) emergent deep net communication in a more realistic scenario than previously considered, as well as establishing an intriguing link between this field and self-supervised visual learning.
公開日: Tue, 8 Jun 2021 11:32:11 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 8 5 2 4 0 1 v 8 5 2 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Interpretable agent communication from scratch スクラッチから解釈可能なエージェント通信 0.71
(with a generic visual processor emerging on the side) (側面に一般的なビジュアルプロセッサが現れる) 0.70
Roberto Dessí Roberto Dessí 0.85
Facebook AI Research Facebook AI研究 0.83
Universitat Pompeu Fabra ポンペウ・ファブラ大学 0.49
rdessi@fb.com rdessi@fb.com 0.78
Eugene Kharitonov Facebook AI Research kharitonov@fb.com Eugene Kharitonov Facebook AI Research kharitonov@fb.com 0.96
Abstract Marco Baroni 概要 マルコ・バロンディ 0.44
Facebook AI Research Facebook AI研究 0.83
Universitat Pompeu Fabra ポンペウ・ファブラ大学 0.49
ICREA mbaroni@fb.com ICREA mbaroni@fb.com 0.82
As deep networks begin to be deployed as autonomous agents, the issue of how they can communicate with each other becomes important. ディープネットワークが自律的なエージェントとしてデプロイされるようになると、相互に通信する方法の問題が重要になる。
訳抜け防止モード: ディープネットワークが自律エージェントとして展開され始めると 互いにどのようにコミュニケーションするかという問題は重要になります。
Here, we train two deep nets from scratch to perform realistic referent identification through unsupervised emergent communication. ここでは,教師なしの創発的コミュニケーションによる現実的な参照識別を行うために,スクラッチから2つのディープネットを訓練する。 0.45
We show that the largely interpretable emergent protocol allows the nets to successfully communicate even about object types they did not see at training time. 我々は,ネットワークがトレーニング時に見なかったオブジェクト型についても,ほぼ解釈可能な創発的プロトコルによってうまく通信できることを実証する。 0.73
The visual representations induced as a by-product of our training regime, moreover, show comparable quality, when re-used as generic visual features, to a recent self-supervised learning model. トレーニング体制の副産物として誘導される視覚表現は,近年の自己教師型学習モデルに対して,汎用的な視覚特徴として再使用される場合と同等の品質を示す。 0.68
Our results provide concrete evidence of the viability of (interpretable) emergent deep net communication in a more realistic scenario than previously considered, as well as establishing an intriguing link between this field and self-supervised visual learning.1 本研究は,より現実的なシナリオで(解釈可能な)創発的深層ネット通信の実現可能性を示す具体的証拠を提供するとともに,このフィールドと自己教師付き視覚学習との興味をそそるリンクを確立する。 0.67
1 Introduction As deep networks become more effective at solving specialized tasks, there has been interest in letting them develop a language-like communication protocol so that they can flexibly interact to address joint tasks [1]. 1 はじめに ディープネットワークが特殊課題の解決に有効になるにつれて、言語のようなコミュニケーションプロトコルを開発して、共同作業に柔軟に対処できるようにすることに興味が持たれてきた[1]。
訳抜け防止モード: 1 はじめに ディープネットワークが特殊タスクの解決に効果的になるにつれて。 コミュニケーションプロトコルのように、彼らが言語を開発することに関心がある。 共同作業に柔軟に対応できる[1 ].
One line of work within this tradition has focused on what is arguably the most basic function of language, namely to point out, or refer to, objects through discrete symbols. この伝統の中での1行の作業は、言語で最も基本的な機能、すなわち、離散的なシンボルを通してオブジェクトを指摘したり、参照したりすることに焦点を当てている。 0.70
Such ability would for example allow deep-net-controlled agents, such as self-driving cars, to inform each other about the presence and nature of potentially dangerous objects, besides being a basic requirement to support more advanced capabilities (e g , denoting relations between objects). 例えば、自動運転車のようなディープネット制御エージェントは、より高度な機能(例えば、オブジェクト間の関係を示す)をサポートする基本的な要件であるだけでなく、潜在的に危険なオブジェクトの存在と性質を互いに知らせることができる。 0.68
While discreteness is not a necessary prerequisite for agent communication [2, 3], practical and ethical problems might arise if communication is incomprehensible to humans. 離散性はエージェントコミュニケーションにとって必須の前提条件ではないが,コミュニケーションが人間にとって理解できない場合,実用的かつ倫理的問題が発生する可能性がある。 0.63
A discrete code analogous to language is certainly easier to decode for us, helping us to understand the agents’ decisions, and ultimately contributing to the larger goal of explainable AI [4]. 言語に類似した離散的なコードは、私たちにとってデコードしやすく、エージェントの判断を理解するのに役立ち、最終的には説明可能なAIのより大きな目標に貢献します [4]。 0.72
In this paper, we study emergent discrete referential communication between two deep network agents that are trained from scratch on the task. 本稿では,タスクのスクラッチから学習される2つの深層ネットワークエージェント間の創発的離散参照通信について検討する。 0.77
We observe that the referential discrimination task played by the networks is closely related to pretext contrastive objectives used in self-supervised visual representation learning [5–8]. ネットワークが行う参照識別タスクは, 自己教師付き視覚表現学習で使用される前文コントラスト目標と密接に関連していると考えられる [5-8]。 0.70
We exploit this insight to develop a robust end-to-end variant of a communication game. この知見を利用して、通信ゲームの堅牢なエンドツーエンド版を開発する。 0.46
Our experiments confirm that, in our setup: i) the nets develop a set of discrete symbols allowing them to successfully discriminate objects in natural images, including novel ones that were not shown during training; ii) these symbols denote interpretable categories, so that their emergence constitutes a form of fully unsupervised image annotation; iii) the visual features induced as a by-product can be used as high-quality general-purpose representations, whose i) ネットは、訓練中に表示されなかった新しいものを含む、自然画像内のオブジェクトを識別することのできる離散的なシンボルセットを開発し、ii) それらのシンボルは、解釈可能なカテゴリを示し、それらの出現は、完全に教師なしの画像アノテーションの形態を構成する。iii) 副産物として誘導される視覚特徴は、高品質な汎用表現として使用できる。 0.70
1Code available at https://github.com/f acebookresearch/EGG/ tree/master/egg/zoo/ emcom_ 1Code available at https://github.com/f acebookresearch/EGG/ tree/master/egg/zoo/ emcom_ 0.31
as_ssl. Preprint. as_ssl。 プレプリント。 0.69
Under review. レビュー中。 0.58
performance in various object classification tasks is not lagging much behind that of features induced by a popular self-supervised representation method specifically designed for this task. 様々なオブジェクト分類タスクのパフォーマンスは、このタスクのために特別に設計された一般的な自己教師型表現メソッドによって誘導される特徴に大きく遅れてはいない。 0.61
2 Background 2.1 Deep net emergent communication 背景 2.1 ディープネット緊急通信 0.53
There has recently been interest in letting deep nets communicate through learned protocols. 最近は、ディープネットが学習プロトコルを介して通信できるようにすることに関心がある。 0.50
This line of work has addressed various challenges, such as communication in a dynamic environment or how to interface the emergent protocol with natural language (see [1] for a recent survey). この一連の作業は、動的環境でのコミュニケーションや、創発的なプロトコルと自然言語とのインターフェースの方法など、さまざまな課題に対処している(最近の調査では[1]を参照)。 0.75
Probably the most widely studied aspect of emergent communication is the ability of deep net agents to use the protocol to refer to objects in their environment [e g , 9–16]. おそらく、創発的コミュニケーションの最も広く研究されている側面は、ディープネットエージェントがその環境内のオブジェクトを参照するためにプロトコルを使用する能力である(例: 9–16)。 0.70
The typical setup is that of a referential, or discriminative, communication game. 典型的な設定は、参照、または差別的なコミュニケーションゲームである。 0.72
In the simplest scenario, which we adopt here, an agent, the Sender, sees one input (the target) and it sends a discrete symbol to another agent, the Receiver, that sees an array of items including the target, and has to point to the latter for communication to be deemed successful. ここで採用する最も単純なシナリオでは、エージェントである送信者が1つの入力(ターゲット)を見て、別のエージェントである受信者に離散的なシンボルを送ります。
訳抜け防止モード: 最も単純なシナリオでは、ここで採用します。 エージェント、Senderは1つの入力(ターゲット)を見る そして別のエージェントである受信者に対して、ターゲットを含む項目の配列を表示する個別のシンボルを送信する。 コミュニケーションが成功するためには 後者を指さなければなりません
Importantly, task success is the only training objective; the communication protocol emerges purely as a by-product of game-playing, without any direct supervision on the symbol-transmission channel. 重要なことは、タスク成功は唯一の訓練目標であり、コミュニケーションプロトコルは、シンボル送信チャネルを直接監督することなく、純粋にゲームプレイの副産物として現れる。 0.64
In one of the earliest papers in this line of research, Lazaridou et al [9] used images from ImageNet [17] as input to the discrimination game; Havrylov and Titov [11] used MSCOCO [18]; and Evtimova et al [12] used animal images from Flickr. この研究の最初期の論文の1つとして、LazaridouらはImageNet [17]のイメージを差別ゲームへの入力として使用し、HabrilovとTitov [11]はMSCOCO [18]、Evtimova et al [12]はFlickrの動物画像を使用した。
訳抜け防止モード: この研究の最初期の論文の1つに挙げられます。 Lazaridou et al [9 ] は差別ゲームへの入力として ImageNet [17 ] の画像を使用した ; Havrylov と Titov [11 ] は MSCOCO [18 ] を使用した Evtimova et al [12 ]はFlickrの動物画像を使った。
While they used natural images, all these studies were limited to small sets of carefully selected object categories. 彼らは自然画像を用いたが、これらの研究はすべて慎重に選択された対象カテゴリーの小さなセットに限られていた。 0.59
Moreover, in all these works, the agents processed images with convolutional networks pretrained on supervised object recognition. さらに,これらすべての研究において,エージェントは,教師付き物体認識に事前学習された畳み込みネットワークを用いて画像を処理した。 0.54
While this sped up learning, it also meant that all the proposed systems de facto relied on the large amount of human annotated data used for CNN training. このことが学習を加速させた一方で、提案されたシステムはすべて、CNNトレーニングに使用される大量の注釈付きデータに依存していた。 0.66
Lazaridou et al [13] and Choi et al [14] dispensed with pre-trained CNNs, but they used synthetically generated geometric shapes as inputs. Lazaridou et al [13] と Choi et al [14] は事前訓練されたCNNを不要にしたが、彼らは合成的に生成された幾何学的形状を入力として使用した。 0.54
Results on the interpretability of symbols in games with realistic inputs have generally been mixed. リアルな入力を持つゲームにおけるシンボルの解釈可能性に関する結果が一般に混合されている。 0.60
Indeed, Bouchacourt and Baroni [19] showed that, after training Lazaridou et al [9]’s networks on real pictures, the networks could use the learned protocol to successfully communicate about blobs of Gaussian noise, suggesting that their code (also) denoted low-level image features, differently from the general semantic categories that words in human language refer to. bouchacourt と baroni [19] は、実際の画像上で lazaridou と al [9] のネットワークを訓練した後、ネットワークは学習プロトコルを使ってガウスノイズのブロブをうまく通信できることを示した。
訳抜け防止モード: 実際、ブーカクールとバロニ[19]は、その後、 Lazaridou et al [9 ] のネットワークを実際の画像でトレーニングする。 ネットワークは学習したプロトコルを使って ガウスノイズの塊について うまく通信できる 彼らのコードは (また) 人間の言語で単語が参照する一般的な意味カテゴリーとは異なる、低レベルの画像特徴を示す。
In part for this reason, recent work tends to focus on controlled symbolic inputs, where it is easier to detect degenerate communication strategies, rather than attempting to learn communication “in the wild” [e g , 10, 15, 16]. この理由の1つとして、最近の研究は制御されたシンボリックインプットに重点を置いており、コミュニケーションの“野生”(例:10, 15, 16)を学習しようとするよりも、退化したコミュニケーション戦略の検出が容易である。 0.70
2.2 Self-supervised representation learning 2.2 自己指導型表現学習 0.53
Self-supervised learning of general-purpose visual features has received much attention in recent years. 近年,汎用視覚特徴の自己教師型学習が注目されている。 0.67
The main idea is to train a visual network on a pretext task that does not require manual annotation. 主なアイデアは、手動のアノテーションを必要としないプリテキストタスクでビジュアルネットワークをトレーニングすることである。 0.77
After convergence, the net is used to extract high-quality features from images, to be applied to various “downstream” tasks of interest. 収束後、ネットは画像から高品質な特徴を抽出するために使われ、関心のある様々な「ダウンストリーム」タスクに適用されます。
訳抜け防止モード: 収束後、画像から高品質な特徴を抽出するためにネットが使用される。 様々な“下流”タスクに適用される。
This is often done by training a simple classifier on top of the frozen trained architecture [20–23]. これはしばしば、凍結訓練されたアーキテクチャ[20–23]の上に単純な分類器をトレーニングすることで行われる。 0.69
Early models used image patch prediction as the proxy task [8, 24]. 初期のモデルはプロキシタスクとしてイメージパッチ予測を使用していた [8, 24]。 0.70
Recent work has instead focused on an instance-level contrastive discrimination objective [5–7, 25]. 最近の研究では、インスタンスレベルのコントラスト差別の目的[5–7, 25]に焦点を当てている。 0.55
Two symmetric networks encode different views of the same input images obtained through a stochastic data augmentation pipeline. 2つの対称ネットワークは、確率的データ拡張パイプラインを通して得られた同じ入力画像の異なるビューを符号化する。 0.62
Optimization is done with variants of the InfoNCE loss [24, 26], that tries to maximize similarity among representations of the same image while minimizing similarity of different ones. 同じ画像の表現間の類似性を最大化し、異なる画像の類似性を最小化しようとするinfonce loss [24, 26]の変種で最適化が行われる。 0.87
Interestingly, the contrastive pretext task is very close to the one of identifying a target image among distractors, as in the standard referent discrimination game of emergent communication. 興味深いことに、コントラストプレテキストタスクは、創発的コミュニケーションの標準的な参照識別ゲームのように、邪魔者間でターゲット画像を特定するタスクに非常に近い。 0.64
The influential SimCLR model proposed by Chen et al [5] is particularly similar to our setup. Chenらによって提案された影響力のあるSimCLRモデルは、特に我々の設定と似ている。 0.59
It uses two twin networks with a shared convolutional module optimizing the (dis)similarity of sets of target/distractor images. 2つのツインネットワークと共有畳み込みモジュールを使い、ターゲット/ディストリクタ画像の集合の(離散)相似性を最適化する。 0.76
The main conceptual differences are that there is no discrete bottleneck imposed on “communication” between the networks, and there is no asymmetry, so that both networks act simultaneously as Sender and Receiver (both networks produce a continuous “message” that must be as discriminative for the other network as possible). 概念上の大きな違いは、ネットワーク間の“通信”に離散的なボトルネックがなく、非対称性がなく、両方のネットワークが送信側と受信側として同時に振る舞う(両方のネットワークは、可能な限り他のネットワークに対して差別的でなければならない連続的な“メッセージ”を生成する)ことである。 0.73
We rely here on the connection with self-supervised learning in two ways. ここでは、自己教師型学習を2つの方法で関連付けています。 0.54
First, we import the idea of data augmentation from this literature into the communication game, showing how it helps in まず、この文献からデータ拡張のアイデアをコミュニケーションゲームにインポートし、それがどのように役立つかを示す。 0.72
2 2 0.85
Figure 1: Game setup and agent architectures. 図1:ゲームの設定とエージェントアーキテクチャ。 0.79
Image sources: https://unsplash.com 画像提供: https://unsplash.com 0.69
evolving a more semantically interpretable protocol. より意味的に解釈可能なプロトコルの進化。 0.57
Second, we evaluate the discrimination game as a self-supervised feature extraction method. 第2に,識別ゲームを自己教師特徴抽出法として評価する。 0.61
We find that the visual features induced by the CNNs embedded in our agents are virtually as good as those induced by SimCLR, while the emergent protocol is better for communication than the one obtained by adapting SimCLR to the discrete communication setup. エージェントに埋め込まれたCNNによって引き起こされる視覚的特徴は、SimCLRによって引き起こされるものとほぼ同等であり、一方、創発的プロトコルは、SimCLRを離散的な通信設定に適応させることによって得られるものよりも通信に適している。 0.66
3 Setup 3.1 The discrimination game A Sender network receives as input a target picture, and it produces as output one of |V | symbols. 3つの設定 3.1 識別ゲームSenderネットワークは、ターゲット画像の入力として受信し、|V |シンボルの出力として生成する。 0.71
A Receiver network receives in input this symbol, as well as a list of n pictures, one of them (randomly placed in the ith position of the list) being the same target presented to the Sender. レシーバネットワークは、このシンボルと、その中の1つ(リストのi番目の位置にランダムに置かれる)がSenderに提示された同じターゲットであるn個の画像のリストを入力する。 0.78
Receiver produces a probability distribution of cardinality n, interpreted as its guess over the position of the target. 受信者は、目標の位置に対する推定として解釈される濃度nの確率分布を生成する。 0.73
The guess is correct iff Sender concentrates the largest probability mass on the ith position, corresponding to the target slot. 推測は正しいiff送信者は、ターゲットスロットに対応するith位置において最大の確率質量を集中させる。 0.77
Agent architecture Agent architecture and game flow are schematically shown in Fig 1. エージェントアーキテクチャ エージェントアーキテクチャとゲームフローは図1にスキーマ的に示されます。 0.75
Sender reads the target image through a convolutional module, followed by a one-layer network mapping the output of the CNN onto |V | dimensions and applying batch normalization [27], to obtain vector v. Following common practice when optimizing through discrete bottlenecks, we then compute the Gumbel-Softmax continuous relaxation [28, 29], which was shown to also be effective in the emergent (cid:80) communication setup [11]. 次に、CNNの出力を |V | 次元にマッピングし、バッチ正規化[27] を適用してベクトル v を得る。離散ボトルネックを最適化する際の一般的な慣習に従って、Gumbel-Softmax連続緩和[28,29]を計算し、即時(cid:80)通信設定[11]でも有効であることを示した。
訳抜け防止モード: Senderは畳み込みモジュールを通じてターゲットイメージを読み、続いてCNNの出力を |V |次元にマッピングする1層ネットワークが続く。 バッチ正規化[27]を適用します 離散的なボトルネックを通じて最適化する場合、一般的な慣習に従ってベクトル対を得る 次に、Gumbel-Softmax連続緩和[28]を計算する。 29 ] 緊急 (cid:80 ) 通信設定 [11 ] にも有効であることが示されている。
At train time, Sender produces an approximation to a one-hot symbol vector with each component given by mi = exp [(si+vi)/τ ] j exp [(sj +vj )/τ ], where si is a random sample from Gumbel(0,1) and vi a dimension of v. The approximation is controlled by temperature parameter τ: as τ approaches 0, the approximation approaches a one-hot vector, and as τ approaches +∞, the relaxation becomes closer to uniform. 電車の時、Sender は 1-ホットシンボルベクトルに対して mi = exp [(si+vi)/τ ] j exp [(sj +vj )/τ ] で与えられる各成分で近似を生成するが、si は Gumbel(0,1) からランダムなサンプルであり v の次元である。
訳抜け防止モード: 列車の時刻に、送信者は mi = exp [ ( si+vi)/τ ] j exp [ ( sj + vj ) /τ ] で与えられる各成分を 1-ホットシンボルベクトルに近似する。 si はグンベル(0,1 ) および vi 次元 v からランダムなサンプルであり、近似は温度パラメータ τ : τ が 0 に近づくにつれて制御される。 近似はホットベクトルに近づき、τ は + ∞ に近づく。 緩和は一様に近い。
Importantly, at test time the Sender’s output is generated by directly argmax-ing v, so that it is a discrete one-hot vector indexing one of |V | possible symbols. 重要なことは、テスト時には、Senderの出力は直接argmax-ing v によって生成されるので、それは |V | 可能なシンボルの1つをインデックスする離散1ホットベクトルである。 0.63
Receiver passes each input image through its visual module (a CNN architecture), followed by a two-layer MLP with batch normalization and ReLU after the first layer [30]. 受信側は、各入力画像をその視覚モジュール(CNNアーキテクチャ)を通過し、次いでバッチ正規化を伴う2層MLPと、第1層[30]の後ReLUが続く。 0.73
It then computes temperature-weighted cosine scores for the linearly embedded symbol compared to each image representation. 次に、各画像表現と比較して線形埋め込みシンボルの温度重み付けコサインスコアを計算する。 0.69
The resulting vector of cross-modal (symbol-image) similarities is transformed into a probability distribution over which image is the likely target by applying the softmax operation. 結果として得られるクロスモーダル類似性(シンボリックイメージ)のベクトルは、ソフトマックス演算を適用することで、画像がターゲットとなる確率分布に変換される。 0.73
For both Sender and Receiver, we use ResNet-50 [31] as visual module. SenderとReceerでは、ResNet-50[31]をビジュアルモジュールとして使用しています。 0.61
As they are different agents, that could (in future experiments) have very different architectures and interact with further agents, the most natural assumption is that each of them does visual processing with its own CNN. それらは異なるエージェントであるため、(将来の実験では)全く異なるアーキテクチャを持ち、他のエージェントと相互作用する可能性があるため、最も自然な仮定は、それぞれが独自のCNNで視覚処理を行うということである。 0.69
We consider however also a setup in which the CNN module is shared (closer to earlier emergent-communicati on work, where the agents relied on the same pre-trained CNN). しかし我々は,CNNモジュールが共有されるセットアップも検討している(エージェントは同じ訓練済みのCNNに依存した,初期の緊急通信作業に近い)。 0.73
3 3 0.85
Figure 2: The SimCLR architecture. 図2: SimCLRアーキテクチャ。 0.64
aug_p and aug_q are outputs of the stochastic augmentation pipeline used to generate two views of the same image. aug_p と aug_q は、同じ画像の2つのビューを生成するために使用される確率的拡張パイプラインの出力である。 0.56
Optimization Optimization is performed end-to-end and the error signal, backpropagated through Receiver and Sender, is computed using the cross-entropy cost function by comparing the Receiver’s output with a one-hot vector representing the position of the target in the image list. 最適化最適化をエンドツーエンドに行い、画像リスト内のターゲットの位置を表す1ホットベクトルと受信者の出力を比較して、受信者とSenderを介して逆伝搬したエラー信号をクロスエントロピーコスト関数を用いて演算する。 0.81
SimCLR as a comparison model Given the similarity between the referential communication game and contrastive self-supervised learning in SimCLR [5], we use the latter as a comparison point for our approach. 比較モデルとしてのSimCLR は,参照型通信ゲームとSimCLR [5] におけるコントラスト型自己教師学習の類似性を考えると,後者をアプローチの比較点として用いる。 0.83
Fig 2 schematically shows the SimCLR architecture. fig 2はsimclrアーキテクチャをスキーマ的に示す。 0.60
The crucial differences between SimCLR and our communication game are the following. simclrと私たちのコミュニケーションゲームの重要な違いは次のとおりです。 0.73
i) In SimCLR, the agents are parameterized by the same network, that is, the visual encoder and transformation modules in the two branches of Fig 2 are instances of the same net. i) SimCLRでは、エージェントは同じネットワークによってパラメータ化され、すなわち、Fig 2の2つのブランチのビジュアルエンコーダと変換モジュールは同じネットのインスタンスである。 0.74
ii) The setup is fully symmetric. ii)設定は完全に対称である。 0.80
Like our Receiver, both agents get a set of images in input, and, like our Sender, both agents can be seen as producing “messages” representing each input image. 受信機と同様に、両方のエージェントは入力された画像のセットを受け取り、送信者と同様に、両方のエージェントはそれぞれの入力イメージを表す“メッセージ”を生成できる。 0.75
iii) Instead of (a probability distribution over) symbols, the exchanged information takes the form of continuous vectors (s in the figure). iii) (確率分布) 記号の代わりに、交換された情報は連続ベクトルの形をとる(図中のs)。 0.75
iv) The loss is based on directly comparing embeddings of these continuous vectors (z in the figure), maximizing the similarity between pairs representing the same images (positive examples in contrastive-loss terminology) and minimizing that of pairs representing different images (negative examples). 四 この損失は、これらの連続ベクトル(図中のz)の埋め込みを直接比較し、同じ画像を表す対(対照的に)の類似性を最大化し、異なる画像を表す対(負の例)を最小化する。 0.77
This differs from our loss, that maximizes the similarity of the Receiver embedding of the Sender-produced discrete symbol with its own representation of the target image, while minimizing the similarity of the symbol embedding with its representation of the distractors. これは、Sender生成した離散シンボルのレシーバ埋め込みの類似性を、ターゲット画像の独自の表現で最大化すると同時に、インタプリタの表示で埋め込みされたシンボルの類似性を最小化する、我々の損失と異なる。 0.74
Data augmentation In the original discrimination game proposed in [9], the agents are shown exactly the same target image. 9]で提案された元の識別ゲームにおけるデータ拡張は、エージェントが全く同じターゲットイメージを示す。 0.83
In self-supervised learning, on the other hand, it is common practice to “augment” images in different ways, e g , by applying different croppings or color perturbations [5, 32, 33]. 一方、自己指導型学習では、異なるトリッピングや色摂動[5, 32, 33]を施すことで、様々な方法で画像の「増強」を行うのが一般的である。 0.67
In standard contrastive learning frameworks, where all the weights are shared and there is no communication bottleneck, it is necessary to create these different views, or else the system would trivially succeed at the pretext contrastive task without any actual feature learning. 標準的なコントラスト学習フレームワークでは、すべての重みが共有され、コミュニケーションボトルネックがない場合、これらの異なるビューを作成する必要がある。
訳抜け防止モード: 標準的なコントラスト学習フレームワークでは 全ての重みは共有され 通信のボトルネックはありません 異なる視点を作る必要があります さもなければ、システムは、実際の特徴学習なしで、テキストのコントラストなタスクで、自明に成功するでしょう。
We conjecture that data augmentation, while not strictly needed, might also be beneficial in the communication game setup: presenting different views of the target to Sender and Receiver should make it harder for them to adopt degenerate strategies based on low-level image information [19].2 We follow the same data augmentation pipeline as [5], stochastically applying crop-and-resize, color perturbation, and random Gaussian blurring to every image. ターゲットの異なるビューを送信者と受信者に提示することで、低レベルな画像情報に基づく縮退戦略の採用が難しくなる [19].2 私たちは、[5]と同じデータ拡張パイプラインに従い、各画像に作物とサイズ、色の摂動、ランダムなガウスのぼやけを確率的に適用する。
訳抜け防止モード: 我々は、データ拡張は厳密には必要ないが、通信ゲームの設定において有益であるかもしれないと推測する。 ターゲットの異なるビューをSender と Receiver に提示する 低レベルの画像情報 [19].2 私たちは[5]と同じデータ拡張パイプラインに従っています。 確率的に作物 - および - サイズ、色摂動を施す 全ての画像にランダムなガウスのぼやけ
Implementation details All hidden and output layers are set to dimensionality 2048.3 Note that this implies |V | = 2048, more than double the categories in the dataset we use to train the model (see Section 3.2 below), to avoid implicit supervision on optimal symbol count. 実装の詳細 すべての隠蔽層と出力層は 2048.3 次元に設定されているが、これは |V | = 2048 を意味する。
訳抜け防止モード: 実装の詳細 すべての隠蔽層と出力層は2048.3次元に設定されている。 モデルのトレーニングに使用するデータセットのカテゴリの2倍以上です。 下記3.2節を参照。 は,最適なシンボル数に対する暗黙の監督を避ける。
We fix Gumbel-Softmax temperature at 5.0, and Receiver cosine temperature at 0.1. ガムベルソフトマックス温度は5.0で,受信コサイン温度は0.1。 0.68
The latter value is also used for the equivalent τ parameter in the NTXent-loss of our SimCLR implementation. 後者の値は、SimCLR実装のNTXent-lossにおける等価なτパラメータにも使われます。 0.73
We train with mixed precision [34] for 100 epochs, with a batch of size 16 × 128 = 2048, divided across 16 GPUs. 我々は、100エポックに対して混合精度[34]でトレーニングし、サイズ16×128 = 2048のバッチを16GPUで分割する。 0.76
Rather than sampling distractors from the entire dataset, we take them from the データセット全体からイントラクタをサンプリングする代わりに、それらを取り除きます。 0.59
2Lazaridou and colleagues [9] also considered a variant of the game in which the agents see different pictures of the same category (e g , the shared target is dog, but the agents get different dog pictures). 2lazaridou氏と同僚[9]は、エージェントが同じカテゴリの異なる写真を見るゲームの変種だと考えた(例えば、共有ターゲットは犬だが、エージェントは異なる犬の写真を得る)。 0.71
This version of the game is however severely limited by the requirement of manual category annotation. しかし、このバージョンのゲームは手動のカテゴリーアノテーションの要件によって厳しく制限されている。 0.68
Lazaridou et al [13] also provide different images to Sender and Receiver, by feeding them different viewpoints of the same synthetically generated objects: again, a strategy that will not scale up to natural images. lazaridou氏ら[13]は、同じ合成生成されたオブジェクトの異なる視点を送信者と受信者に提供することで、異なるイメージを提供する。
訳抜け防止モード: Lazaridou et al [ 13 ] も Sender と Receiver に異なるイメージを提供している。 同じ合成された物体の異なる視点を 与えることで 自然画像にスケールアップしない戦略。
3This is the same size used in the original SimCLR paper, except for the nonlinear projection head. 3) これは, 非線形投射ヘッドを除いて, オリジナルのSimCLR紙と同じサイズである。 0.81
For the latter, a number of sizes were tested, and the authors report that they do not impact final performance. 後者については、いくつかのサイズがテストされ、著者らは最終的なパフォーマンスには影響を与えないと報告した。 0.62
We use 2048 for direct comparability with our setting. 設定との直接比較には2048年を使用します。 0.65
4 4 0.85
current device’s batch, thus playing the communication game with 127 distractor images in all reported experiments. 現在のデバイスのバッチは、すべての報告された実験で127の気晴らし画像で通信ゲームをプレイする。 0.68
We do not share distractors (negative samples) across devices. デバイス間で気晴らし(負のサンプル)は共有しません。 0.62
As in SimCLR, we use the LARS optimizer [35] with linear scaling [36], resulting in an initial learning rate of 2.4. SimCLRと同様に、線形スケーリング[36]を備えたLARSオプティマイザ[35]を使用し、最初の学習率は2.4である。 0.66
We apply a cosine decay schedule without warmup nor restart [37]. ウォームアップや再起動なしにコサイン崩壊スケジュールを適用する[37]。 0.61
Compute requirements are reported in Appendix A.1. 計算要件は appendix a.1 で報告される。 0.60
All models are implemented with the EGG toolkit [38]. すべてのモデルはEGGツールキット[38]で実装されます。 0.69
3.2 Data Data for model training Targets and distractors are sampled from the ILSVRC-2012 training set [39], containing 1.3M natural images from 1K distinct categories. 3.2データ ilsvrc-2012 トレーニングセット [39] からモデルトレーニング対象と注意点のデータをサンプリングし、1k カテゴリの1.3mの自然画像を含む。 0.72
Referential game testing We use two image sources for testing. リファレンスゲームテスト テストには2つのイメージソースを使用します。 0.71
First, we use the ILSVRC-2012 validation set, containing around 50K images from the same categories as the training data. まず、トレーニングデータと同じカテゴリから約50Kの画像を含むILSVRC-2012検証セットを使用する。 0.72
Second, in order to probe if the emergent protocol possesses a language-like ability to seamlessly refer to new things, we introduce a new “out-of-distribution” dataset (henceforth, the OOD set). 第二に、創発プロトコルが新しいものをシームレスに参照する言語的な能力を持っているかどうかを調べるために、新しい「配布外」データセット(oodセット)を導入します。 0.71
To build the latter, we relied on the whole ImageNet database [17], exploiting its WordNet-derived hierarchy [40]. 後者を構築するには、ImageNetデータベース [17] 全体に依存し、WordNet由来の階層 [40] を活用しました。 0.73
In particular, we randomly picked (and manually sanity-checked) 80 categories that were neither in ILSVRC-2012 nor hypernyms or hyponyms of ILSVR-2012 categories (e g , since hamster is in ILSVR-2012, we avoided both rodent and golden hamster). 特に,ILSVRC-2012にも,ILSVR-2012にはない80のカテゴリーをランダムに選択(かつ手動で正当性検査)した(例えば,ハムスターはILSVR-2012にあるため,歯列と黄金ハムスターの両方を避けた)。 0.73
We also attempted to sample categories of comparable degree of generality to those in ILSVRC-2012. また,ILSVRC-2012と同等の一般性のカテゴリのサンプルも試みた。 0.68
For each of the categories chosen according to these criteria, we randomly sampled 128 images from ImageNet. これらの基準に従って選択されたカテゴリ毎に、ImageNetからランダムに128の画像をサンプリングした。 0.67
Examples of included categories are eucalyptus, amoeba, and drawer.4 含まれているカテゴリの例としては、eucalyptus, amoeba, drawer.4がある。 0.52
Linear evaluation of visual features on downstream tasks Following standard practice in selfsupervised learning [e g , 5, 20, 41], we evaluate the visual features induced by the CNN components of our models by training a linear object classifier on top of them. 自己教師付き学習(例5,20,41])の標準的な実践に従って下流課題における視覚特徴の線形評価を行い,その上で線形物体分類器を訓練することにより,cnn成分が誘発する視覚特徴を評価した。 0.83
We use four common data-sets: ILSVRC-2012, Places205 [42], iNaturalist2018 and VOC07.5 Evaluation is carried out with the VISSL toolkit [43],6 adopting the hyperparameters in its configuration files without changes. ilsvrc-2012, places205 [42], inaturalist 2018, voc07.5 の4つの一般的なデータセットを vissl toolkit [43],6 で実行し、変更することなく構成ファイルにハイパーパラメータを導入する。 0.65
4 Experiments 4.1 Referential communication accuracy 4つの実験 4.1 参照通信精度 0.73
We start by analyzing how well our models learn to refer to object-depicting images through a learned protocol.7 While some models use data augmentation at training time, we do not apply this transformation when testing the learned communication pipeline. 学習プロトコル.7では、トレーニング時にデータ拡張を使用するモデルもあるが、学習した通信パイプラインをテストする場合には、この変換を適用しない。
訳抜け防止モード: 私たちはまず、いかにうまく分析するかから始める 私たちのモデルは 学習したプロトコルによるイメージ描写7 トレーニング時にデータ拡張を使用するモデルもある。 学習した通信パイプラインをテストする際にはこの変換を適用しません。
As a strong baseline, we let the trained SimCLR model play the referential game by argmax-ing its s layer (see Fig 2 above) into a discrete “symbol” (SimCLRdisc).8 Accuracy is given by the proportion of times in which a system assigns the largest symbolembedding/imag e-representation similarity to the target compared to 127 distractors (chance ≈ 0.8%). 強固なベースラインとして、訓練されたsimclrモデルは、そのs層を離散的な「シンボリック」(simclrdisc)としてargmaxでプレイすることで、参照ゲームをプレイさせる(上の図2参照)。
訳抜け防止モード: 強いベースラインとして、訓練されたSimCLRモデルにargmaxで参照ゲームをプレイさせます。 s 層 (上図2参照) を離散的な "シンボル" (SimCLRdisc) にする。 システムは、最大のシンボル埋め込み/イメージを割り当てる - ターゲットに類似した表現を割り当てる 127個の散逸器 (チャンスは 0.8% ) と比較した。
Results are in Table 1. The ILSVRC-val column shows that all models can play the game well above chance, when tested on new images of the same categories encountered during training. 結果は表1にある。 ILSVRC-valコラムは、トレーニング中に遭遇した同じカテゴリの新たなイメージでテストすると、すべてのモデルが偶然にゲームをすることができることを示している。 0.71
The next column (OOD set) shows that the models also play the game well above chance with input images from new categories, although mostly with a drop in performance. 次のコラム(OODセット)では、モデルが新しいカテゴリからの入力画像でチャンスをはるかに上回っているが、パフォーマンスの低下がほとんどである。 0.64
All variants of our model are considerably more robust than the SimCLR baseline (which, however, does remarkably well, out-of-the-box, at this discrete communication game). 我々のモデルの全変種は、SimCLRベースラインよりもかなり堅牢である(しかし、この離散通信ゲームでは、驚くほどうまく機能します)。 0.69
4Paths to the ImageNet images in the OOD set and the corresponding categories are available at https: 4 OOD セット内の ImageNet イメージとそれに対応するカテゴリへのパスは、https で公開されています。 0.63
//github.com/faceboo kresearch/EGG/blob/m aster/egg/zoo/emcom_ as_ssl/OOD_set.txt. github.com/facebookr esearch/egg/blob/mas ter/egg/zoo/emcom_as _ssl/ood_set.txt 0.11
5http://places.csail .mit.edu/index.html, https://www.kaggle.c om/c/inaturalist-201 8, 5http://places.csail .mit.edu/index.html, https://www.kaggle.c om/c/inaturalist-201 8 0.32
http://host.robots.o x.ac.uk/pascal/VOC/v oc2007/ http://host.robots.o x.ac.uk/pascal/VOC/v oc2007/ 0.21
6https://vissl.ai/ 7Appendix A.2 reports this and all following experiments repeated with 5 distinct initializations of our most representative model (+augmentations -shared). 6https://vissl.ai/ 7Appendix A.2はこれを報告し、以下の実験はすべて、最も代表的なモデル(+augmentations -shared)の5つの異なる初期化で繰り返します。 0.55
It shows that variance across runs is negligible. 実行間の分散が無視可能であることを示す。 0.50
We did not repeat the check for the remaining models due to time and resource constraints (see Appendix A.1). 時間とリソースの制約のため、残りのモデルのチェックを繰り返すことはなかった(appendix a.1)。 0.81
8When looking at SimCLR as a communication game, s constitutes the discrete symbol layer, with z functioning as symbol embedding layer. 8 SimCLRを通信ゲームと見なすと、sは離散シンボル層を構成し、zはシンボル埋め込み層として機能する。 0.79
Discretizing h produced worse game-playing performance in any case. 差別化hはいずれにせよゲームプレイのパフォーマンスを悪化させた。 0.46
5 5 0.85
ILSVRC-val OOD set Gaussian Blobs ILSVRC-val OOD set Gaussian Blobs 0.88
SimCLRdisc Communication Game SimCLRdisc通信ゲーム 0.80
-augmentations -shared -augmentations +shared +augmentations -shared +augmentations +shared -augmentations-share d-augmentations+shared+augmentations-shared +augmentations+shared 0.61
56.9% 47.4% 56.9% 47.4% 0.71
91.2% 92.8% 81.5% 82.2% 91.2% 92.8% 81.5% 82.2% 0.62
90.8% 92.7% 72.0% 73.7% 90.8% 92.7% 72.0% 73.7% 0.62
0.8% 43.4% 84.7% 0.8% 0.8% 0.8% 43.4% 84.7% 0.8% 0.8% 0.66
Table 1: Game-playing accuracy. 表1:ゲームプレイの精度。 0.81
± augmentations marks whether the game was trained with data augmentations or not. ±増補は、ゲームがデータ増補で訓練されたかどうかを示す。 0.63
± shared indicates whether there was CNN weight sharing or not between Sender and Receiver. ±共有は、送信側と受信側の間にcnnの重み共有があったかどうかを示す。
訳抜け防止モード: ±共有は、 Sender と Receiver の間には、CNN の重み共有があった。
In summary, neural networks trained from scratch are able to communicate quite accurately through a discrete channel even in the challenging setup in which the target referent is mixed with more than one hundred distractors, and when it belongs to new categories not seen at training time. 要約すると、スクラッチからトレーニングされたニューラルネットワークは、100以上のイントラクタとターゲット参照が混在する困難なセットアップや、トレーニング時に見られない新しいカテゴリに属する場合であっても、離散チャネルを介して正確に通信することができる。 0.75
Looking at model variants, sharing CNN weights or not makes little difference (an encouraging first step towards communication between widely differing agents, that will obviously not be able to share weights). モデル変異を見てみると、CNNの重みを共有しているかどうかはほとんど変わらない(広く異なるエージェント間のコミュニケーションへの第一歩であり、明らかに重みを共有できない)。
訳抜け防止モード: モデル変種を見て CNNの重みを共有するか否か ほとんど違いはありません(広く異なるエージェント間のコミュニケーションへの第一歩です)。 重量を共有できないのは明らかです)。
On the other hand, data augmentations harm performance. 一方で、データ拡張はパフォーマンスを損なう。 0.62
However, it turns out that the better performance of the non-augmented models is due to an opaque communication strategy in which the agents are evidently referring to low-level aspects of images (perhaps, specific pixel intensity levels? しかし、非表示モデルの優れた性能は、エージェントが画像の低レベルな側面(つまり特定のピクセル強度レベル)を明らかに参照する不透明な通信戦略に起因することが判明した。 0.77
), and not to the high-level semantic information they contain (ideally, object categories). そして、それらが含む高レベルなセマンティック情報(理想的には、オブジェクトカテゴリ)に限らない。 0.65
To show this, we replicated the sanity check from [19]. これを示すために、私たちは[19]から正当性チェックを複製しました。 0.53
We freeze the trained models and let them play the communication game with blobs of Gaussian noise as targets and distractors. 訓練されたモデルを凍結し、ターゲットや気晴らしとしてガウスノイズの塊でコミュニケーションゲームをさせる。 0.72
We use 384 batches of 128 224x224-sized random images whose pixels are drawn from the standard Gaussian distribution N (0, 1), for a total of 49152 items (a size comparable to that of ILSVRC-val). 我々は,標準ガウス分布N (0, 1) から画素を抽出した128224x224サイズのランダム画像の384バッチを,合計49152項目(ILSVRC-valに匹敵するサイズ)に使用した。 0.82
Results are in the last column of Table 1. 結果は表1の最後の列にある。 0.77
The game-based models with augmentations and SimCLR fully pass the sanity check, with performance exactly at the 0.8% chance level. 拡張されたゲームベースモデルとSimCLRは正当性チェックを完全にパスし、パフォーマンスは0.8%である。 0.67
The -augmentation models, on the other hand, are able to use the symbols they learned from sane input to communicate about the Gaussian blobs, showing that they developed a deeply opaque protocol. 一方で -augmentation モデルは、真正な入力から学んだシンボルを使用して、ガウスのブロブについて通信することができ、彼らが深く不透明なプロトコルを開発したことを示している。
訳抜け防止モード: 一方,-augmentationモデルでは,真面目な入力から学んだ記号を活用できる ガウスのブロブについて 伝えるために 彼らは非常に不透明なプロトコルを開発しました。
The -augmentations +shared model, in particular, is hardly affected by the switch to noise data. 特に-augmentations +sharedモデルはノイズデータへの切り替えによってはほとんど影響を受けない。 0.80
This is the closest setup to previous emergent communication studies, in which no data augmentation is applied and the agents share the same pre-trained CNN. これは、データ拡張が適用されず、エージェントが同じ事前訓練されたcnnを共有する以前の緊急通信研究に最も近い設定である。 0.68
It is no surprise, then, that protocol interpretability results are often mixed. プロトコルの解釈可能性の結果がしばしば混ざり合っているのは驚きではない。 0.69
4.2 Protocol analysis: emergent communication as unsupervised image annotation 4.2 プロトコル分析:教師なし画像アノテーションとしての創発的コミュニケーション 0.60
The Gaussian blob test suggests that the +augmentations models do not fall into the trap of a degenerate low-level protocol. Gaussian blob test は、+augmentations モデルは退化した低レベルプロトコルの罠に陥らないことを示唆している。 0.77
However, it is not sufficient to conclude that they learned to associate symbols with human-meaningful referents. しかし、シンボルと人間を連想させることを学んだという結論は十分ではない。 0.64
To test whether this is the case, we exploit the fact that, as we are working with ImageNet data, we have labels denoting the objects depicted in the images. これが正しいかどうかをテストするために、imagenetデータを扱う際に、画像に描かれたオブジェクトを示すラベルがあるという事実を利用する。 0.72
We use this information in two ways. 私たちはこの情報を2つの方法で使います。 0.59
We compute the normalized mutual information (nMI) between the ground-truth labels of target images and the symbols produced for the same images by the trained Sender. 我々は,対象画像の接地構造ラベルと,訓練されたSenderによる同一画像に対して生成されたシンボルとの間の正規化相互情報(nMI)を算出する。 0.67
The nMI of two variables is obtained dividing their MI by their average entropy, and it ranges between 0 and 1. 2つの変数のnMIは平均エントロピーでMIを割ることができ、0から1の範囲である。 0.72
We also compute a normalized similarity measure based on the shortest path between two categories in the WordNet is-a taxonomy. また,WordNetの分類における2つのカテゴリ間の最短経路に基づいて,正規化された類似度尺度も計算する。 0.68
Our WNsim score is the average shortest-path similarity of the ground-truth categories of all target pairs that share the same Sender symbol, and it also ranges between 0 and 1. 我々のWNsimスコアは、同じSenderシンボルを共有するすべてのターゲットペアの接地真実カテゴリの平均的最短パス類似度であり、また0から1の範囲にも及ぶ。 0.75
WNSim is more nuanced than nMI, as it will penalize less a Sender using the same symbol for similar categories, such as cats and dogs, than one using the same symbol for dissimilar ones, such as cats and skyscrapers. wnsimはnmiよりもニュアンスが強く、猫や超高層ビルのような類似のものに同じシンボルを使うよりも、猫や犬のような類似のカテゴリーに同じシンボルを使う送信者より少ないペナルティを課す。 0.75
WNsim is computed with NLTK [44]. WNsimはNLTK[44]で計算される。 0.80
We again take SimCLRdisc as a comparison point, where a “symbol” is simply the dimension with the largest value on a certain layer. 我々はまた、SimCLRdiscを、ある層上で最大の値を持つ次元の「シンボル」である比較点として捉えます。 0.78
To give this approach its best chance, we evaluated its h, s and z layers (see Fig 2), and report statistics for h (CNN output), as it produced the best overall scores across data sets. このアプローチを最善のチャンスとするために、そのh、s、z層を評価し(図2)、h(cnn出力)の統計を報告し、データセット全体で最高の総合スコアを作成した。 0.67
We also run k-means clustering on the h layer (SimCLRkmeans). また、h層(SimCLRkmeans)上でk-meansクラスタリングを実行します。 0.70
We tried 6 試みました 6 0.72
SimCLRdisc SimCLRkmeans Communication Game SimCLRdisc SimCLRkmeans Communication Game 0.85
-augmentations -shared -augmentations +shared +augmentations -shared +augmentations +shared -augmentations-share d-augmentations+shared+augmentations-shared +augmentations+shared 0.61
ILSVRC-val ILSVRC-val 0.59
| P | 1489 2035 P | 1489 2035 0.67
nMI WNsim | P | 1069 0.49 0.59 1519 nMI WNsim | P | 1069 0.49 0.59 1519 0.84
0.11 0.18 OOD set nMI WNsim 0.46 0.54 0.11 0.18 OOD set nMI WNsim 0.46 0.54 0.63
0.19 0.30 2044 2048 2042 2046 0.19 0.30 2044 2048 2042 2046 0.68
0.50 NS 0.58 0.56 0.50 NS 0.58 0.56 0.53
0.08 NS 0.18 0.15 0.08 NS 0.18 0.15 0.53
1921 2025 1752 1765 1921 2025 1752 1765 0.85
0.45 NS 0.53 0.51 0.45 NS 0.53 0.51 0.53
0.11 NS 0.32 0.25 0.11 NS 0.32 0.25 0.53
Table 2: Protocol analysis. 表2:プロトコル分析。 0.72
|P| is the observed protocol size, that is, the number of distinct symbols actually used at test time. P| は観測されたプロトコルサイズ、すなわちテスト時に実際に使用される異なるシンボルの数である。 0.78
We mark as NS the cases where the obtained scores were not significantly different from chance according to a permutation test with α = 0.01. α = 0.01 の置換試験で得られたスコアが偶然と有意な差はなかった場合について,NS とマークした。 0.75
clustering with k = 1000 (ground-truth class cardinality) and k = 2048 (same as vocabulary size of our models).9. k = 1000 (基底クラス濃度) と k = 2048 (我々のモデルの語彙サイズと同じ) によるクラスタリング。 0.72
We report the significantly better results we obtained with the second choice. 第2の選択肢で得られた非常に優れた結果を報告します。 0.62
Looking at Table 2, we first observe that, consistent with the Gaussian blob sanity check, there is no significant sign of symbol-category association for the -augmentations +shared protocol. 表2では、ガウスのブロブの正当性チェックと一致して、-augmentations +sharedプロトコルのシンボルカテゴリ関連性の顕著な兆候がないことを最初に観察する。 0.68
All other models show some degree of symbol interpretability (with significantly above-chance nMI and WNsim scores). 他の全てのモデルは、ある程度の記号解釈可能性を示す(かなり上位の nMI と WNsim スコアを持つ)。 0.60
Even when there is no data augmentation during training, using different visual modules (-augmentations -shared) leads to some protocol interpretability, coherently with the fact that this configuration was less able than its +shared counterpart to communicate about noise. トレーニング中にデータ拡張がない場合でも、異なるビジュアルモジュール(-augmentation -shared)を使用することで、いくつかのプロトコル解釈性がもたらされる。
訳抜け防止モード: トレーニング中にデータ拡張がない場合でも、異なるビジュアルモジュール(-augmentation -shared)を使用する。 プロトコルの解釈可能性につながります この構成は、ノイズについてコミュニケーションする+共有されるものよりは不十分でした。
We were moreover surprised to find that simply argmaxing the SimCLR visual feature layer produces meaningful “symbols”, which suggests that information might be more sparsely encoded by this model than one could naively assume. さらに私たちは,SimCLRの視覚的特徴層をargmaxするだけで意味のある“シンボル”が生成されることに驚きました。
訳抜け防止モード: 私たちはそのことに驚いた。 単にSimCLRビジュアル特徴層をargmaxする 意味のある”シンボル”を生成します 情報はこのモデルによって わずかに符号化されているかもしれない
Importantly, the game protocols derived with data augmentation have particularly high nMI and WNsim scores. 重要なのは、データ拡張によるゲームプロトコルは、特にnMIとWNsimスコアが高いことである。 0.61
Impressively, the scores achieved by our models, and the +augmentations -shared setup in particular, are very close to those obtained by clustering SimCLR visual features. 印象的なことに、私たちのモデルが達成したスコアと+augmentation-sharedセットアップは、simclrの視覚的特徴をクラスタリングすることで得られたスコアに非常に近いのです。 0.56
Recall that, unlike our models, whose protocol independently emerges during discriminative game training, SimCLRkmeans runs a clustering algorithm on top of the representations produced by the SimCLR visual encoder with the express goal to discretize them into coherent sets, thus constituting a hard competitor to reach. 差別的なゲームトレーニング中にプロトコルが独立して出現する我々のモデルとは異なり、SimCLRkmeansは、SimCLRビジュアルエンコーダが生成する表現の上にクラスタリングアルゴリズムを実行し、それらをコヒーレントな集合に識別し、到達しにくい競合を構成する。 0.77
Even more than the quantitative results, a sense of how good our symbols are as unsupervised image labels is given by qualitative inspection of images sharing the same assigned symbol. 定量的な結果よりも、同じ割り当てられた記号を共有する画像の質的検査により、教師なしの画像ラベルとしてのシンボルの良さの感覚が与えられる。 0.70
Fig 3 shows a random set of such images for the 9 symbols most frequently produced by the +augmentationsshared Sender in ILSVRC-val, without any hand-picking.10 Some symbols denote intuitive categories, although, interestingly, ones that do not correspond to specific English words (birds on branches, dogs indoors. 図3は、ISSVRC-valで+augmentationsshared Senderによって最も頻繁に生成される9つのシンボルのランダムなセットを示しています。10 いくつかのシンボルは直感的なカテゴリを表していますが、興味深いことに、特定の英語の単語(枝の鳥、屋内の犬)に対応していません。 0.60
. . ). Other sets are harder to characterize, but they still share a clear high-level “family resemblance” (Symbol 2: objects that glow in the dark; Symbol 3: human artifacts with simple flat shapes, etc). . . ). 他のセットは特徴付けが難しいが、明らかに高いレベルの「家族の類似性」を共有している(Symbol 2: 暗く輝く物体、Symbol 3: 単純な平らな形状の人工物など)。 0.84
Frequency imbalance in input categories, together with the fact that the agents are allowed to use a large number of symbols, leads to partially overlapping categories (Symbol 9 might denote living things in the grass, whereas Symbol 4 seems to specifically refer to mammals in the grass). 入力カテゴリーにおける頻度の不均衡は、エージェントが多数のシンボルを使用することを許されていることと共に、部分的に重複するカテゴリをもたらす(シンボロー9は草の中の生物を表すが、シンボロー4は特に草の中の哺乳類を指す)。 0.76
The fact that symbols do not exactly denote ILSVRC categories plays to the agents’ advantage when they must communicate about OOD set images. シンボルがILSVRCカテゴリを正確に示していないという事実は、OODセットイメージについて通信する必要がある場合、エージェントのアドバンテージとなる。 0.64
While this set, by construction, does not contain ILSVRC categories, as Figure 4 shows, it still contains birds on tree, glowing objects and artifacts with flat shapes. 図4が示すように、このセットにはILSVRCのカテゴリは含まれていませんが、それでも木に鳥、光る物体、平らな形状の人工物が含まれています。 0.63
9Cluster centroids were estimated on a random 10% of the training set. 9Cluster centroids was estimated on a random 10% of the training set。 0.80
Cluster assignments of the test data テストデータのクラスタ割り当て 0.65
were used as symbols in the protocol analysis for SimCLRkmeans SimCLRkmeansのプロトコル解析のシンボルとして使われました 0.85
10To preserve privacy, we excluded 25% of symbol-5 images before sampling, as they depicted people. 10) プライバシーを守るため, サンプリング前にシンボル5画像の25%を除外した。 0.65
Consistent with this symbol’s “theme”, the latter mostly show people in dark backgrounds. このシンボルの“テーマ”とは対照的に、後者は暗黒の背景を持つ人々を表している。 0.71
7 7 0.85
Figure 3: Randomly selected ILSVRC-val images triggering the +augmentations -shared Sender to produce its 9 most frequent symbols. 図3: ランダムに選択したilsvrc-valイメージ+augmentations -shared senderをトリガーして、最も頻度の高い9つのシンボルを生成します。 0.52
Figure 4: Randomly selected OOD set images triggering the +augmentations -shared Sender to produce the 3 most frequent ILSVRC-val symbols (cf. 図4: ランダムに選択されたOODセットイメージが +augmentations -shared Sender をトリガーし、最も頻繁な3つのILSVRC-valシンボル(cf)を生成する。
訳抜け防止モード: 図4:+拡張をトリガーするランダム選択OODセットイメージ 最も頻繁な3つのILSVRC-valシンボル(cf)を生成する。
Fig 3). 4.3 Downstream object classification: emergent communication as self-supervised visual 図3)。 4.3 下流オブジェクト分類:自己教師型視覚としての創発的コミュニケーション 0.62
feature learning Finally, we evaluate how the features produced by the Sender CNN trained on the communication game work as out-of-the-box visual representations. 機能学習 最後に,Sender CNNによるコミュニケーションゲームにおける特徴が,アウト・オブ・ボックスの視覚表現として機能するかを評価する。 0.68
We follow the standard protocol for training a linear classifier on the output of the frozen CNN trunk with various object classification datasets (see 3.2 above). 凍結したCNNトランクの出力の線形分類器を様々なオブジェクト分類データセットでトレーニングするための標準プロトコルに従う(上記3.2参照)。 0.79
We focus on Sender because the features produced by the two agent networks are always highly correlated.11 We further exclude the -augmentations models, given that, having learned a degenerated strategy, they extremely poor performance on ILSVRC-val (below 5% accuracy). 我々は,2つのエージェントネットワークが生み出す特徴が常に高い相関関係にあるため,送信者に注目している。11 では,脱生成戦略を習得し,ilsvrc-val(精度5%以下)の性能が極めて低いことから,-augmentation モデルも除外した。 0.73
We thus decided not to test them on other downstream tasks, as this is a lengthy and resource-intensive procedure (see Appendix A.1). したがって、これは長くリソース集約的な手順であるため、他のダウンストリームタスクではテストしないことを決めました(appendix a.1)。 0.62
As a reasonable upper bound, Table 3 reports the fully-supervised object classification results from [21]. 妥当な上限として、テーブル3は[21]から完全に教師付きオブジェクト分類結果を報告します。 0.58
As a more direct point of comparison, we also report the performance of our SimCLR implementation.12 As the table shows, the features developed as by-product of communication game より直接的な比較点として,simclr実装.12の性能を表に示すように,コミュニケーションゲーム副産物として開発された機能についても報告する。 0.67
11Across setups and data sets, the Sender/Receiver correlation between all pairwise visual representation 11across セットアップとデータセット,すべてのペアワイズ視覚表現間の送信/受信相関 0.78
similarities was never below 0.96. 類似度は 0.96 以下ではなかった。 0.52
12It is difficult to compare our SimCLR ILSVRC-val performance precisely to that reported in the original paper since, coherently with the communication game setup, we use a per-GPU batch size of 128 without sharing negatives across GPUs. 12SimCLR ILSVRC-valの性能は,通信ゲームのセットアップと一致して,GPU間のバッチサイズが128であり,GPU間の負の共有は行わないため,従来の論文と正確に比較することは困難である。 0.79
By looking at the leftmost bars of Fig 9 in [5], we note that the performance we report is within the range of their results for the same number of training epochs (100). 図9の左端のバーを[5]で見ることにより、同じ数のトレーニングエポック(100)に対して、報告したパフォーマンスが結果の範囲内にあることに注意してください。 0.75
8 8 0.85
ILSVRC-val ILSVRC-val 0.59
Places205 Supervised SimCLR Communication Game 場所205 スーパービジョンSimCLR通信ゲーム 0.74
+augmentations -shared +augmentations +shared augmentations -shared +augmentations +shared 0.68
76.5% 60.6% 76.5% 60.6% 0.65
59.0% 60.2% 59.0% 60.2% 0.65
53.2% 49.0% 53.2% 49.0% 0.65
47.9% 49.1% 47.9% 49.1% 0.65
iNaturalist2018 VOC07 87.5% 78.7% iNaturalist2018 VOC0787.5% 78.7% 0.67
46.7% 31.8% 46.7% 31.8% 0.65
30.8% 31.3% 30.8% 31.3% 0.65
77.0% 78.8% 77.0% 78.8% 0.65
Table 3: Linear evaluation on object classification. 表3:オブジェクト分類における線形評価 0.84
Reported scores are mAP for VOC07, top-1 accuracy elsewhere. 報告されたスコアは、VOC07のmAPであり、他の場所ではトップ1の精度である。 0.36
Supervised results are from [21]. 監督された結果は[21]から得られる。 0.51
playing are consistently of comparable quality to those of SimCLR, a method developed specifically for visual feature learning. 再生は、視覚的特徴学習に特化したメソッドであるSimCLRと一貫して同等の品質である。 0.70
This is an extremely promising first step towards employing emergent communication as a form of self supervision. これは、自己管理の手段として創発的なコミュニケーションを採用するための、非常に有望な第一歩です。
訳抜け防止モード: これは非常に有望な第一歩です 自己管理の手段として創発的なコミュニケーションを採用すること。
Many ideas from the self-supervised literature (e g , new data augmentation pipelines, the use of memory banks for distractor sampling or variants of the similarity-based pretext task) could straightforwardly be integrated into our setup, hopefully leading to the emergence of even better visual features and, perhaps, an even more transparent protocol. 自己管理型文献(例えば、新しいデータ拡張パイプライン、類似性ベースのプリテキストタスクのインタプリタサンプリングや変種へのメモリバンクの使用)からの多くのアイデアが、私たちの設定に簡単に統合され、より優れたビジュアル機能や、もっと透過的なプロトコルが出現することを期待しています。 0.77
5 Conclusion Deep agent coordination through communication has recently attracted considerable interest. 5 結論 近年,コミュニケーションによるディープエージェントの連携が注目されている。 0.62
Referential games are a natural environment to test the agents’ emergent communication strategies. 参照ゲームはエージェントの緊急コミュニケーション戦略をテストするための自然な環境です。 0.81
Past approaches, however, relied on relatively small image pools processed with pretrained visual networks, or on artificial input. しかし、過去のアプローチは、事前訓練された視覚ネットワークで処理された比較的小さな画像プールや人工的な入力に依存していた。 0.57
We showed instead that deep agents can learn to refer to a high number of categories depicted in large-scale image datasets, while communicating through a discrete channel and developing their visual processing modules from scratch. そこで我々は,大規模画像データセットに表される多数のカテゴリをディープエージェントが参照し,個別のチャネルを介して通信し,視覚処理モジュールをスクラッチから開発することができることを示した。 0.72
Performance on referential games with two distinct test sets (one with categories not presented at training), along with protocol analysis, shows that the agents’ protocol is effective and interpretable. 2つの異なるテストセット(トレーニングで提示されないカテゴリ)を持つレファレンシャルゲームのパフォーマンスは、プロトコル分析とともに、エージェントのプロトコルが効果的で解釈可能であることを示している。 0.76
A key ingredient to success was input data augmentation. 成功の鍵となる要素は入力データ拡張だった。 0.74
We borrowed this idea from recent approaches to self-supervised visual learning. 私たちはこのアイデアを、自己教師付き視覚学習への最近のアプローチから借りました。 0.50
We believe that the connection between emergent communication and this field can be mutually beneficial. 我々は,創発的コミュニケーションとこの分野との関係は相互に有益であると考えている。 0.68
In this work we showed how the agents’ visual networks emerging from discriminative game playing already produce high-quality visual features. 本研究では,識別ゲームから出現するエージェントの視覚ネットワークが,すでに高品質な視覚機能を実現する方法を示した。 0.67
On the other hand, imposing a discrete bottleneck on network communication can be seen as an augmentation operation in the latent space of an existing contrastive learning system. 一方,ネットワーク通信における離散的ボトルネックを付与することは,既存のコントラスト学習システムの潜在空間における拡張操作と見なすことができる。 0.84
Further integration with self-supervised learning methods should be explored in the future. 今後,自己指導型学習手法とのさらなる統合を検討すべきである。 0.68
In our experiment, agents communicate through a single symbol, but the true expressive power of human language comes from the infinite combinatorial possibilities offered by composing sequences of discrete units [45]. 実験ではエージェントは1つのシンボルを介して通信するが、人間の言語の真の表現力は、離散単位のシーケンスを構成することによって提供される無限の組合せ可能性から生じる。 0.70
Allowing messages of greater length and probing whether this results in the development of a compositional code should be a priority for future work. 長いメッセージを許可し、これが構成コードの開発に繋がるかどうかを調べることは、将来の作業の優先事項である。 0.72
Additionally, while in our experiments distractors are selected at random, this is obviously not the case in real-life referential settings (dogs will tend to occur near other dogs or humans, rather than between a whale and a space shuttle). 加えて、実験では無作為に気晴らしが選択されるが、これは明らかに実際の参照設定ではそうではない(クジラとスペースシャトルの間ではなく、他の犬や人間の近くで起こる傾向がある)。 0.74
Dealing with realistic category co-occurence is thus another important future direction. したがって、現実的なカテゴリの共起を扱うことは、将来の重要な方向性である。 0.41
Finally, although we provided quantitative and qualitative evidence that the agents’ protocol is reasonably transparent, the extent to which the achieved degree of interpretability is good enough for human-in-the-loop scenarios remains to be experimentally investigated. 最後に、エージェントのプロトコルが合理的に透明であることを示す定量的かつ定性的な証拠を提供したが、その解釈可能性の達成度は、まだ実験的な研究が続けられている。 0.64
Much recent work in the field has moved towards a theoretically-orient ed understanding of deep agent communication in symbolic and artificial setups. この分野での最近の研究は、シンボリックおよび人工的なセットアップにおける深いエージェントコミュニケーションの理論的に指向した理解へと移っている。 0.60
We went back instead to the original motivation behind the study of emergent language, as a path towards the development of autonomous AIs that can interact with each other in a realistic environment. 私たちは、現実的な環境で相互に対話できる自律型AIの開発への道のりとして、創発的言語の研究の背後にある元々のモチベーションに戻りました。 0.78
While we are still far from real-life-deployable and fully interpretable machine-machine interaction, we believe that our work represents an important early step towards this goal. 私たちはまだ実生活でデプロイ可能で、完全に解釈可能なマシンとマシンのインタラクションには程遠いですが、私たちの仕事は、この目標に向けての初期の重要なステップであると考えています。 0.47
Acknowledgments We would like to thank Gemma Boleda, Rahma Chaabouni, Emmanuel Chemla, Simone Conia and Lucas Weber for feedback on an earlier version of this manuscript, Priya Goyal for technical support 承認 Gemma Boleda氏、Rahma Chaabouni氏、Emmanuel Chemla氏、Simone Conia氏、Lucas Weber氏が、この原稿の以前のバージョンであるPriya Goyal氏に技術サポートについてフィードバックしてくれたことに感謝します。
訳抜け防止モード: 承認 Gemma Boleda氏、Rahma Chaabouni氏、Emmanuel Chemla氏に感謝します。 Simone Conia氏とLucas Weber氏によるこの原稿の初期バージョンへのフィードバック。 Priya Goyal氏のテクニカルサポート
9 9 0.85
on VISSL, Mathilde Caron and the participants of the EViL meeting, the FAIR EMEA-NLP meetup and the TAB meeting for fruitful discussions. VISSLでは、Mathilde Caron氏とEViLミーティングの参加者、FAIR EMEA-NLPミートアップ、TABミーティングで実りある議論が行われた。 0.62
We also want to thank Jade Copet for sharing an early version of the code used in this work. また、この作業で使われたコードの初期のバージョンを共有してくれたJade Copet氏に感謝します。 0.61
References [1] Angeliki Lazaridou and Marco Baroni. アンジェリキ・ラザリドゥ(Angeliki Lazaridou)とマルコ・バロンニ(Marco Baroni)。 0.53
Emergent multi-agent communication in the deep 深部における創発的マルチエージェント通信 0.71
learning era. https://arxiv.org/ab s/2006.02419, 2020. 学習時代。 https://arxiv.org/ab s/2006.02419, 2020 0.56
[2] Sainbayar Sukhbaatar, Arthur Szlam, and Rob Fergus. Sainbayar Sukhbaatar、Arthur Szlam、Rob Fergus。 0.49
Learning multiagent communication マルチエージェントコミュニケーションの学習 0.70
with backpropagation. バックプロパゲーションで 0.32
In Proceedings of NIPS, pages 2244–2252, Barcelona, Spain, 2016. In Proceedings of NIPS, pages 2244–2252, Barcelona, Spain, 2016 0.88
[3] Nur Geffen Lan, Emmanuel Chemla, and Shane Steinert-Threlkeld. [3]Nur Geffen Lan、Emmanuel Chemla、Shane Steinert-Threlkeld。 0.72
On the Spontaneous Emergence of Discrete and Compositional Signals. 離散的および構成的信号の自発的出現について 0.55
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4794–4800, Online, July 2020. 58th Annual Meeting of the Association for Computational Linguistics, page 4794-4800, Online, 2020 0.66
Association for Computational Linguistics. [4] Ning Xie, Gabrielle Ras, Marcel van Gerven, and Derek Doran. 計算言語学会会員。 Ning Xie氏、Gabriel Ras氏、Marcel van Gerven氏、Derek Doran氏。 0.56
Explainable deep learning: A 説明可能なディープラーニング: A 0.57
field guide for the uninitiated. 未開始者のためのフィールドガイド。 0.52
https://arxiv.org/ab s/2004.14545, 2020. https://arxiv.org/ab s/2004.14545, 2020 0.51
[5] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 5]Ting Chen、Simon Kornblith、Mohammad Norouzi、Geoffrey Hinton。 0.58
A simple framework for contrastive learning of visual representations. 視覚表現のコントラスト学習のための単純なフレームワーク。 0.81
In Hal Daumé III and Aarti Singh, editors, Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proceedings of Machine Learning Research, pages 1597–1607. Hal Daumé III and Aarti Singh, editors, Proceedings of the 37th International Conference on Machine Learning, Volume 119 of Proceedings of Machine Learning Research, page 1597–1607. ^ ^ ^ 0.92
PMLR, 13–18 Jul 2020. PMLR、2020年3月13-18日。 0.53
[6] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. [6]カイミング・ヘ、ホーキー・ファン、ユキシン・ウー、サイニング・シー、ロス・ギルシック。 0.42
Momentum contrast for unsupervised visual representation learning. 教師なし視覚表現学習におけるモメンタムコントラスト 0.62
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2020年6月。 0.89
[7] Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, Bilal Piot, koray kavukcuoglu, Remi Munos, and Michal Valko. [7]Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, Bilal Piot, koray kavukcuoglu, Remi Munos, Michal Valko 0.83
Bootstrap your own latenta new approach to self-supervised learning. 自己教師付き学習への新たなアプローチとして,自分自身のlatentaをブートストラップする。 0.41
In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 21271–21284. H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 21271–21284。 0.98
Curran Associates, Inc., 2020. Curran Associates, Inc., 2020 0.71
[8] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. 8]Carl Doersch、Abhinav Gupta、Alexei A. Efros。 0.69
Unsupervised visual representation learning by context prediction. 文脈予測による教師なし視覚表現学習 0.62
In 2015 IEEE International Conference on Computer Vision (ICCV), pages 1422–1430, 2015. 2015年IEEE International Conference on Computer Vision (ICCV)、1422-1430頁。 0.72
[9] Angeliki Lazaridou, Alexander Peysakhovich, and Marco Baroni. 9]Angeliki Lazaridou,Alexander Peysakhovich,Marco Baroni。 0.62
Multi-agent cooperation and the emergence of (natural) language. 多エージェント協調と自然言語(自然言語)の出現 0.70
In Proceedings of ICLR Conference Track, Toulon, France, 2017. in proceedings of iclr conference track, france, toulon, 2017を参照。 0.76
Published online: https://openreview.n et/group?id=ICLR.cc/2017/ conference. オンライン公開: https://openreview.n et/group?id=iclr.cc/2017/ conference 0.47
[10] Satwik Kottur, José Moura, Stefan Lee, and Dhruv Batra. Satwik Kottur氏、José Moura氏、Stefan Lee氏、Dhruv Batra氏。 0.63
Natural language does not emerge ‘naturally’ in multi-agent dialog. 自然言語はマルチエージェントダイアログで“自然に”現れない。 0.83
In Proceedings of EMNLP, pages 2962–2967, Copenhagen, Denmark, 2017. In Proceedings of EMNLP, page 2962–2967, Copenhagen, Denmark, 2017 0.87
[11] Serhii Havrylov and Ivan Titov. 11]Serhii Havrylov氏とIvan Titov氏。 0.74
Emergence of language with multi-agent games: Learning to communicate with sequences of symbols. マルチエージェントゲームによる言語の創発: シンボルのシーケンスとのコミュニケーションを学ぶ。 0.81
In Proceedings of NIPS, pages 2149–2159, Long Beach, CA, 2017. In Proceedings of NIPS, page 2149–2159, Long Beach, CA, 2017 0.85
[12] Katrina Evtimova, Andrew Drozdov, Douwe Kiela, and Kyunghyun Cho. 12]Katrina Evtimova,Andrew Drozdov,Douwe Kiela,Kunghyun Cho。 0.63
Emergent communication in a multi-modal, multi-step referential game. マルチモーダル・マルチステップ参照ゲームにおける創発的コミュニケーション 0.78
In Proceedings of ICLR Conference Track, Vancouver, Canada, 2018. In Proceedings of ICLR Conference Track, Vancouver, Canada, 2018 0.75
Published online: https://openreview.n et/group?id=ICLR. オンライン公開: https://openreview.n et/group?id=iclr。 0.47
cc/2018/Conference. cc/2018/参照。 0.39
[13] Angeliki Lazaridou, Karl Moritz Hermann, Karl Tuyls, and Stephen Clark. He13] Angeliki Lazaridou、Karl Moritz Hermann、Karl Tuyls、Stephen Clark。 0.69
Emergence of In Prolinguistic communication from referential games with symbolic and pixel input. 記号入力と画素入力による参照ゲームからのIn言語コミュニケーションの創発 0.66
ceedings of ICLR Conference Track, Vancouver, Canada, 2018. ceedings of iclr conference track, vancouver, canada, 2018 (英語) 0.76
Published online: https: //openreview.net/gro up?id=ICLR.cc/2018/Confere nce. https: //openreview.net/gro up?id=iclr.cc/2018/confere nce 0.49
10 10 0.85
[14] Edward Choi, Angeliki Lazaridou, and Nando de Freitas. [14]エドワード・チョイ、アンジェリキ・ラザリドゥ、ナンド・デ・フライタス。 0.39
Compositional obverter communication learning from raw visual input. 生の視覚入力からの合成オブバータ通信学習 0.70
In Proceedings of ICLR Conference Track, Vancouver, Canada, 2018. In Proceedings of ICLR Conference Track, Vancouver, Canada, 2018 0.75
Published online: https://openreview.n et/group?id=ICLR.cc/2018/ Conference. オンライン公開: https://openreview.n et/group?id=iclr.cc/2018/ conference 0.48
[15] Rahma Chaabouni, Eugene Kharitonov, Emmanuel Dupoux, and Marco Baroni. 15] Rahma Chaabouni, Eugene Kharitonov, Emmanuel Dupoux, Marco Baroni 0.61
Anti-efficient encoding in emergent communication. 創発的コミュニケーションにおける反効率符号化 0.59
In Proceedings of NeurIPS, Vancouver, Canada, 2019. In Proceedings of NeurIPS, Vancouver, Canada, 2019 0.73
Published online: https://papers.nips. cc/paper/2019. 公式サイト: https://papers.nips. cc/paper/2019 0.45
[16] Rahma Chaabouni, Eugene Kharitonov, Diane Bouchacourt, Emmanuel Dupoux, and Marco Baroni. 16] Rahma Chaabouni, Eugene Kharitonov, Diane Bouchacourt, Emmanuel Dupoux, Marco Baroni 0.65
Compositionality and generalization in emergent languages. 創発言語における構成性と一般化 0.57
In Proceedings of ACL, pages 4427–4442, virtual conference, 2020. Proceedings of ACL, page 4427–4442, virtual conference, 2020。 0.85
[17] Jia Deng, Wei Dong, Richard Socher, Lia-Ji Li, and Li Fei-Fei. [17]Jia Deng、Wei Dong、Richard Socher、Lia-Ji Li、Li Fei-Fei。 0.79
Imagenet: A large-scale hierarchical image database. Imagenet: 大規模な階層型イメージデータベース。 0.85
In Proceedings of CVPR, pages 248–255, Miami Beach, FL, 2009. Proceedings of CVPR, page 248–255, Miami Beach, FL, 2009 0.80
[18] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C. Lawrence Zitnick. 18]tsung-yi lin, michael maire, serge belongie, james hays, pietro perona, deva ramanan, piotr dollár, c. lawrence zitnick
訳抜け防止モード: [18 ]ツン-李林、マイケル・ミア、セルゲイ・ベロンギー James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár そしてC・ローレンス・ジトニック。
Microsoft COCO: Common objects in context. Microsoft COCO: コンテキスト内の共通オブジェクト。 0.84
In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 740–755, Cham, 2014. David Fleet, Tomas Pajdla, Bernt Schiele, Tinne Tuytelaars, editors, Computer Vision – ECCV 2014 page 740–755, Cham, 2014 0.73
Springer International Publishing. Springer International Publishing(英語) 0.71
[19] Diane Bouchacourt and Marco Baroni. 19]diane bouchacourtとmarco baroni。 0.50
How agents see things: On visual representations in an emergent language game. エージェントが物事を見る方法: 創発的な言語ゲームにおける視覚的表現について。 0.62
In Proceedings of EMNLP, pages 981–985, Brussels, Belgium, 2018. EMNLP Proceedings of EMNLP, page 981–985, Brussels, Belgium, 2018 0.82
[20] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. 20]Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulin。 0.71
Emerging properties in self-supervised vision transformers. 自己教師型視覚変換器の創発特性 0.53
arXiv preprint arXiv:2104.14294, 2021. arXiv preprint arXiv:2104.14294, 2021 0.81
[21] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, and Armand Joulin. Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, Armand Joulin。 0.62
Unsupervised learning of visual features by contrasting cluster assignments. クラスタ割り当ての対比による視覚特徴の教師なし学習 0.75
In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 9912–9924. H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, page 9912–9924。 0.97
Curran Associates, Inc., 2020. Curran Associates, Inc., 2020 0.71
[22] Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Pierre Sermanet, and Andrew Zisserman. Debidatta Dwibedi氏、Yusuf Aytar氏、Jonathan Tompson氏、Pierre Sermanet氏、Andrew Zisserman氏。 0.67
With a little help from my friends: Nearest-neighbor contrastive learning of visual representations. 私の友人の助けを借りて、最も近距離の視覚的表現のコントラスト学習。 0.66
CoRR, abs/2104.14548, 2021. CoRR, abs/2104.14548, 2021 0.78
[23] Jure Zbontar, Li Jing, Ishan Misra, Yann LeCun, and Stéphane Deny. Jure Zbontar氏、Li Jing氏、Ishan Misra氏、Yann LeCun氏、Stéphane Deny氏。 0.60
Barlow twins: Self- Barlow twins: Self- 0.98
supervised learning via redundancy reduction. 冗長性削減による教師付き学習。 0.58
CoRR, abs/2103.03230, 2021. CoRR, abs/2103.03230, 2021。 0.72
[24] Aäron van den Oord, Yazhe Li, and Oriol Vinyals. a b [24] Aäron van den Oord, Yazhe Li, Oriol Vinyals 0.69
Representation learning with contrastive コントラストによる表現学習 0.81
predictive coding. CoRR, abs/1807.03748, 2018. 予測符号化。 CoRR, abs/1807.03748, 2018。 0.69
[25] Xinlei Chen and Kaiming He. [25]シンレイ・チェンとカイミング・ヘ。 0.60
Exploring simple Siamese representation learning. 単純なシームズ表現学習の探索 0.66
CoRR, abs/2011.10566, 2020. CoRR Abs/2011.10566, 2020 0.57
[26] Michael Gutmann and Aapo Hyvärinen. 26]michael gutmannとaapo hyvärinen。 0.65
Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. ノイズコントラスト推定:非正規化統計モデルに対する新しい推定原理 0.85
In Yee Whye Teh and Mike Titterington, editors, Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, volume 9 of Proceedings of Machine Learning Research, pages 297–304, Chia Laguna Resort, Sardinia, Italy, 13–15 May 2010. Yee Whye Teh and Mike Titterington, editors, Proceedings of the Thirth International Conference on Artificial Intelligence and Statistics, Volume 9 of Proceedings of Machine Learning Research, pages 297–304, Chia Laguna Resort, Sardinia, Italy, 13–15, 2010 0.84
PMLR. [27] Sergey Ioffe and Christian Szegedy. PMLR。 27] セルゲイ・ヨッフェと クリスチャン・セゲディ 0.62
Batch normalization: Accelerating deep network training by reducing internal covariate shift. バッチ正規化: 内部共変量シフトの低減によるディープネットワークトレーニングの高速化。 0.65
In Francis Bach and David Blei, editors, Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research, pages 448–456, Lille, France, 07–09 Jul 2015. 編集者のFrancis Bach, David Blei, editors, Proceedings of the 32nd International Conference on Machine Learning, Volume 37 of Proceedings of Machine Learning Research, page 448-456, Lille, France, 07-09 Jul 2015 0.90
PMLR. [28] Eric Jang, Shixiang Gu, and Ben Poole. PMLR。 [28]Eric Jang、Shixiang Gu、Ben Poole。 0.74
Categorical reparameterization with Gumbel-Softmax. Gumbel-Softmaxによるカテゴリー再パラメータ化 0.52
In Proceedings of ICLR Conference Track, Toulon, France, 2017. in proceedings of iclr conference track, france, toulon, 2017を参照。 0.76
Published online: https: //openreview.net/gro up?id=ICLR.cc/2017/confere nce. https: //openreview.net/gro up?id=iclr.cc/2017/confere nce 0.48
[29] Chris J Maddison, Andriy Mnih, and Yee Whye Teh. Chris J Maddison, Andriy Mnih, Yee Whye Teh。 0.48
The concrete distribution: A continuous コンクリートの分布:連続的な 0.91
relaxation of discrete random variables. 離散確率変数の緩和。 0.62
arXiv preprint arXiv:1611.00712, 2016. arXiv preprint arXiv:1611.00712, 2016 0.80
11 11 0.85
[30] Xavier Glorot, Antoine Bordes, and Yoshua Bengio. 30]Xavier Glorot,Antoine Bordes,Yoshua Bengio。 0.58
Deep sparse rectifier neural networks. ディープスパース整流器ニューラルネットワーク。 0.66
In Proceedings of AISTATS, pages 315–323, Fort Lauderdale, FL, 2011. 院 AISTATS Proceedings of AISTATS, pages 315–323, Fort Lauderdale, FL, 2011 0.66
[31] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. [31]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.52
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016. 2016年のIEEE Conference on Computer Vision and Pattern Recognition (CVPR)では、770–778頁。 0.84
[32] Philip Bachman, Devon Hjelm, and William Buchwalter. Philip Bachman氏、Devon Hjelm氏、William Buchwalter氏。 0.60
Learning representations by maximizing mutual information across views. ビュー間の相互情報最大化による表現の学習。 0.69
In Proceedings of NeurIPS, Vancouver, Canada, 2019. In Proceedings of NeurIPS, Vancouver, Canada, 2019 0.73
Published online: https://papers.nips. cc/paper/2019. 公式サイト: https://papers.nips. cc/paper/2019 0.45
[33] Mang Ye, Xu Zhang, Pong Yuen, and Shih-Fu Chang. [33]mang Ye、Xu Zhang、Pong Yuen、Shih-Fu Chang。 0.72
Unsupervised embedding learning via invariant and spreading instance feature. 不変および分散インスタンス機能による教師なし埋め込み学習。 0.75
In Proceedings of CVPR, pages 6210–6219, Long Beach, CA, 2019. CVPR Proceedings of CVPR, page 6210–6219, Long Beach, CA, 2019 0.81
[34] Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory F. Diamos, Erich Elsen, David García, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, and Hao Wu. Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory F. Diamos, Erich Elsen, David García, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, Hao Wu 0.72
Mixed precision training. CoRR, abs/1710.03740, 2017. 混合精度訓練。 CoRR, abs/1710.03740, 2017。 0.68
[35] Yang You, Igor Gitman, and Boris Ginsburg. Yang You, Igor Gitman, Boris Ginsburg. [35] Yang You, Igor Gitman, and Boris Ginsburg. 0.66
Scaling SGD batch size to 32k for imagenet imagenetのsgdバッチサイズを32kにスケールする 0.72
training. CoRR, abs/1708.03888, 2017. 訓練だ CoRR, abs/1708.03888, 2017 0.71
[36] Priya Goyal, Piotr Dollár, Ross B. Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, and Kaiming He. [36]Priya Goyal, Piotr Dollár, Ross B. Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, Kaiming He。 0.79
Accurate, large minibatch SGD: training imagenet in 1 hour. 正確で大きなミニバッチsgd: イメージネットを1時間で訓練する。 0.66
CoRR, abs/1706.02677, 2017. CoRR, abs/1706.02677, 2017 0.74
[37] Ilya Loshchilov and Frank Hutter. Ilya Loshchilov氏とFrank Hutter氏。 0.58
SGDR: stochastic gradient descent with restarts. SGDR:再起動による確率勾配降下。 0.68
CoRR, abs/1608.03983, 2016. CoRR abs/1608.03983, 2016 0.57
[38] Eugene Kharitonov, Rahma Chaabouni, Diane Bouchacourt, and Marco Baroni. He38] Eugene Kharitonov, Rahma Chaabouni, Diane Bouchacourt, Marco Baroni 0.66
EGG: a toolkit for research on Emergence of lanGuage in Games. EGG: ゲームにおけるlanGuageの創発の研究用ツールキット。 0.81
In EMNLP-IJCNLP: System Demonstrations, 2019. EMNLP-IJCNLP: System Demonstrations, 2019。 0.88
[39] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander Berg, and Li Fei-Fei. 39] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander Berg, Li Fei-Fei。 0.80
ImageNet Large Scale Visual Recognition challenge. ImageNet Large Scale Visual Recognition Challenge 0.69
International Journal of Computer Vision, 115(3):211–252, 2015. International Journal of Computer Vision, 115(3):211–252, 2015 0.93
[40] Christiane Fellbaum, editor. クリスティアン・フェルバウム(Christiane Fellbaum) 編集長。 0.59
WordNet: An Electronic Lexical Database. WordNet: 電子辞書データベース。 0.63
MIT Press, Cambridge, MIT Press, Cambridge (英語) 0.78
MA, 1998. [41] Junnan Li, Pan Zhou, Caiming Xiong, and Steven Hoi. 1998年。 [41]Junnan Li、Pan Zhou、Caiming Xiong、Steven Hoi。 0.59
Prototypical contrastive learning of unsupervised representations. 教師なし表現の原型的コントラスト学習 0.60
In Proceedings of ICLR, Online conference., 2021. In Proceedings of ICLR, Online conference., 2021 0.73
Proceedings at: https://openreview.n et/group?id=ICLR.cc/2021/Confere nce. https://openreview.n et/group?id=ICLR.cc/2021/Confere nce 0.48
[42] Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Torralba, and Aude Oliva. [42]Bolei Zhou,Agata Lapedriza,Jianxiong Xiao,Antonio Torralba,Aude Oliva 0.65
Learning deep features for scene recognition using Places database. Placesデータベースを用いたシーン認識のための深層機能学習 0.81
In Proceedings of NIPS, Montreal, Canada, 2014. 2014年 カナダ、カナダ、カナダ、カナダ、カナダで開催。 0.58
Published online: https://papers.nips. cc/paper/2014. オンライン公開: https://papers.nips. cc/paper/2014。 0.44
[43] Priya Goyal, Quentin Duval, Jeremy Reizenstein, Matthew Leavitt, Min Xu, Benjamin Lefaudeux, Mannat Singh, Vinicius Reis, Mathilde Caron, Piotr Bojanowski, Armand Joulin, and Ishan Misra. 43] Priya Goyal, Quentin Duval, Jeremy Reizenstein, Matthew Leavitt, Min Xu, Benjamin Lefaudeux, Mannat Singh, Vinicius Reis, Mathilde Caron, Piotr Bojanowski, Armand Joulin, Ishan Misra。 0.78
VISSL. https://github.com/f acebookresearch/viss l, 2021. VISSL。 https://github.com/f acebookresearch/viss l, 2021。 0.68
[44] Steven Bird, Ewan Klein, and Edward Loper. 44]Steven Bird、Ewan Klein、Edward Loper。 0.60
Natural language processing with Python: pythonによる自然言語処理: 0.92
analyzing text with the natural language toolkit. " 自然言語ツールキットでテキストを分析する。 0.78
O’Reilly Media, Inc.", 2009. 2009年『O’Reilly Media, Inc.』。 0.89
[45] Robert Berwick and Noam Chomsky. 45] ロバート・ベリックと ノーム・チョムスキー 0.50
Why Only Us: Language and Evolution. MIT Press, 理由:言語と進化。 MIT Press 0.55
Cambridge, MA, 2016. 2016年、ケンブリッジ。 0.45
12 12 0.85
A Appendix appendix (複数形 appendixs) 0.35
A.1 Compute details All experiments were run using Tesla V100 GPUs on an internal SLURM-based cluster, except where indicated. A.1 計算の詳細 すべての実験はtesla v100 gpuを使って内部slurmベースのクラスタ上で実行された。 0.62
Training a communication game takes approximately 16 hours on 16 GPUs. 通信ゲームのトレーニングには16GPUで約16時間を要する。 0.84
Testing on the referential game takes less than 5 minutes on a single NVIDIA Quadro GP100. 参照ゲームでは、NVIDIA Quadro GP100で5分未満でテストできる。 0.71
The permutation procedure used to establish statistical significance for purposes of protocol analysis takes up to about 24 hours, and do not requires GPUs. プロトコル分析のために統計的重要性を確立するために使用される置換手順は、約24時間かかり、gpuを必要としない。 0.67
The downstream object classification experiments take up to about 16 hours on 8 GPUs. 下流のオブジェクト分類実験は8GPUで最大16時間かかる。 0.66
A.2 Impact of random seeds on +augmentation -shared model performance A.2 ランダム種子が+augmentation-shared model performanceに及ぼす影響 0.70
To gauge the robustness of our results to model initialization variance, we repeated all experiments after training our most representative model (+augmentation -shared) with 5 different random seeds (including the randomly picked seed consistently used for the results reported in the main text). 初期化分散をモデル化するための結果のロバスト性を評価するため,最も代表的なモデル(+augmentation -shared)を5種類のランダムシード(メインテキストで報告された結果に一貫して使用されるランダムシードを含む)で訓練した後,実験を繰り返した。 0.68
The outcomes, summarized in Tables 4, 5 and 6, show that the effect of this source of variation on model performance is negligible. 表4, 5, 6にまとめられた結果から, この変化源がモデル性能に与える影響は無視できないことがわかった。 0.82
task ILSVRC-val OOD set Gaussian Blobs Task ILSVRC-val OOD set Gaussian Blobs 0.90
sd avg max 81.4% 0.2% 81.1% 81.6% 71.7% 0.6% 71.0% 72.4% 0.8% 0.1% 0.8% 1.0% sd avg max 81.4% 0.2% 81.1% 81.6% 71.7% 0.6% 71.0% 72.4% 0.8% 0.1% 0.8% 1.0% 0.74
min Table 4: Game playing accuracy of +augmentation -shared model across 5 seeds. ミン 表4: 5種にわたる+強化-共有モデルのゲームプレイ精度。 0.62
task ILSVRC-val Task ILSVRC-val 0.68
|P| nMI WNsim OOD set |P|nMI WNsim OOD セット 0.84
|P| nMI WNsim |P|nMI WNsim 0.76
avg sd min max avg sd ミン マックス 0.72
2040.4 0.58 0.18 2040.4 0.58 0.18 0.47
1749.8 0.53 0.29 1749.8 0.53 0.29 0.47
2.1 0.00 0.00 2.1 0.00 0.00 0.47
15.0 0.00 0.02 15.0 0.00 0.02 0.47
2037 0.58 0.17 2037 0.58 0.17 0.59
1723 0.52 0.27 1723 0.52 0.27 0.59
2042 0.58 0.18 2042 0.58 0.18 0.59
1767 0.53 0.32 1767 0.53 0.32 0.59
Table 5: Protocol analysis statistics of +augmentation -shared model across 5 seeds. 表5: 5つのシードにわたる+augmentation-sharedモデルのプロトコル分析統計。 0.75
task ILSVRC-val Places205 iNaturalist2018 VOC07 Task ILSVRC-val Places205 iNaturalist2018 VOC07 0.63
avg 59.10 48.2 31.1 77.1 avg 59.10 48.2 31.1 77.1 0.50
sd 0.10 0.17 0.16 0.06 sd 0.10 0.17 0.16 0.06 0.50
min 58.98 47.9 30.8 77.0 min 58.98 47.9 30.8 77.0 0.50
max 59.20 48.3 31.3 77.2 max 59.20 48.3 31.3 77.2 0.50
Table 6: Linear evaluation accuracy on object classification for +augmentation -shared model across 5 seeds. 表6: 被写体分類における線形評価精度 : + augmentation-shared model across 5 seed 0.85
Reported scores are mAP for VOC07, top-1 accuracy elsewhere. 報告されたスコアは、VOC07のmAPであり、他の場所ではトップ1の精度である。 0.36
13 13 0.85

翻訳にはFugu-Machine Translatorを利用しています。