論文の概要、ライセンス

# (参考訳) there and back again: 変動要因の分離のための集合全体のサイクル一貫性 [全文訳有]

There and back again: Cycle consistency across sets for isolating factors of variation ( http://arxiv.org/abs/2103.03240v1 )

ライセンス: CC BY 4.0
Kieran A. Murphy, Varun Jampani, Srikumar Ramalingam, Ameesh Makadia(参考訳) 表現学習は、データの変動の基盤となる説明的要因の集合を解き放つタスクにかかっている。 本研究では,変動要因をサブセットに限定したグループ化(grouping)という形で,データに関する限られた情報や,集合メンバシップ(set membership)という設定で運用する。 私たちの目標は、グループ間で共通する変化の要因を分離する表現を学ぶことです。 我々の重要な洞察は、異なる集合に属する画像の学習された埋め込み間の集合(CCS)間のサイクル一貫性の利用である。 セット管理を利用する他の手法とは対照的に、CCSは変化の要因に対する制約を著しく少なくし、非常に広い範囲の設定で適用でき、トレーニングデータの一部に対してのみセットメンバーシップを利用することができる。 shapes3dからデータセットをキュレートすることで,学習表現と既知の生成因子の相互情報を通してccsの有効性を定量化する。 さらに,デジタルスタイル分離と合成オブジェクトポーズ転送のタスクに対するCSの適用性を実証し,これを用いた生成的アプローチとの比較を行った。

Representational learning hinges on the task of unraveling the set of underlying explanatory factors of variation in data. In this work, we operate in the setting where limited information is known about the data in the form of groupings, or set membership, where the underlying factors of variation is restricted to a subset. Our goal is to learn representations which isolate the factors of variation that are common across the groupings. Our key insight is the use of cycle consistency across sets(CCS) between the learned embeddings of images belonging to different sets. In contrast to other methods utilizing set supervision, CCS can be applied with significantly fewer constraints on the factors of variation, across a remarkably broad range of settings, and only utilizing set membership for some fraction of the training data. By curating datasets from Shapes3D, we quantify the effectiveness of CCS through mutual information between the learned representations and the known generative factors. In addition, we demonstrate the applicability of CCS to the tasks of digit style isolation and synthetic-to-real object pose transfer and compare to generative approaches utilizing the same supervision.
公開日: Thu, 4 Mar 2021 18:58:45 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for 繰り返します: セット間のサイクルの一貫性。 0.64
isolating factors of variation Kieran A. Murphy* Varun Jampani Srikumar Ramalingam Ameesh Makadia {murphyka, varunjampani, rsrikumar, makadia}@google.com 変動要因の分離 Kieran A. Murphy* Varun Jampani Srikumar Ramalingam Ameesh Makadia {murphyka, varunjampani, rsrikumar, makadia}@google.com 0.85
Google Research Google Research 0.85
1 2 0 2 r a M 4 ] G L . 1 2 0 2 r a m 4 ] g l である。 0.78
s c [ 1 v 0 4 2 3 0 . s c [ 1 v 0 4 2 3 0 . 0.85
3 0 1 2 : v i X r a 3 0 1 2 : v i X r a 0.85
Abstract Representational learning hinges on the task of unraveling the set of underlying explanatory factors of variation in data. 概要 表現学習は、データの変動の基盤となる説明的要因の集合を解き放つタスクにかかっている。 0.60
In this work, we operate in the setting where limited information is known about the data in the form of groupings, or set membership, where the underlying factors of variation is restricted to a subset. 本研究では,変動要因をサブセットに限定したグループ化(grouping)という形で,データに関する限られた情報や,集合メンバシップ(set membership)という設定で運用する。 0.76
Our goal is to learn representations which isolate the factors of variation that are common across the groupings. 私たちの目標は、グループ間で共通する変化の要因を分離する表現を学ぶことです。 0.77
Our key insight is the use of cycle consistency across sets (CCS) between the learned embeddings of images belonging to different sets. 私たちの重要な洞察は、異なるセットに属する画像の学習された埋め込み間のセット(CCS)間のサイクル一貫性の使用です。 0.75
In contrast to other methods utilizing set supervision, CCS can be applied with significantly fewer constraints on the factors of variation, across a remarkably broad range of settings, and only utilizing set membership for some fraction of the training data. セット管理を利用する他の手法とは対照的に、CCSは変化の要因に対する制約を著しく少なくし、非常に広い範囲の設定で適用でき、トレーニングデータの一部に対してのみセットメンバーシップを利用することができる。 0.79
By curating datasets from Shapes3D, we quantify the effectiveness of CCS through mutual information between the learned representations and the known generative factors. shapes3dからデータセットをキュレートすることで,学習表現と既知の生成因子の相互情報を通してccsの有効性を定量化する。 0.65
In addition, we demonstrate the applicability of CCS to the tasks of digit style isolation and synthetic-to-real object pose transfer and compare to generative approaches utilizing the same supervision. さらに,デジタルスタイル分離と合成オブジェクトポーズ転送のタスクに対するCSの適用性を実証し,これを用いた生成的アプローチとの比較を行った。 0.75
Accompanying code may be found at this github repository. 対応するコードは、このgithubリポジトリで見つけることができる。 0.66
1. Introduction Isolating desired factors of variation in a dataset requires learning representations that retain information only pertaining to those desired factors while suppressing or being invariant to remaining “nuisance” factors. 1. 導入 データセットにおける変動の望ましい要因の分離には、希望する要因のみに関連する情報を保持する学習表現が必要であり、残りの「迷惑」要因に抑圧または不変である。 0.77
Unfortunately, many representations hide or miss some useful factors of variation in data, and this can lead to inferior performance in downstream applications. 残念なことに、多くの表現がデータの変化の有用な要因を隠蔽または見逃しているため、下流アプリケーションではパフォーマンスが低下する可能性がある。 0.57
For example, an image-based global positioning system will fail if the learned visual representation does not isolate the factor of variation associated たとえば、学習された視覚表現が関連する変動の要因を分離しない場合、画像ベースのグローバルポジショニングシステムは失敗します。 0.74
*Work done as part of the Google AI Residency program. ※Google AI Residencyプログラムの一環として実施。 0.71
with location. In designing approaches for such a task, the possibilities for the structure of the learned representation are inextricably linked to the types of supervision available. 場所と このようなタスクのためのアプローチを設計する場合、学習された表現の構造の可能性が利用可能な監督の種類と必然的に関連づけられる。 0.51
As an example, complete supervision of the desired factors of variation provides maximum flexibility in obtaining fully disentangled representations, where there is a simple and interpretable mapping between elements and the factors of the variation (Bengio et al , 2013; Higgins et al , 2018). 例として、変形の望ましい因子の完全な監督は、要素と変化の要因の間の単純かつ解釈可能なマッピング(Bengio et al , 2013; Higgins et al , 2018)が存在するような、完全に不整合表現を得る際の最大限の柔軟性を提供する。 0.73
However, such supervision is unrealistic for most tasks since many common factors of variation in image data, such as 3D pose or lighting, are difficult to annotate at scale in real-world settings. しかし、3dポーズや照明などの画像データのばらつきの一般的な要因の多くは、実世界の環境では注釈を付けるのが難しいため、ほとんどのタスクではそのような監督は現実的ではない。 0.58
At the other extreme, unsupervised representation learning makes the fewest limiting assumptions about the data but does not allow control over the discovered factors of variation. もう1つの極端に、教師なし表現学習は、データに関する最も限定的な仮定をしますが、発見された変動要因を制御できません。 0.50
The challenge is in designing a learning process that best utilizes the supervision that can be realistically obtained in different real-world scenarios. 課題は、異なる現実世界のシナリオで現実的に得ることができる監督を最も活用する学習プロセスを設計することである。 0.68
In this paper, we consider weak supervision in the form of set membership (Kulkarni et al , 2015; Denton & Birodkar, 2017). 本稿では,セットメンバシップの形での弱監督について考察する(Kulkarni et al , 2015; Denton & Birodkar, 2017)。 0.72
Specifically, this weak set supervision assumes only that we can curate subsets of training data where only the desired factors of variation to be isolated vary, and the remaining nuisance factors are fixed to same values. 具体的には、この弱い集合の監督は、孤立すべき変動の望ましい要因のみが異なる訓練データのサブセットをキュレートできると仮定し、残りの迷惑要因を同じ値に固定する。 0.76
We will refer to the factors that vary within a set as the active factors, and those that have fixed and same values as inactive. セット内で変動する要因をアクティブファクターとし、不アクティブ値と同じ値で固定した要因を非アクティブファクターと呼びます。 0.69
To illustrate this set supervision, consider the problem of isolating 3D object pose from images belonging to an object category (say, car images). この設定監督を説明するために、対象カテゴリに属する画像(例えば車画像)から3Dオブジェクトのポーズを分離する問題を考察する。 0.80
The weak set supervision assumption can be satisfied by simply imaging each object from multiple viewpoints. 弱い設定の監督仮定は、複数の視点から各オブジェクトを単純に撮像することで満足できる。 0.69
Note, this would not require consistency or correspondence in viewpoints across object instances, nor any target pose values attached to the images. これはオブジェクトインスタンス間のビューの一貫性や対応を必要としないし、イメージに付加されたターゲットのポーズ値も必要ない。 0.71
In practice, collecting multiple views of an object in a static environment is much more reasonable than collecting views of different objects with identical poses. 実際、静的な環境でオブジェクトの複数のビューを集めることは、同じポーズで異なるオブジェクトのビューを集めるよりもずっと合理的です。 0.83
In this paper we propose a novel approach for isolating factors of variation by formulating the problem as one of finding alignment between two sets with common active factors of variation. 本稿では,変動の共通活性因子を持つ2つの集合間のアライメントの1つとして問題を定式化することにより,変動の因子を分離する新しい手法を提案する。 0.75
Considering the application of synthetic-to-real 合成と現実の応用を考える 0.63
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Figure 1. Illustration of cycle consistency across sets (CCS). 図1。 集合(CCS)間のサイクル一貫性の図示。 0.73
CCS yields embeddings which isolate factors of variation in a dataset. CCSはデータセットの変動要因を分離する埋め込みを生成する。 0.74
It leverages weak supervision in the form of set membership, such as in the set of images A rendered around a given synthetic car (top, left). これは、与えられた合成車(トップ、左)の周囲に描画された画像Aの集合のように、設定されたメンバーシップの形で弱い監督を利用する。 0.58
The cycle consistency loss encourages finding correspondence between sets of inputs by extracting common factors that vary within both sets and suppressing factors which do not. サイクル整合性損失は、両方のセットで異なる共通因子を抽出し、そうでない因子を抑えることによって、入力の集合間の対応を見つけることを促進する。
訳抜け防止モード: サイクル整合損失は入力の集合間の対応を見つけるのに役立つ 両方のセットで異なる共通因子を抽出し、そうでない因子を抑えること。
0.75
We show that CCS isolates nontrivial factors of variation, such as pose in the example above, even when only one of the sets has been grouped. CCSは、上記の例のポーズのような変化の非自明な要因を、セットの1つだけがグループ化されている場合でも分離することを示した。 0.66
Importantly, this allows the incorporation of data with no supervision at all, such as the images of real cars (bottom, left). 重要なのは、これは実際の車(ボット、左)の画像など、監視なしでデータを組み込むことを可能にすることだ。 0.75
The learned representations (right, after training), contain only the isolated factor of variation (contrast the alignment here with the untrained representations shown in the middle). 学習された表現(トレーニング後の右)には、変化の孤立した要素(中央に示されている訓練されていない表現とのアライメント)のみが含まれる。 0.68
object pose transfer, Figure 1 illustrates two sample sets of car images where orientation is the only factor to actively vary in the first set A of synthetic car images. オブジェクトのポーズ転送、図1は、合成車画像の第1セットAにおいて、向きがアクティブに変化する唯一の要因である2つのカーイメージのサンプルセットを図示します。 0.74
The second set B is comprised of both real and synthetic car images, around a variety of car models, and also varying by pose. 第2セットBは、実車と合成車の両方の画像で構成され、さまざまな車モデルの周りにあり、ポーズによっても異なる。 0.73
Given multiple groupings of images into sets such as these, and no other supervision, the aim is to automatically learn representations that can find meaningful correspondences between elements of the two sets. 画像の複数のグルーピングをこれらのような集合にグループ化し、その他の監督は行わないと、2つの集合の要素間の有意義な対応を見出す表現を自動で学習することが目的である。 0.65
The key idea behind our approach is a novel utilization of cycle consistency. このアプローチの背後にある重要なアイデアは、サイクル一貫性の新たな利用です。 0.59
A cycle consistent mapping can be described broadly as a non-trivial mapping that brings an input back to itself. サイクル一貫したマッピングは、入力を自身に戻す非自明なマッピングとして広く説明することができる。 0.74
In our case, which we denote cycle consistency across sets (CCS), the mapping is a sequence of two operations: first to the nearest neighbor in a different set, and then the same operation back to the original set. 私たちの場合、集合 (ccs) にまたがるサイクル一貫性を示す場合、写像は2つの演算の列である: まずは別の集合の最も近い近傍に、次に元の集合に同じ演算を戻す。 0.69
It relies on a differentiable version of nearest neighbors (Goldberger et al , 2004; Movshovitz-Attias et al , 2017; Rocco et al , 2018; Snell et al , 2017; Dwibedi et al , 2019). それは最寄りの隣人の差別化可能なバージョンに依存しています(Goldberger et al , 2004; Movshovitz-Attias et al , 2017; Rocco et al , 2018; Snell et al , 2017; Dwibedi et al , 2019)。 0.86
Cycle consistency in this manner is achieved through a correspondence between elements of the sets; the correspondence forming the cycle is not known a priori. この方法でのサイクル整合性は集合の要素間の対応を通して達成される。
訳抜け防止モード: この方法でのサイクル整合性は、集合の要素間の対応を通して達成される ; サイクルを形成する対応は先入観とは知られていない。
0.69
We posit that the process of finding correspondences is crucial to isolating the desired factors of variation: to match across sets, the representations must ignore commonality within a set (the inactive factors) and focus on the active factors common to both the sets. 対応を見つける過程は、集合間で一致するためには、表現は集合内の共通性(不活性因子)を無視し、両方の集合に共通する活性因子に焦点を合わせなければならない。
訳抜け防止モード: 変化の望ましい要因の分離には対応関係を見つけるプロセスが重要であると仮定する。 集合をまたがって一致させる。 表現は集合内の共通性(不活性因子)を無視しなければならない。 両方のセットに共通する活動的要因に注目します。
0.72
For example, CCS-learned embeddings from the two sets of car images in Figure 1 can isolate the object pose as that is the common active factor across both sets. 例えば、図1の2つの車の画像からCCSを学習した埋め込みは、両方のセットで共通のアクティブな要素であるオブジェクトのポーズを分離することができる。 0.71
We evaluated the use of CCS with extensive experimental analysis. CCSの使用を広範な実験分析で評価しました。 0.71
We quantitatively demonstrate the use of CCS on a synthetic Shapes3D (Burgess & Kim, 2018) dataset where the latent factor values are known, allowing a quantitative analysis (Section 4.1). 我々は,CCSを潜在因子が知られている合成形状3D(Burgess & Kim, 2018)データセット上で定量的に使用することにより,定量的解析を可能にした(Section 4.1)。 0.71
Then in Section 4.2 we analyze the 次に、セクション4.2で分析します。 0.51
use of CCS isolating handwritten digit style from its content (class id). コンテンツ(クラスID)から手書きの桁スタイルを分離するCCSの使用。 0.78
In Section 4.3, we demonstrate the use of CCS in its more general form where set supervision is provided for only one of each pair of sets while the other is virtually unrestricted. 第4.3節では、集合監督が各集合の一方にのみ提供され、他方は事実上非制限であるような、より一般的な形式で CCS の使用を実演する。 0.60
Specifically, we use CCS to isolate 3D object pose in real images with a training process that combines a collection of set-supervised synthetic data with unsupervised real images i.e., without any supervision on real images during training. 具体的には、ccsを用いて実画像中の3dオブジェクトのポーズを分離し、トレーニング中の実画像の監視なしに、セット教師付き合成データと教師なし実画像のコレクションを結合するトレーニングプロセスを用いる。 0.72
2. Related work Isolating factors of variation. 2. 関連作業 変動の要因を分離する。 0.82
Representations that isolate underlying factors of variation in data can either be disentangled or entangled. データの変動の根本的な要因を分離する表現は、アンタングルまたはエンタングルすることができます。 0.55
Most approaches toward disentangled representations are unsupervised, and are generally based on generative modeling frameworks such as variational autoencoders (Kingma & Welling, 2014) or generative adversarial networks (Goodfellow et al , 2014). アンタングル表現に対するほとんどのアプローチは教師なしであり、一般的には変分オートエンコーダ(Kingma & Welling, 2014)や生成的対向ネットワーク(Goodfellow et al , 2014)のような生成的モデリングフレームワークに基づいている。 0.68
The VAE is a latent variable model that encourages disentanglement through its isotropic Gaussian prior, which is a factorized distribution. VAEは、因子化された分布である等方性ガウス前置法を通じて解束を促進する潜在変数モデルである。 0.69
In Locatello et al (2019) it is shown that true unsupervised disentanglement is impossible in generative models, and inductive biases or implicit supervision must be exploited. Locatello et al (2019) では、生成モデルでは真の教師なしの絡み合いは不可能であることが示され、帰納的バイアスや暗黙的な監督が利用されなければならない。
訳抜け防止モード: locationllo et al (2019) では 生成モデルでは真の教師なしの不連続は不可能であり、帰納的バイアスや暗黙的監督を悪用しなければならない。
0.48
Supervision has been incorporated in different ways. 監督は様々な方法で取り入れられている。 0.48
Graphical model structures are integrated into the encoder/decoder of a VAE to allow for partial supervision (Siddharth et al , 2017). グラフィックモデル構造は、部分的な監視を可能にするために、VAEのエンコーダ/デコーダに統合される(Siddharth et al , 2017)。 0.65
In Sanchez et al (2020) disentanglement without generative modeling is proposed employing similar set supervision, but requires sequential training to learn all the factors of variation so that those varying across a set may be encoded. Sanchez et al (2020)では、生成的モデリングを伴わない非絡み合いが同様の集合の監督法を用いて提案されているが、連続的なトレーニングでは、集合間で異なる要素が符号化されるように変化のすべての要因を学習する必要がある。 0.54
In contrast to these approaches, CCS produces entangled representations which directly target and isolate factors of variation complementary to those for which the set supervision is known. これらのアプローチとは対照的に、CCSは、設定された監督が知られているものと相補的な変動の要因を直接的・分離する絡み合った表現を生成する。 0.57
Set supervision. For recovering semantics, there exists sev2 監督を設定。 セマンティクスを回復するために、sev2があります 0.45
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Figure 2. Sets with different active and inactive factors of variation from the Shapes3D dataset (Burgess & Kim, 2018). 図2。 Shapes3Dデータセット(Burgess & Kim, 2018)から異なるアクティブおよび非アクティブ要因をセットします。 0.78
On the left, we have the same active factor of variation for both sets. 左側では、両方の集合の変動の活性因子が同じである。 0.70
In the middle, we have some overlapping active factors of variation. 中間では、変化のいくつかの重複する活性因子があります。 0.64
On the right, we have no known inactive factor of variation for set B. 右側では、集合 B の変動の非活性因子は知られていない。 0.76
We find CCS to be effective in all three scenarios. CCSは3つのシナリオで有効であると考えています。 0.65
eral self-supervision methods (Chen et al , 2020; Misra & van der Maaten, 2019) that rely on elaborate data augmentation and self-supervision tasks such as jigsaw and rotations. 精巧なデータ拡張とジグソーやローテーションのような自己超越的なタスクに頼っているエラルな自己超越法(Chen et al , 2020; Misra & van der Maaten, 2019)。 0.63
Augmentation can be effective if it is known how factors of variation act on the image space, but this is only true for some fully observable factors such as 2D position and orientation. 拡大は、変化の因子が画像空間にどのように作用するかが分かっていれば有効であるが、これは2次元の位置や向きなどの完全に観測可能な要因にのみ当てはまる。 0.74
This restriction similarly applies to models that bake transformations into the architecture, as with spatial transformers (Hinton et al , 2011) or capsules (Jaderberg et al , 2015). この制限は同様に、空間トランスフォーマー(hinton et al , 2011)やカプセル(jaderberg et al , 2015)のように、アーキテクチャへの変換を焼くモデルにも適用される。 0.80
In practice, getting full supervision with ground truth parameters for geometric entities such as lighting and pose is challenging. 実際には、照明やポーズなどの幾何学的実体のための地上の真実のパラメータを完全に監督することは困難です。
訳抜け防止モード: 実際には、照明やポーズなどの幾何学的実体に対する地上の真理パラメータによる完全な監督 挑戦的です
0.69
On the other hand, one can often capture videos where we fix one or more of these factors of variation, and allow the others to vary. 一方で、これらの要因の1つまたは複数を修正した動画をキャプチャして、他の要素を変更できる場合も少なくない。 0.67
This form of set supervision is a good tradeoff between labor-intensive manual annotation required for fully supervised methods, and fully self-supervised methods. この形式のセット管理は、完全に監督された方法に必要な労働集約的なマニュアルアノテーションと、完全に自己管理された方法との良好なトレードオフである。 0.46
In this work, we are interested in isolating geometric factors of variation such as pose that are difficult to annotate. 本研究では,アノテートが困難であるポーズなどの変化の幾何学的要因を分離することに興味がある。 0.66
In order to do this, we rely on set supervision (Kulkarni et al , 2015; Mathieu et al , 2016; Cohen & Welling, 2015; Sanchez et al , 2020; Jha et al , 2018; Bouchacourt et al , 2018). そのために私たちは,セット管理(Kulkarni et al , 2015; Mathieu et al , 2016; Cohen & Welling, 2015; Sanchez et al , 2020; Jha et al , 2018; Bouchacourt et al , 2018)に依存しています。 0.87
In Cohen & Welling (2015) the latent representations of the training images are optimized limiting view synthesis to objects seen at training time. Cohen & Welling (2015) では、トレーニング画像の潜在表現は、トレーニング時に見られるオブジェクトに対するビュー合成に最適化されている。 0.67
Cycle consistency has also been used in disentangling factors of variation with variational autoencoders using weak supervision in the form of set supervision (Jha et al , 2018; Bouchacourt et al , 2018). サイクル整合性はまた、セット監視の形で弱い監督(Jha et al , 2018; Bouchacourt et al , 2018)を用いた変分オートエンコーダによる変動の要因の解消にも用いられている。 0.76
Cycle consistency. Often, cycle consistency has been used as a constraint for establishing point correspondences on images (Zhou et al , 2016; Oron et al , 2016) or 3D point clouds (Yang et al , 2020; Navaneet et al , 2020). サイクル一貫性。 多くの場合、サイクル一貫性は画像上の点対応(Zhou et al , 2016; Oron et al , 2016)や3D点雲(Yang et al , 2020; Navaneet et al , 2020)を確立するための制約として用いられる。 0.75
In a different setting, the time window between the image frames of Atari games can be learned using a discrete version of cycle consistency (Aytar et al , 2018). 異なる設定では、Atariゲームの画像フレーム間の時間ウィンドウは、個別バージョンのサイクル一貫性を用いて学習することができる(Aytar et al , 2018)。 0.75
In contrast to Aytar et al (2018), we use a discriminative approach and do not recover a disentangled representation. Aytar et al (2018) とは対照的に、差別的アプローチを用い、非絡み合った表現を復元しない。 0.69
Several methods have used soft nearest neighbors for enforcing cyclic consistency (Goldberger et al , 2004; Movshovitz-Attias et al , 2017; Rocco et al , 2018; Snell et al , 2017; Dwibedi et al , 2019). いくつかの方法は、循環整合性(Goldberger et al , 2004; Movshovitz-Attias et al , 2017; Rocco et al , 2018; Snell et al , 2017; Dwibedi et al , 2019)を強制するために柔らかい近隣の隣人を使用しています。 0.75
In contrast to many of these methods that focus on それらに焦点をあてる多くの方法とは対照的に 0.70
specific applications, such the temporal correspondences across time in videos (Dwibedi et al , 2019), we show a general approach that is applicable on a larger class of problems. ビデオ(Dwibedi et al , 2019)における時間にわたる時間的対応のような特定のアプリケーションでは、より大きなクラスの問題に適用可能な一般的なアプローチを示します。 0.82
In particular, we show that the set supervision need not be available for all the data points, and we can train models with some fraction of fully unsupervised data. 特に,すべてのデータポイントに対して,データセットの監督を行う必要はなく,ある程度の教師なしデータでモデルをトレーニングできることを示す。 0.67
3D pose aware representations. 3Dポーズ認識表現。 0.74
An important factor of variation for many image tasks is 3D object pose, and not surprisingly there have been attempts to learn representations which encode this property. 多くの画像タスクにおける変化の重要な要因は、3Dオブジェクトポーズであり、このプロパティをエンコードする表現を学ぶ試みは意外とありませんでした。 0.69
The SO(3)-VAE (Falorsi et al , 2018) places a uniform prior on the 3D rotation group SO(3), which allows learning manifold-valued latent variables. SO(3)-VAE (Falorsi et al , 2018) は、3次元回転群 SO(3) に先行してユニフォームを配置し、多様体値の潜在変数の学習を可能にする。 0.69
Latent representations that are pose-equivariant have been proposed in Worrall et al (2017); Rhodin et al (2018), and this allows for pose to be directly transformed in the latent space. ポーズ-同変である潜在表現は、Worrall et al (2017)、Rhodin et al (2018) で提案されており、これはポーズを直接潜在空間で変換することができる。 0.57
Generative techniques for pose disentanglement include Kulkarni et al (2015); Yang et al (2015a). ポーズ・アンタングルのための生成技術としては、Kulkarni et al (2015)、Yang et al (2015a)がある。 0.49
In (Kulkarni et al , 2015) a simplistic experimental setting is considered (fewer factors of variation with synthetic or grayscale images, and disentangling only the 1D azimuth angle). Kulkarni et al , 2015)では、単純な実験設定が考慮されている(合成画像またはグレースケール画像の変動の少ない要因、および1D方位角のみを分離する)。 0.69
3. Approach The key intuition behind our approach is rather simple. 3. アプローチ 私たちのアプローチの背後にある重要な直感はかなり簡単です。 0.71
Imagine receiving two sets of images, and being asked to match each image in the first set with exactly one image in the second set, and vice versa. 2セットの画像を受け取り、第1セットの各画像と第2セットのちょうど1つの画像と一致させるように求められ、その逆を想像してください。 0.74
Once finished, another two sets are presented, and the process is repeated. 完了すると、さらに2つのセットが提示され、プロセスが繰り返される。 0.81
While repeatedly matching several pairs of sets, we learn to isolate the common factors of variation present in both the sets. 複数組の集合を繰り返しマッチングしながら、両方の集合に存在する変動の共通要因を分離することを学ぶ。 0.78
Notation: We are given a finite set of n training samples S = {x1, . 記法: n 個のトレーニングサンプル S = {x1, の有限集合が与えられる。 0.74
. . , xn}, where xi ∈ X , and X denote the instance space with dimensions D. Let φ(x, w) : X → RE be the encoder or the function that maps the input vector to an embedding in E-dimensional space. . . φ(x, w) : x → re をエンコーダあるいは入力ベクトルを e-次元空間への埋め込みに写像する関数とする。
訳抜け防止モード: . . ,xn }, ここで xi ∈ X, and X は次元 D のインスタンス空間を表す。 w ) : X → RE はエンコーダまたは関数です。 入力ベクトルを E 次元空間に埋め込みます。
0.79
Our goal is to learn this function by minimizing a cyclic consistency loss, which we describe below. 私たちの目標は、以下の循環的一貫性損失を最小化することで、この関数を学ぶことです。 0.67
Mini-batch construction using set-membership: Our goal is to learn φ : X → RE such that the learned representations isolate certain desired factors of variation and are invariant to certain other factors of variation. 我々のゴールは φ : X → RE を学習することであり、学習された表現は変分のある所望の因子を分離し、変分のある他の要因に不変である。 0.72
Core to 3 Core to 3 0.85
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
the method is how the data is grouped: the affinity cycle consistency loss operates on sets, and strives to obtain 1-1 correspondence between two sets of points in the embedding space (Dwibedi et al , 2019). affinity cycle consistency loss は集合上で動作し、埋め込み空間内の2つの点の集合間の 1-1 対応を求める(dwibedi et al , 2019)。 0.60
In the experiments of this paper, we either leverage natural groupings of images or, in the pursuit of insight, curate images into sets for mini-batch construction. 本論文の実験では,画像の自然なグループ化を利用するか,あるいはインサイトを追求するために,ミニバッチ構築のために画像をセットにキュレートする。 0.72
Let us refer to the two sets of images for a particular minibatch by A ⊂ X and B ⊂ X . 特定のミニバッチに対する2つの画像の集合を A > X と B > X によって参照する。 0.75
In Figure 2, we show sets with several active and inactive factors of variation from the Shapes3D dataset (Burgess & Kim, 2018). 図2では、Shapes3Dデータセット(Burgess & Kim, 2018)からの変動のいくつかのアクティブおよび非アクティブ要因のセットを示します。 0.74
In the most restrictive setting, both sets have identical active and inactivate factors of variation as shown in Figure 2(left); this was the case of (Dwibedi et al , 2019). 最も制限的な設定では、両方の集合は図2(左)に示すように、同一の活性因子と不活性化因子を持ち、これは (Dwibedi et al , 2019) の場合である。 0.71
CCS also functions in less restrictive scenarios where a subset of active factors of variation are shared between sets, as in Figure 2(middle), to the extreme where one of the sets is completely unconstrained without any inactive factors of variation, as in Figure 2(right). CCSはまた、図2(中)のように、変動の活性因子のサブセットが集合間で共有されるような制約の少ないシナリオでも機能し、図2(右)のように、集合の1つが変動の非活性因子なしで完全に制約されない極端に機能する。 0.81
Let the images in each of these sets be given by A = {a1, . これらの集合のそれぞれの像を a = {a1, .} で与えられる。 0.77
. . , an} and B = {b1, . . . , an} および B = {b1, 。 0.85
. . , bm}, respectively. . . , bm} であった。 0.78
Let us denote the associated embeddings as L = {l1, . 関連する埋め込みを L = {l1, .} と表す。 0.71
. . , ln} and M = {m1, . . . , ln} と M = {m1, . 0.87
. . , mm}, where li = φ(ai, w) and mi = φ(bi, w). . . ここで li = φ(ai, w) と mi = φ(bi, w) である。 0.80
Functionally, we parameterize φ with the same neural network for both A and B. 機能的には、AとBのどちらも同じニューラルネットワークでφをパラメータ化する。 0.74
Let d(x, y) denote a distance metric between points in embedding space. d(x, y) を埋め込み空間における点間の距離計量を表す。 0.79
The notion of cycle consistency is used in many different contexts, and we use the following definition. サイクル一貫性の概念は多くの異なる文脈で使われ、以下の定義を使用します。 0.78
Definition 1 (Cycle consistency) Given two sets of points L = {l1, . 定義 1 (サイクル整合性) 2つの点 L = {l1, が与えられる。 0.74
. . , ln} and M = {m1, . . . , ln} と M = {m1, . 0.87
. . , mm}, we say that li ∈ L is cycle consistent if li = arg minl∈L d(m, l) where m = arg minm∈M d(li, m). . . もし Li = arg minl∂L d(m, l) ならば、l ∈ L はサイクル整合であるとは言うが、m = arg minm∂M d(li, m) である。 0.85
In other words, we say that a point li ∈ L is cycle consistent if its nearest neighbor m ∈ M also has li as its nearest neighbor in L. In order to use cycle consistency as our loss function, we will use a differentiable formulation of the cycle consistency loss. 言い換えれば、ある点 li ∈ L がサイクル整合であるとは、その近傍の m ∈ M が L の隣点 Li を L の隣点として持つことであり、サイクル整合性を損失関数として使うために、サイクル整合損失の微分可能な定式化を用いる。 0.74
To get a differentiable loss, we approximate the nearest neighbor with soft nearest neighbor (Goldberger et al , 2004), which has also been used in many applications (Movshovitz-Attias et al , 2017; Rocco et al , 2018; Snell et al , 2017). 差別化可能な損失を得るために、我々はまた、多くのアプリケーション(Movshovitz-Attias et al、2017;ロッコら、2018;Snell et al、2017)で使用されている柔らかい最寄りの隣人(Goldberger et al、2004)と最寄りの隣人を近似します。 0.68
Definition 2 (Soft nearest neighbor) Given two sets of points L = {l1, . 定義 2 (Soft nearest neighbor) 2つの点集合 L = {l1, . を与える。 0.85
. . , ln} and M = {m1, . . . , ln} と M = {m1, . 0.87
. . , mn}, the ˜m =(cid:80)n soft nearest neighbor of li ∈ L in the set M is given by (cid:80)n −d(li,mj )/τ k=1 e−d(li,mk )/τ and τ is j=1 αjmj, where αj = e a temperature parameter. . . , mn} において、集合 M における Li ∈ L のソフトな近傍は (cid:80)n −d(li,mj )/τ k=1 e−d(li,mk )/τ で与えられるが、τ は j = 1 αjmj であり、αj = e は温度パラメータである。 0.85
(cid:80)n We first compute the soft nearest neighbor for li ∈ L as ˜m = j=1 αjmj. (cid:80)n まず、li ∈ l のソフトな最寄りの近傍を sm = j=1 αjmj として計算する。 0.60
To satisfy the cyclic consistency constraint, li should cycle back to itself. 周期的一貫性の制約を満たすために、 li はそれ自身に循環するべきである。 0.56
In order to enforce this, the nearest neighbor of ˜m should be li. これを強制するためには、最も近い隣人は li であるべきである。 0.67
In the differentiable in the differentiable―in the differentiable 0.48
formulation, we map the problem of cycling back to li as a classification problem (Dwibedi et al , 2019). 公式、我々は分類問題としてLiにサイクリングの問題をマップします(Dwibedi et al 、 2019)。 0.66
Given that we have n points in L, we compute n logits given by oj = −d( ˜m, lj),∀j ∈ {1, . L に n 個の点があることを考えると、 oj = −d( sm, lj) によって与えられる n の対数を計算する。 0.70
. . , n} and let ˆs = softmax(o). . . , n} とし、 s = softmax(o) とする。 0.84
Let s cross-entropy loss function(cid:80)n denote the 1-hot encoding where sj = 1 and zero otherwise. s のクロスエントロピー損失関数(cid:80)n は 1-ホットエンコーディングを表し、sj = 1 と 0 である。 0.70
Now the cyclic consistency constraint is enforced as the j=1 −sjlog(ˆsj). 現在、環整合性制約は j=1 −sjlog(sj) として強制される。 0.63
Note that the loss naturally prevents point collapse in embedding space as a trivial solution, because the softmax output compares the cycle back to the affinity of all points in L. Double augmentation: In practice, real images can have many more active factors of variation than those which we desire to isolate. ソフトマックス出力はL. Double augmentationのすべての点の親和性と比較するので、損失は自明な解決策として空間を埋め込む際の点崩壊を自然に防ぐことに注意してください。
訳抜け防止モード: 損失は自明な解として埋め込み空間の点崩壊を自然に防ぐことに注意してください。 Softmax出力はL. Double augmentationのすべての点の親和性と比較するためです。 実際には、実際の画像は、私たちが孤立させたいものよりも多くの能動的な変化要因を持つことができます。
0.58
We introduce a simple modification to the above method in order to suppress nuisance factors of variation in images which are easily augmented. そこで本稿では,画像の変形のニュアンス要因を抑えるため,上述の手法に簡単な修正を加えている。 0.71
Instead of enforcing cycle consistency from an image ai ∈ A to its soft nearest neighbor in B and then back to ai, we allow the cycling back constraint to start from one augmentation of an image a(cid:48) i and return back to another augmentation of the same image a(cid:48)(cid:48) i . 画像 ai ∈ A から B の軟部近傍へのサイクル一貫性を強制し、その後 ai に戻る代わりに、サイクリングバック制約を画像 a(cid:48) i の1つの増分から開始し、同じ画像 a(cid:48)(cid:48) i の別の増分に戻る。 0.69
By carefully selecting the augmentations a(cid:48) i and a(cid:48)(cid:48) i along certain active factors of variation, we can learn embeddings that are invariant to nuisance active factors of variation. 拡張 a(cid:48) i と a(cid:48)(cid:48) i を変動の特定の活性因子に沿って慎重に選択することで、変動のニュアサンス活性因子に不変な埋め込みを学ぶことができる。 0.71
We found the double augmentation to be critical in our pose transfer experiments involving real and synthetic cars in section 4.3. 我々は、セクション4.3で実車と合成車を含むポーズ転送実験において、二重増分が重要であることを発見した。 0.58
4. Experiments We evaluate CCS’s ability to isolate desired factors of variation in three settings: Shapes3D (Burgess & Kim, 2018), digit style isolation, and object 3D pose transfer from synthetic to real images. 4. 実験 CCS が望まれる変化要因を3つの設定で分離する能力を評価する。Shapes3D (Burgess & Kim, 2018), ディジットスタイルの分離, オブジェクト3D ポーズの合成画像から実画像への変換。 0.85
4.1. Systematic Evaluations on Shapes3D We quantitatively analyze CCS with the synthetic Shapes3D (Burgess & Kim, 2018) dataset, where we can freely control the active and inactive factors of variation in each set and measure quantities of interest in order to elucidate the inner workings of the method. 4.1. 形状3Dの体系的評価 合成形状3D(Burgess & Kim, 2018)データセットを用いてCCSを定量的に解析し, 各集合の変動の能動的および不活性な要因を自由に制御し, 興味の量を測定し, 方法の内部動作を解明する。 0.76
Sample images from Shapes3D are shown in Figure 3 and consist of a geometric primitive with a floor and background wall. Shapes3Dのサンプル画像は図3に示され、床と背景の壁を備えた幾何学的プリミティブで構成されています。 0.67
There are six factors of variation in the dataset: three color factors (wall hue, object hue and floor hue) and three geometric primitive factors (scale, shape and orientation). データセットには3つの色因子(壁色、物体色、床色)と3つの幾何学的原始的要因(スケール、形状、配向)の6つの要因があります。 0.75
The full dataset consists of every possible combination of these six discrete generative factors. 全データセットは、これら6つの離散生成因子のあらゆる組み合わせから成り立っている。 0.69
In order to train CCS with a particular generative factor inactive, for each training step we randomly sample from among its possible values and hold it fixed across a set of inputs, while sampling uniformly across the remaining factors to generate a set of size 32. 特定の生成因子でCCSを非アクティブに訓練するために、各トレーニングステップでは、可能な値のうちからランダムにサンプリングし、入力のセットをまたいで固定し、残りの要因を均一にサンプリングしてサイズ32のセットを生成する。 0.77
For example, Figure 3a shows two example sets with wall hue as an inactive factor. 例えば、図3aは壁色を不活性因子とする2つの例を示す。 0.83
We train a network to embed the images into two dimensions and visualize one set of learned representations in Figure 3b; the mutual information between object and floor hues and the 4 イメージを2次元に埋め込むためのネットワークを訓練し、図3bで学んだ表現の1つのセットを視覚化します。
訳抜け防止モード: 画像を2次元に埋め込むネットワークを訓練し 図3bに1組の学習表現を視覚化します。オブジェクトとフロアhuesと4の相互情報です。
0.79
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Figure 3. Isolating generative factors of Shapes3D. 図3。 形状3Dの生成因子の分離 0.72
(a) An example pair of training sets with wall hue as the only inactive factor. (a)wall hueを唯一の不活性因子とするトレーニングセットの例。 0.72
(b) We train CCS on image sets as in (a) and embed to 2D. b) 画像集合上で (a) のように CCS を訓練し、2D に埋め込みます。 0.78
Each of the six plots displays the embeddings of the same 256 images, colored by their value for each generative factor. 6つのプロットのそれぞれは、各生成因子の値によって着色された同じ256画像の埋め込みを表示します。 0.77
The bar chart shows mutual information between each of the factors and the learned representation. バーチャートは、各要素と学習した表現の間の相互情報を表示する。 0.75
(c) We repeat the experiments with 50 random seeds and display the spread in mutual information values as a violin plot. (c)無作為種子50種による実験を繰り返し、バイオリンプロットとして相互情報値の拡散を表示する。 0.78
Each subplot shows a different split of active/inactive factors during training; for reference the output from an untrained network is displayed in black. 各サブプロットはトレーニング中に異なるアクティブ/非アクティブな要素を示し、トレーニングされていないネットワークからの出力は黒で表示される。 0.70
In the middle two subplots, we compare to the setting with one unconstrained input set, i.e. 中間の2つの部分プロットでは、制約のない1つの入力セット、すなわち、設定と比較する。 0.59
no inactive factors of variation. 変動の非活性な要因は ありません 0.63
The bottom subplot compares to a contrastive method which augments the overall hue of each image twice and uses the two versions as a positive pair. 下位のサブプロータは、各画像の全体的な色合いを2倍に増やし、2つのバージョンを正のペアとして使用するコントラスト法と比較する。 0.64
In each setting, CCS successfully suppresses information about inactive factor(s) of variation and enhances information about active factors. 各設定において、CSは変動の不活性因子に関する情報をうまく抑制し、活性因子に関する情報を強化する。 0.77
learned embedding is qualitatively evident. 学習した埋め込みは 質的に明らかです 0.57
We measure the mutual information I(U ; G) between each of the generative factors and the embeddings (see Supp. それぞれの生成因子と埋め込みの相互情報I(U ; G)を測定する(Supp参照)。 0.60
), and repeat each experiment for 50 random seeds. で,各実験を50種類のランダム種子で繰り返した。 0.79
In each subplot of Figure 3c, we experiment with different factors inactive during training. 図3cの各サブプロットでは、トレーニング中に異なる要因を実験します。 0.70
We show the (nonzero) mutual information present even in the output from an untrained network, as well as the result of training without any set supervision. 我々は、訓練されていないネットワークから出力された(ゼロでない)相互情報と、設定された監督を伴わないトレーニングの結果を示す。 0.71
In this baseline, all generative factors are active during training and nothing is suppressed in the learned embeddings. このベースラインでは、すべての生成要因はトレーニング中にアクティブであり、学習された埋め込みでは抑制されない。 0.63
Interestingly, without supervision, there arises a significant distinction between the hue factors and the others, presumably out of salience with respect to the network’s capabilities. 興味深いことに、監督なしでは、ネットワークの能力に関して、おそらくサリエンスから、色相と他の要素の間に大きな違いが生じる。 0.58
The subsequent subplots in Figure 3c show the result of training with various generative factor(s) rendered inactive, indicated by a shaded box. その後の図3cのサブプロットは、シェードボックスで示される様々な生成因子(s)を非アクティブにレンダリングしたトレーニングの結果を示している。 0.70
Clear trends arise which allow a more precise definition of active factor isolation: information with respect to the inactive factors is noticeably suppressed while information about the remaining factors is enhanced in the learned representation. 活性因子の分離のより正確な定義を可能にする明確な傾向が発生します。非活性因子に関する情報は、学習された表現で残りの因子に関する情報が強化されている間、顕著に抑制されます。
訳抜け防止モード: 活性因子分離をより正確に定義できる明確な傾向が生じる :不活性な要因に関する情報が顕著に抑制される 残りの要因に関する情報は 学習された表現において 強化される。
0.81
In other words, given weak supervision in the form of groupings, CCS leads to learned representations which isolate factors of variation about which nothing was known beforehand. 言い換えれば、集団の形での弱い監督を考えると、CCSは学習された表現につながり、事前に知られていなかった変化の要因を分離する。 0.58
When all three hue factors are inactive we see scale, shape, and orientation feature most prominently in the learned repre- 3つの色相がすべて非アクティブであるとき、スケール、形状、オリエンテーションは学習されたレプリで最も顕著に特徴があります。
訳抜け防止モード: 3つの色調因子がすべて不活性であるとき 学習された反省において最も顕著なスケール、形状、および向きの特徴
0.69
sentations, seemingly because the ‘easy’ hue factors have all been suppressed. 安易な」色合いの要因がすべて抑制されているからです。 0.57
Additionally, we compare to semi-supervised scenarios where only set A had supervision (inactive factors) and set B consisted of random samples over the entire dataset. さらに、データセット全体にわたってランダムなサンプルで構成された集合 A の監督(非アクティブ要因)と集合 B のみを持つ半監視シナリオと比較する。 0.73
Strikingly, there was no significant change in the information content of the generative factors in the learned representations, meaning CCS performs as well in the much looser setting. 驚くべきことに、学習された表現における生成因子の情報内容に有意な変化はなく、CCSははるかに緩い設定でも同様に機能する。 0.65
Finally, in the bottom subplot of Figure 3c, we compare CCS results where all hue factors were inactive, to the case of hue double augmentation which suppresses all hue information from the learned embeddings. 最後に、図3cの下位部分では、すべての色調因子が不活性なCCS結果と、学習された埋め込みから全ての色調情報を抑圧する色調倍増の場合を比較した。 0.66
While the factor isolation effects are more pronounced in the latter, we emphasize that augmenting away nuisance factors is often not possible. 因子分離効果は後者の方が顕著であるが,ニュアサンス因子の増強は不可能であることが多いことを強調する。 0.69
This is the case in the middle two subplots, where augmenting hue would suppress all three hue factors indiscriminately and inhibit information with respect to the active variables. これは中二段星の場合で、拡大色相は3つの色相の全てを無差別に抑制し、能動変数に関する情報を阻害する。
訳抜け防止モード: 中間の2つのサブプロットのケースです hueの強化は3つのhue因子を無差別に抑制し、活性変数に関する情報を抑制する。
0.69
Thus CCS and double augmentation are complementary tools to operate on factors of variation in a dataset. したがって、CCSとダブル拡張はデータセットの変動要因を補完するツールである。 0.68
4.2. Digit Style Isolation Handwritten digits, such as those from MNIST (LeCun & Cortes, 1998), have two main factors of variation: content and style. 4.2. MNIST(LeCun & Cortes, 1998)のようなDigit Style Isolation Handwriting digitsには、内容とスタイルという2つの主な変化要因があります。 0.76
Here, content refers to the class of the digit (e g , 5 ここで、内容は数字のクラス(例:5)を参照します。 0.78
abc abc 0.85
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Figure 4. Style isolation in MNIST. 図4。 MNISTのスタイル分離。 0.74
We define digit style as a combination of all factors of variation independent of the class. ディジットスタイルは、クラスに依存しない変化のすべての要因の組み合わせとして定義します。 0.67
After training CCS with images grouped by digit, we evaluate the isolation of the style factors. 数値でグループ化された画像でCCSをトレーニングした後、スタイルファクタの分離を評価します。 0.62
We visualize embeddings from the test set using the top two PCA dimensions (accounting for more than 0.99 of the total variance in the trained embeddings). テストセットからの埋め込みを、上位2つのpca次元(トレーニングされた埋め込みの合計分散の0.09以上)を用いて可視化する。 0.67
Before the network is trained, all the embeddings cluster together (top left), while after training (top middle) the embeddings fan out by style factors, primarily thickness and slant (this can be observed both within and across digits). ネットワークがトレーニングされる前に、すべての埋め込みクラスタ(左上)が一緒になり、トレーニング(中央上)の後、埋め込みは主に厚さと傾斜(これは数字の内部と横断の両方で観察できます)のスタイルファクタによってファンが集まります。 0.73
The digit 9 is held out at training, yet embeddings of 9s (bottom middle) are similarly arranged by thickness and slant, showing CCS generalizes to unseen inactive factor values. ディジット9はトレーニング時に保持されるが、9s(ボトム中間)の埋め込みも同様に厚みとスラントで配置され、CCSは非活性因子値に一般化される。 0.72
On the right we show retrieval results, where the boxed images along the diagonal are queries and the other images in each row are the nearest embeddings for each digit class (all from the test set). 右側には、対角線に沿ってボックス化された画像がクエリであり、各行の他の画像が各桁クラスの最も近い埋め込みである検索結果が表示されます(すべてテストセットから)。 0.80
CCS retrieves images closer in style than CC-VAE (Jha et al , 2018), a generative approach which also utilizes set supervision. CCSはCC-VAE(Jha et al , 2018)よりも近いスタイルで画像を取得します。
訳抜け防止モード: CCS は CC - VAE (Jha et al, 2018) よりも近いスタイルの画像を検索する。 設定管理も活用する生成的アプローチ。
0.72
Notably, CCS required 100x fewer training steps, highlighting a benefit of learning partial descriptions through discriminative approaches as compared to generative models. 特にccsは、生成モデルと比較して差別的アプローチを通じて部分的記述を学ぶ利点を強調し、100倍のトレーニングステップを必要とした。 0.55
2 or 8) and the rest of the factors of variation can be referred to as style (stroke width, orientation, writing style etc.). 2または8)であり、残りの変化要因はスタイル(ストローク幅、向き、書体など)と呼ぶことができる。 0.67
In this experiment, our aim is to learn embeddings that isolate digit style while being invariant to the digit class, with only set supervision on the digit class. この実験では、digitクラスに不変でありながらdigitスタイルを分離する埋め込みを学習し、digitクラスにのみ監督することを目的としている。 0.76
We group images by class into sets of size 64 and embed to 8D using a convolutional network (See Supplemental Material for specifics). 画像はクラス別に64サイズの集合にグループ化し,畳み込みネットワークを用いて8dに埋め込む(詳細は補足資料を参照)。 0.76
Images of the digit 9 are held out from training to probe the invariance of the learned embeddings to digit class. ディジット9の画像は、学習された埋め込みのディジットクラスへの不変性を調べるためにトレーニングから保持される。
訳抜け防止モード: ディジット9の画像はトレーニングから切り離される 学習した埋め込みの 数値クラスへの不変性を調査するためです
0.76
Figure 4 (left) shows two-dimensional PCA plots of the learned embeddings next to those of untrained embeddings. 図4(左)は、学習された埋め込みの2次元PCAプロットを訓練されていない埋め込みの隣に示します。 0.60
The PCA plots clearly indicate the stronger correlation between digit style (width, orientation etc.) PCAプロットは、桁スタイル(幅、向きなど)間の強い相関を明確に示します。 0.79
and the learned embeddings in comparison to untrained embeddings. 学習した埋め込みを 学習していない埋め込みと比較します 0.53
As further analysis, we use test digits from each of the 10 classes to retrieve the nearest neighbor digits in other classes in Figure 4 (right). さらに分析するために、図4(右)の他のクラスの隣り合う数字を検索するために、各10クラスのテストディジットを使用します。 0.75
We compare to the representations yielded by two VAE-based approaches which utilize set supervision to separate factors of variation: CC-VAE (Jha et al , 2018) in Figure 4 and ML-VAE (Bouchacourt et al , 2018) in the Supplemental Material. 本稿では, CC-VAE (Jha et al , 2018) と ML-VAE (Bouchacourt et al , 2018) の2つの相違要因に対して, セット・インスペクションを利用するVAEベースの手法による表現と比較する。 0.77
Without having to learn a full description of the data, CCS yields style-correlated embeddings 100 times faster than the related generative approaches. データの完全な説明を学ぶことなく、CCSはスタイル関連埋め込みを関連する生成アプローチの100倍速く生成します。 0.78
This demonstrates the superior potential of CCS to isolate digit style without using any explicit supervision on styles. このことは、CCSが明確なスタイルの監督を使わずにディジットスタイルを分離する可能性を示している。 0.55
4.3. Pose Transfer from Synthetic to Real Images We showcase the unique capabilities of CCS on the challenging task of 3D pose estimation of an object in an image. 4.3. Pose Transfer from Synthetic to Real Images 画像中の物体の3Dポーズ推定という課題に対して、CCSのユニークな機能を紹介します。 0.73
A common data setting, in which there is an abundance of synthetic data combined with unannotated real data, plays to the strengths of CCS. 共通データ設定は、大量の合成データと注釈のない実データとが組み合わさったものであり、CCSの強みに寄与する。 0.71
The method allows us to isolate pose information in learned representations by leveraging natural groupings of synthetic images where pose is the only active variable, even without any pose annotations at training. 本手法では,ポーズアノテーションがなくても,ポーズが唯一のアクティブ変数である合成画像の自然なグルーピングを活用することで,学習表現中のポーズ情報を分離することができる。 0.69
Additionally, an unconstrained second set provides a means to gradually incorporate unannotated real images which helps generalize object pose from the synthetic domain to the real. さらに、制約のないセカンドセットは、アノテーションのない実像を徐々に組み込む手段を提供し、オブジェクトポーズを合成ドメインから実体へ一般化するのに役立つ。 0.62
We use the dataset included in KeypointNet (Suwajanakorn et al , 2018), which consists of renderings of ShapeNet (Chang et al , 2015) 3D models from viewpoints which are randomly distributed over the upper hemisphere. 私たちは、上半球にランダムに分布する視点からShapeNet(Chang et al , 2015)3Dモデルのレンダリングで構成されるKeypointNet(Suwajana korn et al , 2018)に含まれるデータセットを使用します。 0.88
Set supervision is provided by grouping images according to their source 3D model (as in the upper image set of Figure 1). 設定監督は、ソース3Dモデルに従って画像をグループ化する(図1の上画像セットのように)。 0.75
Other factors of variations such as object texture, lighting are also fixed, making viewpoint the only active factor within each set. 物体のテクスチャや照明などの他の要因も固定されており、それぞれのセットの中で唯一アクティブな要素となる。 0.67
We pair the synthetic images with real images from the CompCars (Yang et al , 2015b) and Cars196 (Krause et al , 2013) datasets for the car category, and 1000 images from the Pascal3d+ (Xiang et al , 2014) training split for chairs. 合成画像をCompCars (Yang et al , 2015b) とCars196 (Krause et al , 2013) の車種別データセットの実際の画像と組み合わせ,Pascal3d+ (Xiang et al , 2014) の椅子用トレーニング分割画像1000枚を合成した。 0.83
All images are tight cropped and 6 すべての画像がきつく切り抜かれ 6枚です 0.64
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Figure 5. Retrieval results from CCS and ResNet embeddings. 図5。 CCSとResNetの埋め込みによる検索結果。 0.72
For each query image from the Pascal3D+ test split, we display the four nearest neighbors in embedding space, out of 3200, from the Pascal3D+ train split and the ShapeNet images. Pascal3D+テスト分割からの各クエリ画像には、Pascal3D+列車分割とShapeNet画像から、3200のうちの埋め込みスペースに4つの最寄りの隣人が表示されます。 0.72
Note how CCS yields similar representations for images which are often visually quite different, in contrast to the ResNet output. CCSは、ResNet出力とは対照的に、視覚的にかなり異なる画像に対して同様の表現を出力する方法に注意してください。 0.60
This serves as qualitative evidence that pose is being effectively isolated in the CCS-trained embeddings. これは、ポーズがCCSで訓練された埋め込みで効果的に分離されているという定性的な証拠として機能する。 0.37
ResNet (pre-trained) CCVAE (Jha 2018) ML-VAE (Bouchacourt 2018) CCS (Ours) ResNet (事前訓練) CCVAE (Jha 2018) ML-VAE (Bouchacourt 2018) CCS (Ours) 0.97
Cars Flip invariant: min(θ, 180◦ − θ) Med Err (◦) ↓ Acc@30◦ ↑ Med Err (◦) ↓ Acc@30◦ ↑ 0.93 10.1 16.0 54.8 30.4 0.48 0.50 29.8 75.6 14.1 8.4 0.95 車両フリップ不変量: min(θ, 180, − θ) med err (i) , acc@30 , med err (i) , acc@30 , 0.93 10.1 16.0 54.8 30.4 0.48 0.50 29.8 75.6 14.1 8.4 0.95 0.55
0.65 0.26 0.27 0.65 0.65 0.26 0.27 0.65 0.45
Chairs Flip invariant: min(θ, 180◦ − θ) Med Err (◦) ↓ Acc@30◦ ↑ Med Err (◦) ↓ Acc@30◦ ↑ 0.46 32.5 71.0 79.5 41.3 0.35 0.33 44.5 87.2 35.1 25.7 0.55 椅子 Flip invariant: min(s, 180, − s) Med Err (s) . Acc@30 . Med Err (s) . Acc@30 . . 0.46 32.5 71.0 79.5 41.3 0.35 0.33 44.5 87.2 35.1 25.7 0.55 0.59
0.30 0.19 0.16 0.47 0.30 0.19 0.16 0.47 0.45
Table 1. Pose estimation without any pose annotations during training. 表1。 トレーニング中のポーズアノテーションなしでのポーズ推定。 0.72
Median error and accuracy metrics on Pascal3D+ car and chair test datasets. Pascal3D+カーとチェアテストデータセットにおけるメディアエラーと精度の測定 0.66
We obtain the pose with nearest neighbor lookup into 1800 synthetic images with GT pose, using different embeddings shown in different rows. GTポーズで1800個の合成画像に近隣のルックアップしたポーズを、異なる行に表示された異なる埋め込みを使用して取得します。 0.52
CCS outperforms the VAE-based approaches and the high dimensional ResNet embeddings. CCSはVAEベースのアプローチと高次元ResNet埋め込みよりも優れています。 0.52
resized to 128x128. サイズは128x128 0.78
In the first experiment, we discard pose annotations entirely and show that CCS yields representations which are pose informative with respect to real images, solely using groupings of synthetic images by particular model. 最初の実験では、ポーズアノテーションを完全に破棄し、CCSは、特定のモデルによる合成画像のグループ化のみを使用して、実際の画像に関して有益である表現を生成することを示します。 0.63
We train with set A purely synthetic and grouped by ShapeNet model, and set B unconstrained. 純粋な合成とシェープネットモデルによるグループ化を訓練し、bを無拘束に設定する。 0.68
For the first 10k iterations set B is synthetic images randomly sampled across all models and viewpoints, and for the following 10k iterations real images are factored in as 5.5% of each set B. 最初の10kイテレーションセットBは、すべてのモデルと視点でランダムにサンプリングされた合成画像であり、以下の10kイテレーションでは、各集合Bの5.5%に実画像が分解される。 0.72
We found it beneficial to suppress nuisance active factors of variation in the images, such as the precise position of the object in the frame, by optimizing the double augmentation loss explained in Section 3. 第3節で説明した倍増損失を最適化することにより、フレーム内の物体の正確な位置など、画像の変動の迷惑な活性要因を抑制することが有益であることが分かりました。 0.77
Each image is randomly augmented twice with a combination of cropping, recoloring, and edge enhancement via Sobel filter. 各画像は、トリッピング、リカラー化、およびsobelフィルタによるエッジ強化の組み合わせにより、ランダムに2回拡張される。 0.67
The network adds a few layers to the base of an ImageNet-pre-trained ResNet50 (He et al , 2015) before embedding to 64 dimensions (specifics in the Supplemental Material). ネットワークは、64次元に埋め込む前にImageNetが事前に訓練したResNet50(He et al , 2015)のベースにいくつかの層を追加します。 0.78
We find that cosine similarity with temperature parameter τ = 0.1 outperforms L2 distance. 温度パラメータ τ = 0.1 とのコサイン類似性はL2 距離より優れていた。 0.68
We evaluate the learned representations on the images in Pascal3D+ by using nearest neighbor lookup between embedded test images and a dictionary of 1800 synthetic images with ground-truth pose. Pascal3D+の画像の学習表現は、埋め込みテスト画像と1800の合成画像の辞書の間の近くのルックアップを使用して評価します。 0.72
We compare to the 16,384- 16,384 と比較する 0.82
dimensional output from the ResNet base network and to embeddings learned with the VAE-based approaches of Jha et al (2018) and Bouchacourt et al (2018). ResNetベースネットワークからの次元出力と、Jha et al (2018) と Bouchacourt et al (2018) の VAE ベースのアプローチで学んだ埋め込みへの変換。 0.78
Quantitative results are shown in Table 1 and retrieval examples in Figure 5. 数値結果は表1に、検索例は図5に示します。 0.75
We additionally report a flip invariant metric to highlight how well CCS performs modulo flip symmetry, a particular difficulty for cars. さらに,ccsがモジュロフリップ対称性,特に自動車にとっての難易度を強調するために,フリップ不変量メトリクスを報告した。 0.55
We consistently outperform the baselines with the gap significant in many cases, especially for chairs, showing the efficacy of CCS. CCSの有効性を示す椅子の場合、多くの場合、重要なギャップで一貫してベースラインを上回ります。 0.58
The significant difference between CCS and the generative approaches underscores the importance of meaningfully incorporating unannotated real images during training; there is no simple means to do so with either VAE-based method. CCSと生成的アプローチとの大きな違いは、トレーニング中に無注釈の実際のイメージを有意義に取り入れることの重要性を浮き彫りにしている。 0.66
In the second experiment (Table 2), we make use of the pose annotations for the synthetic images by incorporating CCS into the spherical regression framework of (Liao et al , 2019). 第2の実験(表2)では,ccsを球面回帰フレームワーク(liao et al, 2019)に組み込むことにより,合成画像に対するポーズアノテーションを利用する。 0.67
Specifically, we add a small spherical regression head after the CCS-conditioned representations (Figure 6) and train on a weighted sum of the two losses. 具体的には、CS条件付き表現(図6)の後、小さな球面回帰ヘッドを追加し、2つの損失の重み付き和でトレーニングする。 0.69
Even without any real images during training, CCS improves performance, presumably by better conditioning the intermediate latent space. トレーニング中に実際のイメージがなくても、CCSはおそらく中間潜伏空間の条件を改善することでパフォーマンスを改善する。 0.68
A significant boost to performance results when a small amount of real images (2%) are titrated in gradually over training, for both object categories. 両方のオブジェクトカテゴリに対して、トレーニング中に少量の実画像(2%)が徐々に滴定される場合、パフォーマンスが大幅に向上する。 0.84
See Supplemental 7 補足7を参照。 0.53
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Figure 6. Strengthening spherical regression with CCS. 図6。 CCSによる球面回帰の強化 0.76
We append a spherical regression head (Liao et al , 2019) to the network and find that an CCS loss on the intermediate embeddings significantly improves performance. ネットワーク上に球面回帰ヘッド(Liao et al , 2019)を付加し,中間埋め込みにおけるCS損失により性能が著しく向上することを確認した。 0.74
Liao et al (2019) + CCS + CCS (2% unannotated real) Liao et al (2019) + CCS + CCS (2%無注実) 0.85
Cars Chairs Med Err (◦) ↓ Acc@30◦ ↑ Med Err (◦) ↓ Acc@30◦ ↑ 0.49 12.3 11.0 0.52 9.3 0.55 車 椅子 メッド・アール(英: Med Err、英: Med Err、英: Med Err、英: Med Err、英: Med Err、英: Med Err、英: Med Err、英: Med Err、英: Med Err、英: Med Err、英: Med Err) 0.53
30.8 28.1 26.0 30.8 28.1 26.0 0.47
0.85 0.79 0.87 0.85 0.79 0.87 0.47
Table 2. Performance boost to spherical regression by incorporating CCS. 表2。 CCSを組み込むことで球面回帰性を高めます。 0.68
We show the effectiveness of incorporating CCS as an additional loss term when the data consists of annotated synthetic images and unannotated real images. 注釈付き合成画像と注釈なし実画像からなる場合, CCS を付加損失項として組み込むことの有効性を示す。 0.73
CCS provides a means to incorporate the latter which significantly helps bridge the domain gap from synthetic to real pose estimation. CCSは後者を組み込む手段を提供し、ドメインギャップを合成から実際のポーズ推定に大きく橋渡しするのに役立つ。 0.69
Material for ablative studies. アブレーション研究の材料。 0.72
5. Discussion Leveraging only the way in which images are grouped, CCS produces informative representations with respect to factors of variation disjoint from the subset of factors for which there is weak supervision. 5. 議論 イメージがグループ化される方法のみを活用して、CCSは、弱い監督がある要因のサブセットと相反する変動の要因に関する有益な表現を生成します。 0.80
The loss is optimized when approximate correspondence can consistently be found between all inputs of set A and all inputs of set B, for all pairings of A and B. この損失は、集合 a のすべての入力と集合 b のすべての入力、a と b のすべてのペアリングの間で、一貫して近似対応が見つかる場合に最適化される。
訳抜け防止モード: 近似対応が集合 a のすべての入力の間で一貫して見つかるとき、損失は最適化される 集合 b のすべての入力 a と b のすべての対に対して。
0.80
The inactive factor(s) are common to all elements of a set and therefore offer no distinguishing information to help with correspondence; thus they are left out of the representation. 不活性因子(inactive factor)は集合のすべての元に共通であり、それゆえ対応に役立つ区別可能な情報を提供しないため、それらは表現から外される。 0.77
One set can be unconstrained because only active factors present in both sets can be used to find correspondence, meaning the more constrained of the two sets dictates which factors are extracted. 両方の集合に存在する活性因子だけが対応を見つけるのに使えるため、1つの集合は非制約にすることができる。 0.61
For the example sets of Figure 1, the color of the car cannot be used to find correspondence because it does not distinguish between the elements of set A. 図1の例セットでは、セットAの要素を区別しないため、車の色を使用して対応を見つけることはできません。 0.75
It is evident in the mutual information measurements of Figure 3 that only a subset of the active factors of variation are present in the learned representations. 図3の相互情報測定では、変化の活性因子のサブセットのみが学習された表現に存在することが明らかである。 0.80
This can be partly attributed to the low dimensionality of the embeddings – a design choice to facilitate the measurement of mutual information, which is notoriously problematic in higher dimensions – though experiments in the Supplemental Material that the effect is also present for 64-dimensional embeddings. これは、高次元で有名な相互情報の測定を容易にするための設計選択である埋め込みの低次元性に部分的に起因することができますが、補間材料では64次元埋め込みにも効果があることを実験しています。 0.73
A correspondence can be made when each element is embedded according to only a single active factor of variation common to both sets. 各要素が、両方の集合に共通な単一の変動のアクティブファクターのみに従って埋め込まれた場合に対応できる。 0.82
This was the case for Dwibedi et al (2019), where the progression of an action (e g , bowling) was the only active factor of variation (with scene specifics being inactive, fixed per video). これは、Dwibedi et al (2019)の場合で、アクション(例えばボウリング)の進行が変化の唯一のアクティブな要因でした(シーンの特定は非アクティブで、ビデオごとに固定されています)。 0.80
We show that CCS extends naturally to data with multiple active factors of variation. CCSは変動の複数のアクティブな要因を持つデータに自然に拡張することを示す。 0.71
This seems to arise from randomness これはランダムさが原因のようです。 0.57
in the input sets: on average the loss is decreased by embedding random points to more independent dimensions (see Supplemental). 入力集合: 平均では、ランダムな点をより独立した次元に埋め込むことで損失が減少する(補足参照)。 0.73
In practice, factors differ in salience. 実際には、要因はサリエンスによって異なる。 0.47
The hue-related generative factors of Shapes3D are easier for the network to extract, and training effectively ceases once a correspondence utilizing these factors is found. 形状3Dの色調関連生成因子は、ネットワークが抽出し易く、これらの因子を利用した対応が見つかると、トレーニングが効果的に終了する。 0.65
Similarly, nuisance factors of variation in the images of cars and chairs are easier to extract than pose, which is why double augmentation helped encourage the network to isolate pose. 同様に、車や椅子の画像の変動の迷惑要因は、ポーズよりも抽出が容易であるため、二重増強は、ネットワークがポーズを分離するのを奨励した理由です。 0.64
The task of finding correspondence is naturally suited to domain transfer, as showcased in the pose estimation experiments of Section 4.3. 対応を見つけるタスクは、セクション4.3のポーズ推定実験で示されるように、ドメイン転送に適している。 0.77
CCS provides a means to incorporate unannotated images from a similar domain, as the loss incentivizes overlooking factors of variation which do not aid the task of correspondence. CCSは、類似のドメインからの無意味なイメージを組み込む手段を提供します。損失は、対応のタスクに役立たない変化の見落とした要因を刺激します。 0.64
We found the fraction of images incorporated should remain small, presumably because it is possible to use one factor to embed images from one domain and another for a second domain, as long as the representations are co-located in embedding space. 組み込み空間に表現が共配置されている限り、1つのドメインから1つのファクタを使用して2番目のドメインに画像を埋め込むことができるため、組み込まれた画像のほんの一部は小さくなければならないことが分かりました。 0.71
The breadth of the three scenarios explored in this paper showcase the generality of CCS, and there is no reason the method should be restricted to image data. 本論文で検討した3つのシナリオの広さは,ccsの汎用性を示し,その手法を画像データに限定すべき理由はない。 0.77
The cycle consistency loss operates on embeddings and is thus insensitive to the modality of the input data. サイクル整合性損失は埋め込み上で動作するため、入力データのモダリティには敏感ではない。 0.73
Additionally, while we experimented with two forms of the distance metric in embedding space – L2 and cosine similarity – nothing about the loss necessitates these, and presumably in some scenarios employing other distance metrics or structures of embedding space would be advantageous. さらに、埋め込み空間における距離計量の2つの形式(L2とコサイン類似性)を実験しながらも、損失については何も必要とせず、おそらく他の距離測度や埋め込み空間の構造を用いるシナリオでは有利である。 0.75
6. Conclusion In this work, we show how a form of cycle consistency can leverage set supervision to isolate factors of variation. 6. 結論 本研究では, サイクル一貫性の一形態が, 変動要因を分離するために, 集合的監督をいかに活用できるかを示す。 0.74
Through extensive experiments on synthetic and real data, 8 合成および実データに関する広範な実験から8 0.83
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
we show the technique can be applied in a range of scenarios with weak supervision, including the semi-supervised case where only a subset of the data requires any set supervision at all. データのサブセットのみが設定された監視を必要とする半教師ありの場合を含む、弱い監督を伴う様々なシナリオに適用可能であることを示す。 0.72
This case is particularly important as it allows training with unsupervised real image data, and we validate this with promising experiments on the challenging problem of isolating 3D object pose in real images. このケースは、教師なしの実画像データによるトレーニングを可能にするため、特に重要であり、実画像における3dオブジェクトポーズの分離に関する課題に関する有望な実験によって検証する。 0.67
References Aytar, Y., Pfaff, T., Budden, D., Paine, T. L., Wang, Z., and de Freitas, N. Playing hard exploration games by watching youtube, 2018. 参照: Aytar, Y., Pfaff, T., Budden, D., Paine, T. L., Wang, Z., de Freitas, N. Playing hard exploration games by watching youtube, 2018。 0.86
Bengio, Y., Courville, A., and Vincent, P. Representation learning: A review and new perspectives. Bengio, Y., Courville, A. and Vincent, P. Representation Learning: A review and new perspectives。 0.88
IEEE Trans. IEEE Trans。 0.82
Pattern Anal. Mach. パターンアナル。 Mach 0.54
Intell., 35(8):1798–1828, August 2013. Intell., 35(8):1798–1828, August 2013 0.95
ISSN 0162-8828. ISSN 0162-8828。 0.71
Bouchacourt, D., Tomioka, R., and Nowozin, S. Multi-level variational autoencoder: Learning disentangled representations from grouped observations. Bouchacourt, D., Tomioka, R., and Nowozin, S. Multi-level variational autoencoder: Learning disentangled representations from grouped observed。 0.92
In AAAI, February 2018. 2018年2月、AAAIにて。 0.66
Burgess, C. and Kim, H. 3d shapes dataset. Burgess, C. and Kim, H. 3d shapes dataset。 0.92
https://github.com/d eepmind/3dshapes-dat aset/, 2018. https://github.com/d eepmind/3dshapes-dat aset/, 2018 0.47
Chang, A. X., Funkhouser, T., Guibas, L., Hanrahan, P., Huang, Q., Li, Z., Savarese, S., Savva, M., Song, S., Su, H., Xiao, J., Yi, L., and Yu, F. ShapeNet: An Information-Rich 3D Model Repository. Chang, A.X., Funkhouser, T., Guibas, L., Hanrahan, P., Huang, Q., Li, Z., Savarese, S., Savva, M., Song, S., Su, H., Xiao, J., Yi, L., Yu, F. ShapeNet: An Information-Rich 3D Model Repository。 0.89
Technical Report arXiv:1512.03012 [cs.GR], Stanford University — Princeton University — Toyota Technological Institute at Chicago, 2015. テクニカルレポート arXiv:1512.03012 [cs.GR], Stanford University - Princeton University - Toyota Technological Institute at Chicago, 2015 0.93
Chen, T., Kornblith, S., Norouzi, M., and Hinton, G. A simple framework for contrastive learning of visual representations, 2020. Chen, T., Kornblith, S., Norouzi, M. and Hinton, G. A simple framework for contrastive learning of visual representations, 2020。 0.86
Cohen, T. S. and Welling, M. Transformation properties of learned visual representations. Cohen, T. S. and Welling, M. Transformation Properties of learned visual representations 0.92
In International Conference on Learning Representations (ICLR), 2015. 2015年、ICLR(International Conference on Learning Representations)に参加。 0.87
Denton, E. and Birodkar, V. Unsupervised learning of disentangled representations from video. denton, e. and birodkar, v. unsupervised learning of disentangled representations from video. 0.89
In Advances in Neural Information Processing Systems, pp. ニューラル・インフォメーション・プロセッシング・システムにおける進歩, pp. 0.59
4414–4423, 2017. 4414–4423, 2017. 0.84
Dwibedi, D., Aytar, Y., Tompson, J., Sermanet, P., and Zisserman, A. Temporal cycle-consistency learning. Dwibedi, D., Aytar, Y., Tompson, J., Sermanet, P., Zisserman, A. Temporal cycle-consistency Learning。 0.88
CoRR, 2019. 2019年、CoRR。 0.88
Falorsi, L., de Haan, P., Davidson, T. R., Cao, N. D., Weiler, M., Forr´e, P., and Cohen, T. S. Explorations in homeomorphic variational auto-encoding. Falorsi, L., de Haan, P., Davidson, T. R., Cao, N. D., Weiler, M., Forr ́e, P., and Cohen, T. S. Explorations in homeomorphic variational auto-encoding。 0.94
CoRR, abs/1807.04689, 2018. CORR, abs/1807.04689, 2018 0.68
Goldberger, J., Roweis, S., Hinton, G., and Salakhutdinov, R. Neighbourhood components analysis. Goldberger, J., Roweis, S., Hinton, G., Salakhutdinov, R. Neighbourhoodコンポーネント分析。 0.80
In Proceedings of the 17th International Conference on Neural Information Processing Systems, NIPS’04, Cambridge, MA, USA, 2004. 第17回神経情報処理システム国際会議(NEPS’04, Cambridge, MA, USA, 2004)に参加して 0.73
MIT Press. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., WardeFarley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. MIT出版。 Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., WardeFarley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. 0.77
In Advances in Neural Information Processing Systems 27, pp. 神経情報処理システム27, pp. の進歩 0.62
2672–2680, 2014. 2672–2680, 2014. 0.84
He, K., Zhang, X., Ren, S., and Sun, J. He, K., Zhang, X., Ren, S., and Sun, J。 0.82
Deep residarXiv preprint ual learning for image recognition. 画像認識のためのdeep residarxivプレプリント学習 0.77
arXiv:1512.03385, 2015. arXiv:1512.03385, 2015 0.69
Higgins, I., Amos, D., Pfau, D., Racani`ere, S., Matthey, L., Rezende, D. J., and Lerchner, A. Higgins, I., Amos, D., Pfau, D., Racani`ere, S., Matthey, L., Rezende, D. J., Lerchner, A。 0.84
Towards a definition of disentangled representations. 絡み合った表現の定義に向けてです 0.62
CoRR, abs/1812.02230, 2018. CoRR, abs/1812.02230, 2018。 0.68
Hinton, G. E., Krizhevsky, A., and Wang, S. D. Transforming auto-encoders. Hinton, G. E., Krizhevsky, A., and Wang, S. D. Transforming Auto-Encoders 0.91
In Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN), pp. 第21回人工ニューラルネットワーク国際会議(ICANN)に参加して 0.59
44–51, 2011. 44–51, 2011. 0.84
Jaderberg, M., Simonyan, K., Zisserman, A., and Kavukcuoglu, K. Spatial transformer networks. Jaderberg、M.、Simonyan、K.、Zisserman、A.、Kavukoglu、K.空間トランスネットワーク。 0.80
In Cortes, C., Lawrence, N. D., Lee, D. D., Sugiyama, M., and Garnett, R. コーツ, C., Lawrence, N. D., Lee, D. D., Sugiyama, M., Garnett, R。 0.75
(eds. ), Advances in Neural Information Processing Systems 28, pp. (eds)。 ), 神経情報処理システムの進歩28, pp。 0.73
2017–2025, 2015. 2017–2025, 2015. 0.84
Jha, A. H., Anand, S., Singh, M., and Veeravasarapu, V. S. R. Disentangling factors of variation with cycle-consistent variational auto-encoders, 2018. Jha, A. H., Anand, S., Singh, M., Veeravasarapu, V. S. R. Disentangling Factor of variation with cycle-consistent variational auto-encoders, 2018。 0.93
Kingma, D. P. and Welling, M. Auto-encoding variational bayes. Kingma, D. P. and Welling, M. Auto-encoding variational bayes。 0.81
In International Conference on Learning Representations (ICLR), 2014. 2014年、ICLR(International Conference on Learning Representations)に参加。 0.87
Kraskov, A., St¨ogbauer, H., and Grassberger, P. EsPhys. Kraskov, A., St sogbauer, H., and Grassberger, P. EsPhys 0.88
Rev. E, 69: timating mutual 066138, Jun 2004. doi: 10.1103/PhysRevE.69. 066138. Rev E, 69: 相互 066138, Jun 2004. doi: 10.1103/PhysRevE.69. 066138 0.64
URL https://link.aps.org /doi/10.1103/ PhysRevE.69.066138. URL https://link.aps.org /doi/10.1103/ PhysRevE.69.066138 0.35
Krause, J., Stark, M., Deng, J., and Fei-Fei, L. 3d object representations for fine-grained categorization. Krause, J., Stark, M., Deng, J. and Fei-Fei, L. 3d object representations for fine-fine categorization。 0.91
In 4th International IEEE Workshop on 3D Representation and Recognition (3dRR-13), Sydney, Australia, 2013. 第4回IEEE International Workshop on 3D Representation and Recognition (3dRR-13), Sydney, Australia, 2013に参加。 0.83
Kulkarni, T. D., Whitney, W. F., Kohli, P., and Tenenbaum, J. Kulkarni, T.D., Whitney, W.F., Kohli, P., and Tenenbaum, J. 0.93
Deep convolutional inverse graphics network. 深部畳み込み逆グラフィックスネットワーク。 0.67
In Advances in Neural Information Processing Systems, pp. ニューラル・インフォメーション・プロセッシング・システムにおける進歩, pp. 0.59
2539–2547, 2015. 2539–2547, 2015. 0.84
LeCun, Y. and Cortes, C. The mnist database of handwritten digits. LeCun, Y. and Cortes, C. 手書き数字のmnistデータベース。 0.79
http://yann.lecun.co m/exdb/mnist/, 1998. http://yann.lecun.co m/exdb/mnist/, 1998 0.49
9 information. 9 情報だ 0.75
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Liao, S., Gavves, E., and Snoek, C. G. M. Spherical regression: Learning viewpoints, surface normals and 3d rotations on n-spheres. Liao, S., Gavves, E., and Snoek, C. G. M. Spherical regression: Learning perspectives, surface normals and 3d rotations on n-spheres。 0.94
In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019で発表された。 0.90
Locatello, F., Bauer, S., Luˇci´c, M., R¨atsch, G., Gelly, S., Sch¨olkopf, B., and Bachem, O. F. Challenging common assumptions in the unsupervised learning of disentangled representations. Locatello, F., Bauer, S., Lu'ci ́c, M., R satsch, G., Gelly, S., Sch solkopf, B., and Bachem, O. F. Challenging common assumptions in the unsupervised learning of disentangled representations。 0.90
In International Conference on Machine Learning, 2019. 2019年、国際機械学習会議に参加。 0.79
Mathieu, M., Zhao, J., Sprechmann, P., Ramesh, A., and LeCun, Y. Disentangling factors of variation in deep representations using adversarial training. Mathieu, M., Zhao, J., Sprechmann, P., Ramesh, A., and LeCun, Y. 敵対的訓練を用いた深い表現の変化の要因を区別する。 0.88
In Proceedings of the 30th International Conference on Neural Information Processing Systems, pp. 第30回ニューラル情報処理システム国際会議に参加して 0.56
5047–5055, 2016. 5047–5055, 2016. 0.84
Misra, I. and van der Maaten, L. Self-supervised learning of pretext-invariant representations, 2019. Misra, I. and van der Maaten, L. Self-supervised learning of pretext-invariant representations, 2019。 0.84
Movshovitz-Attias, Y., Toshev, A., Leung, T. K., Ioffe, S., and Singh, S. No fuss distance metric learning using proxies. Movshovitz-Attias, Y., Toshev, A., Leung, T.K., Ioffe, S., Singh, S. No fuss distance metric learning using proxies。 0.91
CoRR, abs/1703.07464, 2017. CoRR, abs/1703.07464, 2017 0.75
URL http: //arxiv.org/abs/1703 .07464. URL http: //arxiv.org/abs/1703 .07464。 0.43
Navaneet, K. L., Mathew, A., Kashyap, S., Hung, W.-C., Jampani, V., and Babu, R. V. From image collections to point clouds with self-supervised shape and pose networks, 2020. Navaneet, K. L., Mathew, A., Kashyap, S., Hung, W.-C., Jampani, V., and Babu, R. V. 画像収集から、自己監督型形状とポーズネットワークを備えた点雲まで、2020年。 0.82
Oron, S., Dekel, T., Xue, T., Freeman, W. T., and Avidan, S. Best-buddies similarity - robust template matching using mutual nearest neighbors, 2016. Oron, S., Dekel, T., Xue, T., Freeman, W. T., Avidan, S. Best-buddies similarity - robust template matching using each neighbors, 2016 0.83
Rhodin, H., Salzmann, M., and Fua, P. Unsupervised geometry-aware representation for 3d human pose esIn The European Conference on Computer timation. Rhodin, H., Salzmann, M. and Fua, P. Unsupervised geometry-aware representation for 3d human pose esThe European Conference on Computer timation 0.88
Vision (ECCV), September 2018. ビジョン(ECCV)、2018年9月。 0.77
Rocco, I., Cimpoi, M., Arandjelovic, R., Torii, A., Pajdla, T., and Sivic, J. Neighbourhood consensus networks. Rocco, I., Cimpoi, M., Arandjelovic, R., Torii, A., Pajdla, T., and Sivic, J. Neighbourhoodコンセンサスネットワーク。 0.84
CoRR, abs/1810.10510, 2018. CORR, abs/1810.10510, 2018 0.69
URL http://arxiv.org/ abs/1810.10510. URL http://arxiv.org/ abs/1810.10510。 0.51
Sanchez, E. H., Serrurier, M., and Ortner, M. Learning disentangled representations via mutual information estimation. Sanchez, E. H., Serrurier, M. and Ortner, M. Learning は、相互情報推定による表現のアンタングルを解消した。 0.71
In The European Conference on Computer Vision (ECCV), 2020. 2020年、欧州コンピュータビジョン会議(ECCV)に参加。 0.72
Siddharth, N., Brooks, P., van de Meent, J.-W., Desmaison, A., Goodman, N., Kohli, P., Wood, F., and Torr, P. Learning disentangled representations with semi-supervised deep generative models. Siddharth, N., Brooks, P., van de Meent, J.-W., Desmaison, A., Goodman, N., Kohli, P., Wood, F., and Torr, P. 半教師付きディープジェネレーションモデルによる学習の非絡み表現。 0.91
In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R. Guyon, I., Luxburg, U.V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R。 0.83
(eds. ), Advances in Neural Information Processing Systems 30, pp. (eds)。 ) 神経情報処理システム30の進歩, pp。 0.74
5925–5935, 2017. 5925–5935, 2017. 0.84
few-shot Snell, J., Swersky, K., and Zemel, R. S. ProtoCoRR, typical networks for learning. few‐shot Snell, J., Swersky, K. and Zemel, R. S. ProtoCoRR, 学習のための典型的なネットワーク。 0.72
abs/1703.05175, 2017. abs/1703.05175, 2017 0.66
URL http://arxiv.org/ abs/1703.05175. URL http://arxiv.org/ abs/1703.05175 0.54
Suwajanakorn, S., Snavely, N., Tompson, J., and Norouzi, M. Discovery of latent 3d keypoints via end-to-end geometric reasoning. Suwajanakorn, S., Snavely, N., Tompson, J., Norouzi, M. Discovery of Latent 3d keypoints through end-to-end geometry reasoning。 0.94
In Proceedings of the 32nd International Conference on Neural Information Processing Systems, 2018. 第32回ニューラル・インフォメーション・プロセッシング・システム国際会議(2018年)に参加して 0.59
Worrall, D. E., Garbin, S. J., Turmukhambetov, D., and Brostow, G. J. Interpretable transformations with encoderdecoder networks. Worrall, D. E., Garbin, S. J., Turmukhambetov, D., and Brostow, G. J. Interpretable transformations with encoderdecoder network。 0.97
In The IEEE International Conference on Computer Vision (ICCV), Oct 2017. 2017年10月、IEEE International Conference on Computer Vision (ICCV)において。 0.85
Xiang, Y., Mottaghi, R., and Savarese, S. Beyond PASCAL: A benchmark for 3d object detection in the wild. Xiang, Y., Mottaghi, R., and Savarese, S. Beyond PASCAL: 野生の3Dオブジェクト検出のためのベンチマーク。 0.83
In 2014 IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 2014年、IEEE Winter Conference on Applications of Computer Vision (WACV) に参加。 0.75
75–82, March 2014. 75-82, 2014年3月。 0.55
Yang, J., Reed, S. E., Yang, M.-H., and Lee, H. Weaklysupervised disentangling with recurrent transformations for 3d view synthesis. Yang, J., Reed, S. E., Yang, M.-H., and Lee, H. Weaklysupervised disentangling with recurrent transformations for 3d view synthesis。 0.95
In Cortes, C., Lawrence, N. D., Lee, D. D., Sugiyama, M., and Garnett, R. コーツ, C., Lawrence, N. D., Lee, D. D., Sugiyama, M., Garnett, R。 0.75
(eds. ), Advances in Neural Information Processing Systems (NIPS), pp. (eds)。 ),ニューラル情報処理システム(NIPS)の進歩(p。 0.74
1099–1107. 1099–1107. 0.71
Curran Associates, Inc., 2015a. Curran Associates, Inc., 2015。 0.80
Yang, L., Luo, P., Change Loy, C., and Tang, X. Yang, L., Luo, P., Change Loy, C., and Tang, X。 0.83
A largescale car dataset for fine-grained categorization and verIn Proceedings of the IEEE Conference on ification. IEEE Conference on ification のきめ細かい分類と verIn Proceedings のための大規模なカーデータセット。 0.84
Computer Vision and Pattern Recognition (CVPR), June 2015b. Computer Vision and Pattern Recognition (CVPR) 2015年6月。 0.81
Yang, L., Liu, W., Cui, Z., Chen, N., and Wang, W. Mapping in a cycle: Sinkhorn regularized unsupervised learning for point cloud shapes, 2020. Yang, L., Liu, W., Cui, Z., Chen, N., Wang, W. Mapping サイクル: Sinkhorn は、ポイントクラウド形状の教師なし学習を2020年に正規化した。 0.86
Zhou, T., Kr¨ahenb¨uhl, P., Aubry, M., Huang, Q., and Efros, A. Zhou, T., Kr 'ahenb 'uhl, P., Aubry, M., Huang, Q., Efros, A。 0.86
A. Learning dense correspondence via 3d-guided cycle consistency, 2016. A。 learning dense correspondence via 3d-guided cycle consistency, 2016 (英語) 0.72
10 10 0.85
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Supplemental Material S1. Implementation details For all experiments we use the ADAM optimizer (β1 = 0.9, β2 = 0.999). 補足材料S1。 すべての実験の実装の詳細はadamオプティマイザを使っています(β1 = 0.9, β2 = 0.999)。 0.66
Padding for convolutional layers is always ‘valid.’ S1.1. 畳み込みレイヤのパディングは常に 'valid.' S1.1 である。 0.56
Shapes3D Layer Conv2D Conv2D Conv2D Conv2D Conv2D Conv2D Flatten Dense Dense shapes3d 層状コンv2D Conv2D Conv2D Conv2D Conv2D Flatten Dense 0.57
Units 32 32 64 64 128 128 – 128 Units 32 32 64 64 128 128 – 128 0.85
Embedding dimension (2) Kernel size Activation ReLU ReLU ReLU ReLU ReLU ReLU – ReLU Linear 埋め込み寸法(2) カーネルサイズ Activation ReLU ReLU ReLU ReLU ReLU ReLU - ReLUリニア 0.73
3x3 3x3 3x3 3x3 3x3 3x3 – – – 3x3 3x3 3x3 3x3 3x3--- 0.63
Stride 1 1 2 1 1 2 – – – Stride 1 1 2 1 1 2 – – – 0.85
Table S1. Architecture used for Shapes3D experiments (Section 4.1). 表S1。 形状3D実験に用いられるアーキテクチャ(Section 4.1)。 0.72
Input shape is [64, 64, 3]. 入力形状は [64, 64, 3] である。 0.89
For the experiments of Figure 3 we trained for 2000 steps with a learning rate of 3 × 10−5. 図3の実験では、学習率3×10−5で2000ステップのトレーニングを行いました。 0.76
We used a stack size of 32 and squared L2 distance as the embedding space metric, with a temperature of 1. 埋め込み空間の計量として,32のスタックサイズと2乗L2距離を用い,温度は1。 0.76
S1.2. MNIST S1.2。 MNIST 0.70
Layer Conv2D Conv2D Conv2D Conv2D Conv2D Flatten Dense Dense 層状コンv2D Conv2D Conv2D Conv2D Flatten Dense 0.66
Units 32 32 32 32 32 – 128 Units 32 32 32 32 32 – 128 0.85
Embedding dimension (8) Kernel size Activation ReLU ReLU ReLU ReLU ReLU – ReLU Linear 埋め込み寸法(8) カーネルサイズ Activation ReLU ReLU ReLU ReLU ReLU - ReLUリニア 0.74
3x3 3x3 3x3 3x3 3x3 – – – 3x3 3x3 3x3 3x3 3x3 – – 0.59
Stride 1 1 2 1 1 – – – Stride 1 1 2 1 1 – – – 0.85
Table S2. Architecture used for MNIST experiments (Section 4.2). 表S2。 MNIST実験に使用されるアーキテクチャ(Section 4.2)。 0.74
Input shape is [28, 28, 1]. 入力形状は[28, 28 1]である。 0.83
For the MNIST experiments, the stack size is 64. mnist実験では,スタックサイズは64。 0.62
We use a learning rate of 10−4 and train for 1000 steps. 学習速度は10-4で、1000ステップのトレーニングを行います。 0.64
We used squared L2 distance as the embedding space metric and a temperature of 1, though as long as the length scale set by the temperature is larger than the initial point spread from the randomly initialized network, it does not seem to matter. 埋め込み空間距離として2乗L2距離と1の温度を用いたが、温度によって設定された長さスケールがランダムに初期化されたネットワークから広がる初期点よりも大きい限り、それは重要ではないようである。 0.82
S1.3. Pose estimation S1.3。 ポーズ推定 0.64
Layer ResNet50, up to conv4 block6 Global Average Pooling 層 ResNet50、conv4 block6 Global Average Poolingまで 0.80
Conv2D Flatten Dense Dense Conv2Dフラットデンス 0.73
Units – 256 – – 128 Units – 256 – – 128 0.85
Embedding dimension (64) 埋め込み寸法(64) 0.76
Kernel size Activation カーネルサイズ活性化 0.72
– 3x3 – – – – – 3x3 – – – – 0.92
– ReLU – – tanh Linear -ReLU--Tanh Linear 0.60
Stride – 1 – – – – Stride – 1 – – – – 0.85
Table S3. Architecture used for pose estimation experiments (Section 4.3). 表S3。 ポーズ推定実験に用いられるアーキテクチャ(セクション4.3)。 0.79
Input shape is [128, 128, 3]. 入力形状は[128, 128, 3]である。 0.90
For both the pose estimation lookup and regression tasks, we use the same base network to embed the images. ポーズ推定のルックアップと回帰タスクの両方に、イメージを埋め込むのに同じベースネットワークを使用します。 0.74
For regression, the embeddings are then fed, separately for each Euler angle, as input to a 128 unit dense layer with tanh activation, which is S1 回帰では、埋め込みは各オイラー角度ごとに個別に供給され、s1 であるtanhアクティベーションを持つ128単位の密層に入力される。 0.70
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
then split off into two dense layers with 2 and 4 units and linear activation for the angle magnitude and quadrant, respectively, as in (Liao et al , 2019). その後、2と4の単位を持つ2つの密度の層と、(Liao et al , 2019)のように、それぞれ角度の等級と四角形の線形活性化に分けられる。 0.71
The angle magnitudes are passed through a spherical exponential activation function (Liao et al , 2019), which is the square root of a softmax. 角の大きさは、ソフトマックスの平方根である球状指数活性化関数(Liao et al , 2019)を通して渡される。 0.78
The magnitudes are then compared with ground truth (|sinφi|,|cosφi)|, with i spanning the three Euler angles, through a cosine similarity loss. その後、マグニチュードは地上の真理(|sinφi|,|cosφi)|と比較され、iは3つのオイラー角度にまたがる。 0.70
The quadrant outputs are trained as a classification task with categorical cross entropy against the ground truth angle quadrants, defined as (sign(sinφi), sign(cosφi)). 擬似出力は、(sign(sinφi), sign(cosφi)) として定義される接地真理角四乗に対してカテゴリ横断エントロピーを持つ分類タスクとして訓練される。 0.69
For the lookup task, the network trained for 20k steps, with the first half of training purely synthetic images, and then the second half with 5.5% real images folded into the unconstrained stack. ルックアップタスクでは、ネットワークは20kステップのトレーニングを行い、前半は純粋に合成イメージをトレーニングし、後半は5.5%の実画像が制約のないスタックに折り畳まれました。 0.73
For spherical regression, training proceeds for 60k steps with a learning rate that starts at 10−4 and decays by a factor of 2 every 20k steps. 球面回帰では、学習速度は10−4から始まり、20kステップごとに2倍減少する60kステップのトレーニングが進行する。 0.73
Each minibatch consists of 4 pairs of image sets, each of size 32. 各ミニバッチは4組のイメージセットで構成され、それぞれサイズ32です。 0.73
We use cosine similarity and a temperature of 0.1 for lookup and 0.05 for regression. コサイン類似度とルックアップ温度0.1、回帰温度0.05を用いています。 0.69
To maintain consistency between how the embeddings are processed for the CCS loss and how they are fed into the regression sub-network, the embeddings are L2-normalized to lie on the 64-dimensional unit sphere before the regression. CCS損失に対する埋め込みの処理方法と回帰サブネットワークへの投入方法との整合性を維持するため、埋め込みは回帰前の64次元単位球上に位置するようにL2正規化される。 0.75
To more closely match the distribution of camera pose in real images, we filter the ShapeNet renderings by elevation: 0.5 radians and 1.3 radians for the max elevation for cars and chairs, respectively. 実画像におけるカメラポーズの分布をより密に一致させるため,車と椅子の最高高度に対して0.5ラジアンと1.3ラジアンのシェープネットレンダリングをそれぞれフィルタする。 0.78
S2. Mutual information calculation and Shapes3D in higher dimensions S2。 高次元における相互情報計算と形状3D 0.75
Figure S1. Probing information content in higher dimensions via classification. 図S1。 分類による高次元の情報内容の探索。 0.73
We repeat the experiments of Section 4.1 in 4, 16, and 64 dimensional embedding space, though with 10 replicas each instead of 50. 4, 16, 64次元埋め込み空間におけるセクション4.1の実験を繰り返すが、それぞれ10個のレプリカが50の代わりに存在する。 0.79
As a proxy for the mutual information, we use the test set classification accuracy of simple fully connected networks trained to classify each of the six generative factors. 相互情報の代理として、6つの生成因子をそれぞれ分類するように訓練された単純な完全接続ネットワークのテストセット分類精度を用いる。 0.86
As before, in each subplot we display in gray the baseline results from embedding with an untrained, randomly initialized network. 前述したように、各サブプロットでは、トレーニングされていないランダムに初期化されたネットワークに埋め込まれたベースライン結果がグレーで表示されます。 0.52
Also as before, the colors of each subplot indicate the same information as the shaded columns: which of the generative factors were inactive while training CCS. また, 各サブプロットの色は, CCS訓練中に生成因子のどれが不活性であったか, 陰影カラムと同じ情報を示す。 0.80
In the rightmost subplots, Gaussian-distributed random noise was added to the embeddings to effectively remove information on length scales less than the characteristic length scale of the CCS loss, the square root of the temperature. 最右部分列では,温度の平方根であるccs損失の特性長スケールよりも長さスケールに関する情報を効果的に除去するために,ガウス分布のランダムノイズを埋め込みに付加した。 0.80
For the experiments of Section 4.1, we used an embedding dimension of 2 in order to facilitate measuring the mutual information. 第4節1の実験では,相互情報の計測を容易にするため,埋め込み寸法を2とした。 0.76
We approximated the 2D distribution by embedding all N = 480, 000 images of the Shapes3D dataset and S2 shapes3dデータセットとs2のすべてのn = 480,000画像を埋め込むことで、2d分布を近似した。
訳抜け防止モード: 2次元分布を近似しました。 すべてのN = 480,000のShapes3DデータセットとS2イメージを埋め込む
0.73
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation √ there and back again: 変動因子を分離するための集合全体のサイクル一貫性 0.79
√ using a histogram with N bins. √ Nビンでヒストグラムを使用する。 0.75
The same bins were then used for all of the various conditional distributions, where the embedding distribution conditioned on each possible value of each of the six generative factors was evaluated. 次に,6つの生成因子の各々の可能な値に条件づけられた埋め込み分布を評価し,各条件分布のすべてに同じビンを用いた。 0.83
The values of entropy calculated from this simple method were found to be insensitive to the number of bins, within a range, and more reliable than the popular non-parametric approach of (Kraskov et al , 2004). この単純な方法で計算されたエントロピーの値は、範囲内のビンの数に敏感で、一般的な非パラメトリックアプローチ(kraskov et al , 2004)よりも信頼性が高いことが判明した。 0.81
It is fair to question whether the low dimensionality of the embeddings affects the behavior of CCS. 埋め込みの低次元性がCCSの挙動に影響を及ぼすかどうかを問うことは妥当である。 0.71
We repeat the experiments of Section 4.1 with higher dimensional latent spaces and probe the information content by training a simple classifier (3 layers with 32 units each, ReLU activation), using the learned representations as input, for each of the generative factors. 学習した表現を入力として、各生成因子に対して単純な分類器(それぞれ32単位の3層、ReLUアクティベーション)を訓練し、より高い次元の潜時空間を持つ第4.1節の実験を繰り返し、情報内容を調べます。 0.79
The test set classification accuracies, shown in Figure S1, have many noteworthy quirks. 図S1に示すテストセットの分類精度は、多くの注目すべきクォークを持つ。 0.72
As a baseline, the embeddings output by a randomly initialized (untrained) network are, sensibly, more successfully classified as the number of dimensions increases. ベースラインとして、ランダムに初期化された(訓練されていない)ネットワークによって出力される埋め込みは、次元の数が増えるにつれてよりうまく分類される。 0.58
The isolation of active factors that occurs for two dimensional embeddings (Figure 3c) is more subtle in higher dimensions. 2次元埋め込み(図3c)で生じる活性因子の分離は、より高い次元ではより微妙である。 0.81
As in 2D, a subset of the active factors feature more prominently in the learned representations, and that subset is more or less the same: unless all three hue factors are inactive, the three geometric factors (scale, shape and orientation) are hardly affected. 2Dのように、活動因子のサブセットは学習された表現でより顕著に特徴付けられ、そのサブセットは多かれ少なかれ同じです:すべての3つの色相因子が不活性でない限り、3つの幾何学的要因(スケール、形状、方向)はほとんど影響を受けません。 0.67
When all three hue factors are inactive, information with respect to all three geometric factors is clearly enhanced, regardless of the dimension. 3つの色調因子がすべて不活性である場合、次元に関係なく、3つの幾何因子に関する情報が明確に拡張される。 0.69
Because even random embeddings are easily parsed by a classifier in higher dimensions, we do not see the obvious suppression of inactive factors as in two dimensions. ランダム埋め込みでさえ、より高い次元で分類器によって容易に解析されるため、2次元のように不活性因子の明らかな抑制は見られない。 0.63
This is reasonable, however, given that the CCS loss operates over a characteristic length scale, set by the temperature parameter τ in both the soft nearest neighbor calculation and the classification loss. しかし、CCSの損失は、ソフト近傍の計算と分類損失の両方において温度パラメータτによって設定された特徴的長さスケールで作用するので、これは妥当である。 0.74
In other words, two embeddings separated by much less than this length scale effectively have a separation of zero in the eyes of the loss, and there is no incentive to further collapse them. 言い換えれば、この長さのスケールよりはるかに少なく分離された2つの埋め込みは、効果的に損失の目にゼロの分離を持ち、それらをさらに崩壊させるインセンティブはありません。 0.75
As information is about the capacity to infer the value of one random variable given another, it is only destroyed in the case where multiple inputs map to the same output. 情報が与えられたある確率変数の値を推測する能力に関するものであるため、複数の入力が同じ出力にマップされた場合にのみ破壊される。 0.82
This depends on the granularity of observation, as what qualifies as the same is different for float precision versus a hyperopic CCS loss. これは観測の粒度に依存するが、これはフロート精度と超オプティックCCS損失とでは同じ値が異なるためである。 0.76
Thus when the CCS training leads to embedding separations with respect to a particular generative factor which are much less than the characteristic length scale, the information content has been removed from the perspective of the loss. したがって、CCSトレーニングが特性長スケールよりもはるかに小さい特定の生成因子に関する分離を埋め込むことにつながると、情報の内容は損失の視点から取り除かれます。 0.73
To be specific, when using L2 (Euclidean) distance as the similarity metric, the temperature τ is the characteristic length scale. 具体的に言うと、L2(ユークリッド)距離を類似度メトリックとして使用すると、温度 は特性長スケールである。 0.78
When using L2 squared distance, as in the MNIST and Shapes3D experiments, the square root of the temperature is the characteristic length scale. mnistおよびshapes3d実験のようにl2二乗距離を使用する場合、温度の平方根は特性長さスケールである。 0.79
We expect, then, that the learned embeddings in 64 dimensions contain information about the active factors on length scales greater than τ and about the inactive factors on length scales less than this. すると、64次元の学習された埋め込みは、τよりも大きい長さスケールの活性因子に関する情報と、それよりも長さの非活性因子に関する情報を含むと期待できる。 0.74
A simple test is to introduce random noise into embedding space, removing information on length scales less than that of the noise. 単純なテストは、ランダムノイズを埋め込み空間に導入し、ノイズよりも長さスケールの情報を取り除くことである。 0.78
We add Gaussian-distributed noise with variance τ to the embeddings during the training of the classifier, and show the resulting test set classification accuracies (without noise) in the rightmost plot of Figure S1. 分類器の訓練中にガウス分布雑音を組込みに分散 τ で付加し、図 s1の最右端のプロットで得られたテスト集合の分類精度(ノイズなし)を示す。 0.81
The untrained network results are not very informative because the length scale of the embeddings is whatever resulted from the randomly initialized weights of the embedding network, which happened to be less than τ. 組込みネットワークの無作為初期化重みがτ未満であることから、組込みネットワークの長さスケールはどんなものであれ、訓練されていないネットワーク結果はあまり有益ではない。 0.73
The accuracies all hover around 1/n, with n the number of possible values for generative factor: random guessing, in other words. 精度はすべて1/n付近にあり、nは生成因子の可能な値の数である:ランダムな推測、言い換えれば。 0.74
The classification accuracies for the learned representations, however, now display the same behavior as did the mutual information in two dimensions. しかし、学習した表現に対する分類精度は、現在では2次元の相互情報と同じ振る舞いを示している。 0.69
The inactive factors are suppressed, and the same active factors are enhanced in each active-inactive factor scenario. 不活性因子は抑制され、各アクティブ不活性因子シナリオで同じ活性因子が強化される。 0.81
While not so clean as the mutual information measurements, the classification accuracies help generalize the notion of active factor isolation: the CCS loss organizes embedding space around a subset of active factors that permit a correspondence between input sets, and information with respect to inactive factors is destroyed to the degree that the CCS loss can do so. CCS損失は、入力セット間の対応を許可する活性因子のサブセットの周りの埋め込み空間を整理し、不活性因子に関する情報は、CCS損失がそうすることができる程度に破壊される。
訳抜け防止モード: 相互情報測定ほどクリーンではないが、分類精度は能動因子分離の概念を一般化するのに役立つ。 CCS損失は、入力集合間の対応を許す活性因子のサブセットの周りに埋め込み空間を整理する。 そして、CCS損失が可能である程度に、不活性な要因に関する情報が破壊される。
0.78
S3. Four inactive factors for Shapes3D: All hue plus a geometric factor We expand upon the results of Figure 3 by training with more constrained input sets. S3。 形状3Dの4つの不活性因子: すべての色と幾何学的因子 より制約のある入力セットでトレーニングすることで図3の結果に拡張する。 0.76
We show in Figure S2 results from experiments with four inactive factors: the three hue-related factors and then one of the geometric factors. 図s2では4つの不活性因子(3つのhue関連因子と1つの幾何学的因子)の実験結果を示します。
訳抜け防止モード: 図S2に示す4つの不活性因子の実験結果:3つの色相関連因子 そして幾何学的な要因の1つ。
0.80
The aggregate behavior essentially mirrors that of the bottom subplot of Figure 3c where the three hue factors are inactive, but where the additional inactive factor is suppressed. 集合的挙動は、3つの色相因子が不活性であるが、追加不活性因子が抑制されている図3cの下部サブプロットの挙動を本質的に反映する。 0.64
A noteworthy behavior is apparent when visualizing the embeddings directly for individual runs, as in Figure S2a, The shape generative factor, when active, is consistently partitioned in embedding space into only two groups. 図 S2a のように、個々の実行に対して直接埋め込みを視覚化する際、注目すべき振る舞いが明らかである: 形状生成因子は、アクティブになると、埋め込み空間を2つのグループに分割する。 0.67
The four shapes are S3 √ 4つの形はS3です √ 0.77
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
cube, cylinder, sphere, and pill; if embedding space were partitioned perfectly by shape the mutual information would be the natural log of 4, to which it never gets particularly close. 立方体、シリンダー、球体、および円柱;埋め込み空間が形状によって完全に分割された場合、相互情報が4の自然ログとなり、それが特に近付くことはない。 0.84
The colocated embeddings are cubes with cylinders and spheres with pills. 配置された埋め込みは、シリンダーと丸薬付きの球形の立方体です。 0.57
Evidently whether the top of the shape is round or flat is more salient than the other details, providing another example where the salience of factors affects their isolation in the learned embeddings. 形状の上部が丸か平らかは、他の詳細よりも顕著であり、学習された埋め込みにおいて要因の塩分が分離に影響を与える別の例を提供する。 0.71
Figure S2. Highly constrained inputs for Shapes3D experiments. 図S2。 形状3D実験のための高制約入力 0.72
We extend the experiments of Section 4.1 by constraining the input sets with one additional generative factor, to better probe the difference between the three hue and the three geometric factors. 入力集合を1つの生成因子で制限することによりセクション41の実験を拡張し、3つの色相と3つの幾何学的因子の差をよりよく調査する。 0.67
In (a) we show one example of learned representations where the three hue factors and scale are inactive factors in each training set. a)では、各トレーニングセットで3つの色相要因とスケールが非アクティブ要因である学習された表現の例を示します。 0.77
Interestingly, the shape factor – of which there are four possible values – seems to be split into two groups, one with cylinders and cubes and the other with pills and spheres. 興味深いことに、4つの可能な値を持つ形状因子は、シリンダーと立方体を持つものと、ピルと球形の2つのグループに分けられている。 0.74
We observed this particular grouping to happen in the majority of the cases for this active-inactive split, indicating another level of salience difference with respect to the embedding network. この特定のグループ化は,このアクティブ非アクティブスプリットのケースの大部分で発生し,組込みネットワークに関して別のレベルの塩分差を示した。 0.77
In (b) we measure the mutual information I(U ; G) with respect to all six generative factors, as in Figure 3c, where the fourth (geometric) inactive factor is the scale, shape, and orientation, respectively. b) 図3cでは, 4番目の(幾何学的)不活性因子がそれぞれスケール, 形状, 向きであるような6つの生成因子について, 相互情報I(U, G)を測定する。 0.76
S4. Multiple factors of variation and the effect of set size If correspondence between two sets can be found with only a single factor of variation, why do the experiments of this paper suggest CCS isolates multiple factors of variation? S4。 ばらつきの複数の要因とセットサイズの影響 2つのセット間の対応が1つのばらつきの要素でしか見つからない場合、なぜCCSはばらつきの複数の要因を分離するのだろうか? 0.82
To be specific, in almost all of the Shapes3D experiments, multiple generative factors were present in the learned representations. 具体的に言うと、shapes3d実験のほとんどすべてにおいて、学習した表現に複数の生成因子が存在した。 0.66
Presumably a correspondence between MNIST digits could be found using stroke thickness, yet the embeddings always contain slant information as well. おそらく、ストローク厚みを用いてMNIST桁間の対応を見つけることができるだろうが、埋め込みは常にスラント情報も含んでいる。 0.65
In the pose experiments, only embedding azimuth would suffice to allow a correspondence between images, yet elevation information was also clearly present. ポーズ実験では、画像間の対応にアジマスを埋め込むだけで十分だが、高度情報も明らかに存在する。 0.63
In Figure S3 we run a simple Monte Carlo experiment where two sets of points are randomly sampled from a uniform distribution, representing ideal embeddings whose factors of variation are randomly distributed from the same distribution, and the value for the CCS loss is evaluated. 図S3では、2つの点セットを均一な分布からランダムにサンプリングし、同じ分布からばらつきの要因がランダムに分布する理想的な埋め込みを表し、CCS損失の値を評価するシンプルなモンテカルロ実験を実行します。 0.87
The loss is averaged over 10,000 random draws. 損失は平均1万以上のランダムな引き分けである。 0.62
In the normal setting where the distribution in embedding space is learned via training, temperature has little effect because the distribution can be expanded or contracted to best fit the length scale set by temperature. 埋め込み空間の分布が訓練によって学習される通常の環境では、温度によって設定された長さスケールに最も適するように分布を拡大したり縮めたりできるため、温度の影響はほとんどない。 0.68
In this simulation, the distribution is fixed so the temperature which optimizes the loss needs to be found. このシミュレーションでは、分布が固定されるので、損失を最適化する温度を見つける必要がある。 0.81
We observed that the length scale set by the temperature roughly scales with the average inter-point distance, but not exactly, so the value was optimized numerically. 温度によって設定された長さスケールは,平均点間距離とほぼ一致するが,正確には一致せず,数値的に最適化された。 0.73
Interestingly, when the number of points in each set is larger than O(10), the CCS loss can be lowered by increasing the dimension of the distribution. 興味深いことに、各セットの点数がO(10)より大きい場合、分布の寸法を増やすことによってCCS損失を減らすことができる。 0.73
In other words, there is an incentive in the loss to find multiple independent factors of variation. 言い換えれば、変動の複数の独立した要因を見つけるための損失のインセンティブがあります。 0.73
Additionally, the effect grows as the set size grows. さらに、セットサイズが大きくなると効果が大きくなる。 0.66
S4 ba S4 バ 0.73
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Figure S3. The case for finding more than one factor of variation, through a simple example. 図S3。 単純な例を通じて、1つ以上の変動要因を見つける場合。 0.76
We model the embeddings that would be learned from randomly distributed factors of variation as points sampled uniformly over the unit interval in one to five dimensions. 1次元から5次元の単位間隔で一様にサンプリングされた点の変動のランダムな分散因子から学習される埋め込みをモデル化する。 0.74
(a) Displayed are three random draws, with set size equal to 4 and dimension 1, and with corresponding loss values for the numerically optimized temperature T=0.05. (a) 数値的に最適化された温度T=0.05の対応する損失値と、設定サイズが4と次元1と等しい3つのランダムドローである。 0.76
See text for why temperature needs to be optimized in this simulation but not in general. このシミュレーションで温度を最適化する必要がある理由については、テキストを参照してください。 0.68
The × and circle markers designate Set A and B. × と円マーカーは集合 a と b を指定する。 0.79
(b) Same, but for dimension 2 and numerically optimized temperature T=0.11. (b)同じ、寸法2および数値最適化温度T=0.11。 0.85
(c) The CCS loss averaged over 10,000 random draws, for varying set size and dimension of the uniform distribution. (c) CCS損失は、一様分布のセットサイズと寸法が異なるため、10,000以上のランダムな描画の平均値です。 0.73
While mapping points from two sets along one dimension allows a correspondence to be found, we see that in the presence of stochasticity, multiple independent dimensions lead to lower average values for the loss when the set size is larger than O(10). 1次元に沿った2つの集合からの写像ポイントは対応を見つけることができるが、確率性の存在下では、複数の独立次元は、集合のサイズが O(10) よりも大きいときに損失の平均値が小さくなる。 0.75
We take this as suggestive for why CCS pulls out more than just a single factor of variation, when the factors are of similar salience. 私たちはこれを、ccsが単に1つの要因以上の変化を引き起こす理由を示唆するものとして捉えています。
訳抜け防止モード: 私たちはこれを理由として考えます。 CCSは、要因が類似のサリエンスである場合、変動の単一の要因よりも多くを引き出します。
0.68
S5. Pose estimation ablative studies We run ablative studies on the experiments of Section 4.3 which combined the CCS loss with the spherical regression method of Liao et al (2019), and show results in Figure S4. S5。 本研究は, CCS損失とLiao et al (2019)の球面回帰法を組み合わせた第4章3節の実験について, 比較検討を行い, 図S4で結果を示した。 0.81
Incorporating real images into the unconstrained set boosts performance, but only so long as the fraction of real images is small. 制約のないセットに実画像を組み込むことでパフォーマンスは向上するが、実画像のほんの一部でしかない。
訳抜け防止モード: 制約のない集合に実像を組み込む パフォーマンスが向上するが、実際のイメージのごく一部が小さい場合のみである。
0.74
With more than 2% real images in the second stack, performance begins to degrade quickly. 2番目のスタックで2%以上の実際の画像を使用すると、パフォーマンスは急速に低下し始めます。
訳抜け防止モード: 第2のスタックに 2 % 以上の実画像がある。 パフォーマンスは急速に低下し始めます。
0.65
We conjecture that with more real images the differences between the real and synthetic domains becomes easier for the network to exploit, allowing the multiple extra factors of variation present in real images to be used for embedding. 実画像がより多くなると、実領域と合成領域の違いがネットワークの活用に容易になり、実画像に存在する変動の複数の余分な要因を埋め込みに利用できるようになると推測する。 0.75
This could in effect detach the representations of real and synthetic images, such that they are co-located and successfully minimize the CCS loss, but their representations are with respect to different factors. これは事実上、実際の画像と合成画像の表現を分離し、CCSの損失を最小化することができるが、それらの表現は異なる要因に関して重要である。 0.64
Using L2 distance was found to be the worst for this task, with especially large effect for the chair category. L2距離の使用は、このタスクで最悪であり、特に椅子カテゴリに大きな効果があることが判明しました。 0.72
Cosine similarity, with a temperature τ = 0.1, gave the best results. 温度 τ = 0.1 のコサイン類似性が最も良い結果を得た。 0.87
The ablations with respect to the dimensionality of the latent space and set size during training are harder to interpret due to mixed effects between cars and chairs. 潜在空間の次元とトレーニング中のセットサイズに関するアブレーションは,車と椅子の混合効果により解釈が困難である。 0.68
S5 abc S5 abc 0.82
英語(論文から抽出)日本語訳スコア
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Figure S4. Ablative studies with spherical regression + CCS network. 図S4。 球面回帰+CSネットワークを用いたアブレーション研究 0.81
Error bars are the standard error of the mean over 10 random seeds for each configuration, with less than 1% of the runs discarded for lack of convergence. エラーバーは、各構成で平均10種以上のランダムシードの標準エラーであり、コンバージェンス不足のために廃棄されたランの1%未満である。 0.77
We show results on the Pascal3D+ test split for the car and chair categories. 車と椅子のカテゴリのPascal3D+テスト分割の結果を示します。 0.76
For each row, the training configuration is the same as described in Section S1 with only the listed aspect of training being changed. 各行について、トレーニング構成は、リストされたトレーニングの側面のみを変更したセクションs1で記述されているものと同じである。
訳抜け防止モード: 各行ごとに、トレーニング設定は同じです。 変更される訓練のリストされた側面だけとのセクションS1で記述される。
0.72
In the first row, no titration means to the fraction of real images in set B are present from the beginning of training. 第1行では、トレーニングの開始時から、セットB内の実画像の断片に対する滴定手段が存在しない。 0.69
The three similarity measures in the second row are cosine similarity, L2 (Euclidean) distance, and squared L2 distance. 2列目の3つの類似度尺度は、コサイン類似度、L2(ユークリッド)距離、および正方形のL2距離である。
訳抜け防止モード: 2行目の3つの類似性尺度はコサイン類似性である。 L2 (ユークリッド ) 距離 , 平方 L2 距離 。
0.77
S6 S6 0.78
英語(論文から抽出)日本語訳スコア
S6. Extended Digit style isolation results S6。 拡張Digitスタイルの分離結果 0.89
There and back again: Cycle consistency across sets for isolating factors of variation there and back again: 変動要因の分離のための集合全体のサイクル一貫性 0.78
Figure S5. Retrieval results over the course of training, comparison. 図S5。 トレーニング、比較の過程で結果を取得します。 0.76
We compare retrieval on the test set of MNIST at various stages of training CCS and the two VAE-based approaches mentioned in the main text. CCS訓練の様々な段階におけるMNISTテストセットの検索と,本文で述べた2つのVAEベースのアプローチを比較した。 0.81
As in Figure 4, the query images are the boxed images along the diagonal, and each row is the nearest representative for each class in embedding space. 図4のように、クエリイメージは対角線に沿ったボックスイメージであり、各行は埋め込み空間における各クラスの最も近い代表である。 0.78
Also as before, in all cases the digit 9 was withheld during training. また、前例と同様に、訓練中は数字9は持たなかった。 0.68
We compare digit style isolation on MNIST using the output of CCS and the style part of the latent representations yielded by the VAE-based approaches of Jha et al (2018) and Bouchacourt et al (2018). 我々は, CCSの出力と, Jha et al (2018) と Bouchacourt et al (2018) の VAE ベースのアプローチによって得られる潜在表現のスタイル部分を用いて, MNIST 上の桁式分離を比較した。 0.81
Interestingly, ML-VAE appears to embed the digits with respect to stroke thickness and slant very similarly to CCS at the beginning of training, long before any realistic images are able to be generated, but this clear interpretability of the embeddings fades as training progresses. 興味深いことに、ML-VAEはストロークの厚さに関する数字を埋め込み、トレーニングの開始時にCCSと非常によく似ているように見える。
訳抜け防止モード: 興味深いことに、ML - VAE は、ストロークの厚さに関して数字を埋め込んでおり、トレーニングの開始時に CCS と非常によく似ている。 現実的なイメージが生まれるずっと前に しかし、この 埋め込みの明確な解釈可能性は、 訓練が進むにつれて消える。
0.52
S7 S7 0.78
                                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。