論文の概要、ライセンス

# (参考訳) マルチドメインからの自己教師付き学習のためのドメイン不変マスキングオートエンコーダ [全文訳有]

Domain Invariant Masked Autoencoders for Self-supervised Learning from Multi-domains ( http://arxiv.org/abs/2205.04771v1 )

ライセンス: CC0 1.0
Haiyang Yang, Meilin Chen, Yizhou Wang, Shixiang Tang, Feng Zhu, Lei Bai, Rui Zhao, Wanli Ouyang(参考訳) 異なる視覚領域にまたがる学習表現を一般化することは、人間の視覚システムの基本的かつ重要な能力である。 近年の自己教師型学習手法は,トレーニングセットと同じドメインで評価を行い,優れたパフォーマンスを達成しているが,異なるドメインでテストした場合,望ましくないパフォーマンスが低下する。 したがって、複数のドメインタスクから自己教師付き学習を行い、トレーニングセットと同じドメインの評価に適するだけでなく、未知のドメインにも一般化できるドメイン不変特徴を学習する。 本稿では,マルチドメインから自己教師付き学習を行うためのドメイン不変マスク型オートエンコーダ(dimae)を提案する。 コアとなるアイデアは、異なるドメインからのスタイルノイズで入力イメージを増強し、拡張画像の埋め込みからイメージを再構築し、エンコーダを正則化してドメイン不変の特徴を学ぶことである。 DiMAEには2つの重要な設計が含まれている。 1) パラメータフリーでコンテンツを持続しながら入力に他のドメインからのスタイル情報を追加するコンテンツ保存スタイルミックス 2)複数のドメイン固有デコーダは、コード化されたドメイン不変の機能に対応する入力のドメインスタイルを復元する。 PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。

Generalizing learned representations across significantly different visual domains is a fundamental yet crucial ability of the human visual system. While recent self-supervised learning methods have achieved good performances with evaluation set on the same domain as the training set, they will have an undesirable performance decrease when tested on a different domain. Therefore, the self-supervised learning from multiple domains task is proposed to learn domain-invariant features that are not only suitable for evaluation on the same domain as the training set but also can be generalized to unseen domains. In this paper, we propose a Domain-invariant Masked AutoEncoder (DiMAE) for self-supervised learning from multi-domains, which designs a new pretext task, \emph{i.e.,} the cross-domain reconstruction task, to learn domain-invariant features. The core idea is to augment the input image with style noise from different domains and then reconstruct the image from the embedding of the augmented image, regularizing the encoder to learn domain-invariant features. To accomplish the idea, DiMAE contains two critical designs, 1) content-preserved style mix, which adds style information from other domains to input while persevering the content in a parameter-free manner, and 2) multiple domain-specific decoders, which recovers the corresponding domain style of input to the encoded domain-invariant features for reconstruction. Experiments on PACS and DomainNet illustrate that DiMAE achieves considerable gains compared with recent state-of-the-art methods.
公開日: Tue, 10 May 2022 09:49:40 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] V C . s c [ ] 略称はC。 sc [ 0.39
1 v 1 7 7 4 0 1 v 1 7 7 4 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Domain Invariant Masked Autoencoders for Self-supervised Learning from 自己教師付き学習のための領域不変マスキングオートエンコーダ 0.54
Multi-domains Haiyang Yang1,4∗,Meilin Chen2,4∗,Yizhou Wang2,4∗, Shixiang Tang3∗, Feng Zhu4, マルチドメイン haiyang yang1,4∗,meilin chen2,4∗,yizhou wang2,4∗,shixiang tang3∗,feng zhu4, 0.48
Lei Bai3, Rui Zhao4,5, Wanli Ouyang3 Lei Bai3, Rui Zhao4,5, Wanli Ouyang3 0.38
1Nanjing University, 2Zhejiang University, 3The University of Sydney,4SenseTime Research, 1Nanjing University, 2Zhejiang University, 3The University of Sydney, 4SenseTime Research 0.42
5Qing Yuan Research Institute, Shanghai Jiao Tong University, Shanghai, China 中国・上海市立江東大学 五清元研究所 0.53
hyyang@smail.nju.edu .cn, {yizhouwang, merlinis}@zju.edu.cn, stan3906@uni.sydney. edu.au, hyyang@smail.nju.edu .cn, {yizhouwang, merlinis}@zju.edu.cn, stan3906@uni.sydney. edu.au, 0.29
{zhufeng, zhaorui}@sensetime.com, baisanshi@gmail.com, wanli.ouyang@sydney. edu.au zhufeng, zhaorui}@sensetime.com, baisanshi@gmail.com, wanli.ouyang@sydney. edu.au 0.37
Abstract 1. Introduction Generalizing learned representations across significantly different visual domains is a fundamental yet crucial ability of the human visual system. 概要 はじめに 異なる視覚領域にまたがる学習表現を一般化することは、人間の視覚システムの基本的かつ重要な能力である。 0.50
While recent selfsupervised learning methods have achieved good performances with evaluation set on the same domain as the training set, they will have an undesirable performance decrease when tested on a different domain. 近年の自己教師付き学習手法は,トレーニングセットと同じドメインで評価を行い,優れたパフォーマンスを達成しているが,異なるドメインでテストした場合,望ましくないパフォーマンスが低下する。 0.79
Therefore, the selfsupervised learning from multiple domains task is proposed to learn domain-invariant features that are not only suitable for evaluation on the same domain as the training set, but also can be generalized to unseen domains. したがって、複数のドメインタスクから自己教師あり学習を行い、学習セットと同一のドメインの評価に適するだけでなく、未知のドメインにも一般化できるドメイン不変特徴を学習する。 0.78
In this paper, we propose a Domain-invariant Masked AutoEncoder (DiMAE) for self-supervised learning from multi-domains, which designs a new pretext task, i.e., the cross-domain reconstruction task, to learn domain-invariant features. 本稿では,マルチドメインから自己教師付き学習を行うためのドメイン不変マスク型オートエンコーダ(dimae)を提案する。
訳抜け防止モード: 本稿では,マルチドメインからの自己教師あり学習のためのドメイン-不変Masked AutoEncoder(DiMAE)を提案する。 新しいプレテキストタスク、すなわちクロスドメイン再構築タスクを設計する。 ドメイン - 不変の機能を学ぶ。
0.65
The core idea is to augment the input image with style noise from different domains and then reconstruct the image from the embedding of the augmented image, regularizing the encoder to learn domain-invariant features. コアとなるアイデアは、異なるドメインからのスタイルノイズで入力イメージを増強し、拡張画像の埋め込みからイメージを再構築し、エンコーダを正則化してドメイン不変の特徴を学ぶことである。 0.76
To accomplish the idea, DiMAE contains two critical designs, DiMAEには2つの重要な設計が含まれている。 0.71
1) content-preserved style mix, which adds style information from other domains to input while persevering the content in a parameter-free manner, and 1) パラメータフリーでコンテンツを持続しながら入力に他のドメインからのスタイル情報を追加するコンテンツ保存スタイルミックス 0.77
2) multiple domain-specific decoders, which recovers the corresponding domain style of input to the encoded domain-invariant features for reconstruction. 2)複数のドメイン固有デコーダは、コード化されたドメイン不変の機能に対応する入力のドメインスタイルを復元する。 0.71
Experiments on PACS and DomainNet illustrate that DiMAE achieves considerable gains compared with recent state-of-the-art methods. PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。
訳抜け防止モード: pacs と domainnet の実験は dimaeは最近のstate-of-the-artメソッドに比べてかなりの成果を上げている。
0.48
Code will be released upon acceptance. コードは受理時にリリースされる。 0.71
∗ The work was done during an internship at SenseTime. ∗ この作業はSenseTimeのインターンシップ中に行われた。 0.70
Recent advances on self-supervised learning (SSL) with the contrastive loss [7, 9, 18, 34] have shown to be effective in easing the burden of manual annotation, and achieved comparable performance with supervised learning methods. 対照的な損失 [7, 9, 18, 34] を伴う自己教師あり学習 (ssl) の最近の進歩は, 手動アノテーションの負担を軽減し, 教師あり学習法と同等の性能を達成している。 0.76
When trained on large-scale datasets, e g ImageNet [11], self-supervised learning methods are capable of learning high-level semantic image representations [13, 41, 44] that are transferable to various downstream tasks without using expensive annotated labels. 大規模データセットのトレーニングでは,高レベルのセマンティックイメージ表現[13,41,44]を,高価なアノテートラベルを使わずに,さまざまな下流タスクに転送可能な学習を行うことができる。
訳抜け防止モード: 大規模データセット, eg ImageNet [11 ], 自己教師あり学習方法のトレーニング 高いレベルのセマンティックイメージ表現を学習することができる[13]。 41, 44 ] 高価なアノテートラベルを使わずに、様々な下流タスクに転送できます。
0.76
However, the great success of existing self-supervised learning methods implicitly relies on the assumption that training and testing sets are identically distributed, and thus these methods will suffer an undesirable performance drop when the trained model is tested on other domains [33,36,47] that do not exist in the training set. しかし,既存の自己教師型学習手法の大きな成功は,トレーニングセットとテストセットが同一に分散されているという仮定に暗黙的に依存しているため,トレーニングセットに存在しない他のドメイン[33,36,47]でトレーニングモデルがテストされた場合,これらの手法は好ましくない性能低下を被ることになる。 0.72
Self-supervised learning from multi-domain data aims at learning domain invariant representations that are not only suitable for domains in the training set, but also can generalize well to other domains missing in the training set. マルチドメインデータからの自己教師付き学習は、トレーニングセットのドメインに適しただけでなく、トレーニングセットに欠けている他のドメインに対してもうまく一般化できる、ドメイン不変表現の学習を目的としている。 0.63
Existing methods can be generally divided into two categories, i.e, self-prediction methods and contrastive-based methods. 既存の手法は一般的に、自己予測法と対比に基づく方法という2つのカテゴリに分けられる。
訳抜け防止モード: 既存の方法は一般に2つのカテゴリ、すなわち self - 予測メソッドとコントラストベースのメソッド。
0.72
Early methods for self-supervised learning from multidomain data append self-prediction tasks to learn domaininvariant features. マルチドメインデータからの自己教師付き学習の初期の方法は、ドメイン不変の機能を学ぶための自己予測タスクを追加する。 0.49
For example, [14] randomly rotates the input image and regularizes the model to predict the rotation angle [15] to increase the model generalization ability. 例えば、[14]は入力画像をランダムに回転させ、モデルを正規化し、回転角[15]を予測してモデルの一般化能力を高める。
訳抜け防止モード: 例えば [ 14 ] は入力画像をランダムに回転させる モデルを標準化し モデル一般化能力を高めるために 回転角[15]を予測する。
0.88
These self-prediction tasks are sub-optimal solutions, because they are not specifically designed to eliminate the domain bias in the dataset. これらの自己予測タスクは、データセットのドメインバイアスを取り除くために特別に設計されていないため、サブ最適ソリューションである。 0.63
Contrastive-based methods [22,43] explicitly eliminate the domain bias by pulling the sample and its nearest neighbor from a different domain close. コントラストベースのメソッド [22,43] は、サンプルとその最寄りの近傍を異なるドメインクローズから引き出すことによって、ドメインバイアスを明示的に排除する。
訳抜け防止モード: 対比に基づく手法[22,43]はドメインバイアスを明示的に排除する サンプルと近くの隣人を 別のドメインから引き抜いて
0.82
However, the positive pair retrieved by the nearest neighbor across the domains is much more noisy than that in a single domain, because semantically similar images from different domains may have a large visual difference. しかし、各ドメインに最も近い隣人によって取得される正の対は、異なるドメインのセマンティックに類似した画像が大きな視覚的差異を持つため、単一のドメインのそれよりもはるかにうるさい。 0.75
英語(論文から抽出)日本語訳スコア
In this paper, we tackle the self-supervised learning from multi-domain data from a different perspective, i.e., generative self-supervised learning, and propose a new Domain invariant Masked AutoEncoders (DiMAE) for learning domain-invariant features from multi-domain data, which is motivated by the recent generative-based self-supervised learning method Masked Auto-Encoders (MAE) [17]. 本稿では,多領域データからの自己教師型学習,すなわち生成的自己教師型学習に取り組み,最近の生成的自己教師型学習手法Masked Auto Encoders (MAE) [17] を動機とした多領域データからドメイン不変性を学ぶための新しいドメイン不変型Masked Auto Encoders (DiMAE)を提案する。 0.83
Specifically, MAE eliminates the low-level information by masking large portion of image patches and drives the encoder to extract semantic information by reconstructing pixels from very few neighboring patches [3] with a light-weighted decoder. 具体的には、maeは画像パッチの大部分をマスキングして低レベルな情報を排除し、エンコーダを駆動して、非常に少数の隣接パッチ[3]から軽量デコーダでピクセルを再構成することで意味情報を抽出する。 0.62
However, this design does not take the domain gaps into consideration and thus can not generalize well for the self-supervised learning from multi-domain tasks. しかし、この設計はドメインギャップを考慮に入れておらず、マルチドメインタスクからの自己教師付き学習をうまく一般化できない。 0.68
To close the gap, our proposed DiMAE constructs a cross-domain reconstruction task, which uses the image with the mixed style from different domains as input for one content encoder to extract domain invariant features and multiple domain-specific decoders to recover the specific domain style for regressing the raw pixel values of masked patches before style mix under an MSE loss, as shown in Fig 1. このギャップを解消するため,提案手法では,異なる領域の混合スタイルを入力として1つのコンテントエンコーダの入力として用いるクロスドメイン再構築タスクを構築し,ドメイン不変特徴と複数のドメイン固有デコーダを抽出し,mse損失下でマスキングパッチの生画素値をレグレッションする特定のドメインスタイルを復元する。 0.75
The critical designs and insights behind DiMAE for self-supervised learning from multi-domain data involve: マルチドメインデータからの自己教師あり学習のためのdimaeの背後にある重要な設計と洞察は次のとおりである。 0.49
(1) The cross-domain reconstruction task aims at reconstructing the image from the image with other domain styles. 1) クロスドメイン再構築作業は、画像から他のドメインスタイルでイメージを再構築することを目的としている。
訳抜け防止モード: (1)クロスドメイン再構築課題 画像から他のドメインスタイルでイメージを再構築することです
0.74
DiMAE disentangles the reconstruction into two processes: a content1 encoder to remove the domain style by extracting domain-invariant features, and a domainspecific decoder to recover the style of the reconstruction target domain. dimaeは、ドメイン不変な特徴を抽出してドメインスタイルを取り除くcontent1エンコーダと、再構築対象ドメインのスタイルを復元するdomain specific decoderの2つのプロセスに分解する。 0.76
By forcing the decoder to learn specific style information, we regularize the encoder to learn domaininvariant features. デコーダに特定のスタイル情報を学習させることにより、エンコーダを正規化し、ドメイン不変な特徴を学習させる。 0.54
(2) The content preserved style mixing aims to add style noise of the other domains to one image while preserving the content information. 2)コンテンツ保存スタイルミキシングは,コンテンツ情報を保存しながら,他のドメインのスタイルノイズを1つの画像に追加することを目的としている。
訳抜け防止モード: (2)内容保存型混合目的 コンテンツ情報を保持しつつ、他の領域のスタイルノイズを1つの画像に追加する。
0.85
While there exist some popular mixing methods (e.g, mixup [42] and cutmix [40]) able to mix domain styles, they also add content noise to the image. ドメインスタイルをミックスできる一般的な混合方法(mixup [42]やcutmix [40]など)はいくつか存在するが、画像にコンテンツノイズを加えることもできる。 0.85
Our experiments find that the content noise will lead to a significant performance decrease in our cross-domain reconstruction task. 実験の結果,コンテンツノイズはドメイン間再構成作業において顕著な性能低下をもたらすことがわかった。 0.70
Therefore, we propose a new nonparametric content preserved style mixing method to take advantage of the cross-domain reconstruction and avoid the undesirable performance decrease by content noise. そこで本研究では,クロスドメイン復元を利用した非パラメトリックコンテンツ保存型混合手法を提案し,コンテンツノイズによる性能低下を回避した。 0.74
(3) The multiple domain-specific decoders aim to recover the corresponding domain style of the target image for reconstruction from the encoded domain-irrelevant features. (3)複数のドメイン固有デコーダは、符号化されたドメイン関連の特徴から、対象画像の対応するドメインスタイルを復元することを目的としている。
訳抜け防止モード: (3) 多重ドメイン - 特定のデコーダを目標とする 対象画像の対応するドメインスタイルを復元し、エンコードされたドメインから復元する。
0.70
Although the decoder network design, e g , such as the number of layers, can determine the semantic level of the learned latent representations as pointed out in MAE [17], 層数などのデコーダネットワーク設計は,MAE[17]に指摘されているように,学習した潜在表現の意味レベルを決定することができる。 0.69
1“content” and “style” are terms widely used in style mix. 1 "content" と "style" はスタイルミックスで広く使われる用語である。 0.86
“content” means domain-invariant information, while “style” means domain-specific information. content" はドメイン不変情報、"style" はドメイン固有情報を意味する。 0.76
we find that a single decoder as used in MAE can not help to regularize the encoder to learn domain-invariant features. MAEで使用される1つのデコーダは、ドメイン不変の機能を学ぶためにエンコーダを正規化するのに役立ちません。
訳抜け防止モード: MAEで使われる1つのデコーダは役に立たない エンコーダを正規化してドメイン-不変の機能を学ぶ。
0.71
To reconstruct the image from a specific domain, the encoder will leak the domain information to guide the decoder to reconstruct the image with the input image’s style. 特定の領域から画像を再構成するには、エンコーダがドメイン情報をリークしてデコーダを誘導し、入力された画像のスタイルで画像を再構築する。 0.75
This prevents the encoder from learning the domain-invariant features. これにより、エンコーダがドメイン不変な特徴を学習することを妨げる。 0.53
Therefore, multiple domain-specific decoders are proposed to recover different domain styles by domaincorresponding decoders, which regularizes the encoder to only learn domain-invariant features. したがって、複数のドメイン固有デコーダが、ドメイン応答デコーダによって異なるドメインスタイルを復元するために提案されている。 0.71
To demonstrate the effectiveness of DiMAE, we conduct experiments on the multi-domain dataset PACS [25] and DomainNet [31], observing consistent performance improvements on both in-domain and cross-domain settings. DiMAEの有効性を実証するため、マルチドメインデータセットPACS[25]とDomainNet[31]で実験を行い、ドメイン内設定とクロスドメイン設定の両方で一貫したパフォーマンス改善を観察する。 0.81
For the in-domain evaluation, DiMAE outperforms state-ofthe-art methods by +0.8% on the PACS. ドメイン内評価では、DMAEはPACSで最先端の手法を+0.8%上回っている。 0.46
On cross-domain testing, we achieve considerable gains over the recent stateof-the-art methods in both linear evaluation and full network fine-tuning. クロスドメインテストでは、線形評価と完全ネットワークの微調整の両方において、最近の最先端手法を大きく上回っている。 0.60
Specifically, in linear evaluation, our method improves the recent state-of-the-art by +8.07% on PACS with 1% data fine-tuning fraction. 具体的には, 線形評価において, PACSを1%微調整率で+8.07%向上させる手法を提案する。 0.67
In full network fine-tuning with 100% data, we get an averaged +13.24% and +9.87% performance gains on PACS and DomainNet, respectively. 100%データによる完全なネットワーク微調整では、PACSとDomainNetで平均+13.24%、+9.87%のパフォーマンス向上が得られた。 0.66
The contributions of our work are summarized as threefolds: (1) We propose a new generative framework which leverages the cross-domain reconstruction as the pretext to learn domain-invariant features from multi-domain data. 1)マルチドメインデータからドメイン不変の特徴を学習するための前提として、ドメイン間再構成を利用した新しい生成フレームワークを提案する。
訳抜け防止モード: 研究の貢献は3つにまとめる: (1 ) クロスドメイン再構築を前提とした新しい生成フレームワークを提案する。 マルチドメインデータからドメイン-不変機能を学ぶ。
0.75
(2) We propose a new non-parametric style-mix method that can preserve the content information to exploit the crossdomain reconstruction task and avoid performance drop by content noise. 2) コンテンツ情報を保存してクロスドメイン復元タスクを活用し, コンテンツノイズによる性能低下を回避できる新しい非パラメトリックスタイル混合手法を提案する。 0.87
(3) We modify the single decoder in MAE to multiple domain-specific decoders to regularize the encoder to learn domain-invariant features. (3)MAEの単一デコーダを複数のドメイン固有デコーダに修正し、エンコーダを正規化してドメイン不変の特徴を学習する。 0.70
We show that our DiMAE outperforms state-of-the-art self-supervised learning baselines on learning representation from multi-domain data. 我々は,DMAEが,多領域データからの学習表現に基づく最先端の自己教師型学習ベースラインより優れていることを示す。 0.49
2. Related Work 2.1. 2.関連作業 2.1 0.91
Self-supervised Learning Self-supervised Learning (SSL) introduces various pretext tasks to learn semantic representations from unlabeled data for a better generalization in downstream tasks. 自己指導型学習 自己教師付き学習(SSL)は、下流タスクのより良い一般化のためにラベルなしデータから意味表現を学ぶための様々なプレテキストタスクを導入している。
訳抜け防止モード: 自己指導型学習 自己指導型学習(SSL)がさまざまなプレテキストタスクを導入 下流タスクのより優れた一般化のために、ラベルのないデータから意味表現を学ぶ。
0.59
Generally, SSL can be categorized into discriminative [5, 7, 9, 10,15,16,18,29,41] and generative methods [17,23,24,30]. SSLは一般的に差別的[5, 7, 9, 10,15,16,18,29,41] と生成的メソッド [17,23,24,30] に分類される。 0.53
Among the former, some early works try to design auxiliary handcrafted prediction tasks to learn semantic representation, such as jigsaw puzzle [29] and rotation prediction [15]. 前者の中には、jigsawパズル[29]やローテーション予測[15]のような意味表現を学ぶために、補助的な手作り予測タスクを設計する初期の作品もある。 0.71
Recently, contrastive approaches [5, 7, 9, 10, 16, 18, 41] emerge as a promising direction for SSL. 最近、sslの有望な方向性として(5, 7, 9, 10, 16, 18, 41)対照的なアプローチが現れている。
訳抜け防止モード: 最近, コントラスト的アプローチ [5, 7, 9, 10] 16, 18, 41 ] SSL の有望な方向性として現れます。
0.78
They consider each instance a different class and promote the instance 彼らは各インスタンスを異なるクラスとみなし、インスタンスを宣伝する。 0.61
英語(論文から抽出)日本語訳スコア
discrimination by forcing representation of different views of the same image closer and spreading representation of views from different images apart. 同じイメージの異なるビューの表現を近くに押し付け、異なるイメージから異なるビューの表現を広げることによる差別。 0.79
Although remarkable progress has been achieved, contrastive methods heavily rely on data augmentation [7, 34] and negative sampling [18, 38]. 顕著な進歩を遂げたものの、対照的な手法はデータ拡張 [7, 34] と負のサンプリング [18, 38] に大きく依存している。 0.72
Another recent resurgent line of SSL is generative approaches, many of which train an encoder and decoder for pixel reconstruction. SSLのもう一つの復活線は生成的アプローチであり、その多くがピクセル再構成のためにエンコーダとデコーダを訓練している。 0.60
Various pretext tasks have been proposed, such as image inpainting [30] and colorization [23, 24]. 画像インペイント[30]やカラー化[23,24]など,さまざまなプリテキストタスクが提案されている。 0.84
Very recently, since the introduction of ViT [12], masked image modeling (MIM) has re-attracted the attention of the community. 近年, ViT [12] の導入以降,マスク画像モデリング (MIM) がコミュニティの注目を集めている。 0.68
iGPT [6] proposes to predict the next pixels of a sequence, and BEiT [2] leverages a variational autoencoder (VAE) to encode masked patches. iGPT[6]はシーケンスの次のピクセルを予測することを提案し、BEiT [2]は可変オートエンコーダ(VAE)を利用してマスクされたパッチをエンコードする。 0.71
A very relevant work, MAE [17] proposes to train the autoencoder to capture the semantic representation by recovering the input image from very few neighboring patches. 非常に関連する作業として,MAE [17] では,隣接するパッチから入力イメージを復元することにより,セマンティック表現をキャプチャするためのオートエンコーダのトレーニングを提案している。
訳抜け防止モード: 非常に関係のある作品である MAE [ 17 ] の提案 隣接するパッチから入力イメージを復元することで、セマンティック表現をキャプチャするためにオートエンコーダを訓練する。
0.75
Unlike aforementioned methods that focus on the progress of learning from single domain, our proposed method, a novel generative approach for SSL, is devoted into a more common scenario, pretraining from multiple domains. 一つのドメインからの学習の進歩に焦点を当てた前述の方法とは異なり、提案手法はSSLの新しい生成手法であり、複数のドメインから事前学習するより一般的なシナリオに特化している。 0.79
As far as we know, we are the first to propose the generative pretraining method for training from multi domain data. 私たちが知る限り、マルチドメインデータからトレーニングを行うための生成前トレーニング手法を最初に提案しました。 0.74
2.2. Domain Generalization 2.2. ドメインの一般化 0.47
Domain Generalization (DG) considers the transferability to unseen target domains using labeled data from a single or multiple source domains. ドメイン一般化(DG)は、単一のまたは複数のソースドメインからのラベル付きデータを使用して、未確認のターゲットドメインへの転送可能性を検討する。 0.54
A common approach is to minimize the distance between source domains for learning domain-invariant representations, among which are minimizing the KL Divergence [37], minimizing maximum mean discrepancy [27] and adversarial learning [1, 28, 32]. 一般的なアプローチは、klの発散[37]を最小化し、最大平均不一致[27]と逆学習[1,28,32]を最小化する、ドメイン不変表現を学ぶためのソースドメイン間の距離を最小化することである。 0.72
Several approaches propose to exploit meta-learning [26] or augmentation [4, 45] to promote the transferability for DG. メタラーニング [26] や拡張 [4, 45] を利用してDGの伝達性を促進する手法が提案されている。 0.68
Despite the promising advances in recent DG methods, they assume that source domains are annotated. 最近のDG法では有望な進歩があったが、ソースドメインはアノテートされていると仮定している。 0.48
To address this issue, Unsupervised DG (UDG) is proposed as a more general task of training with unlabeled source domains. この問題に対処するため、unsupervised dg (udg) はラベルなしのソースドメインでのトレーニングのより一般的なタスクとして提案されている。 0.59
[14] introduces rotation prediction and mutual information maximization for multi-domain generalization. 14]マルチドメイン一般化のための回転予測と相互情報最大化を導入する。 0.66
Derived from contrastive learning, DIUL [43] incorporates domain information into the contrastive loss by a reweighting mechanism considering domain labels. 対照的な学習から派生したDIUL[43]は、ドメインラベルを考慮した再重み付け機構により、ドメイン情報を対照的な損失に組み込む。 0.63
Despite the promising results, these two works carefully design domain-related discriminative pretext tasks and try to strike a compromise between instance and domain discrimination. 有望な結果にもかかわらず、これら2つの作業はドメイン関連の判別前文タスクを慎重に設計し、インスタンスとドメインの識別の間の妥協を試みます。 0.53
Our proposed method, in contrast, is a brand new generative approach for self-supervised learning from multi-domain data, showing strong advantages for UDG setting. 一方,提案手法は,多領域データから自己教師あり学習を行うための新しい生成手法であり,udg設定に強いアドバンテージを示す。 0.78
3. Domain-Invariant Masked AutoEncoder 3.1. 3.ドメイン不変のMasked AutoEncoder 3.1 0.76
Cross-domain Reconstruction Framework クロスドメイン再構築フレームワーク 0.65
Different from MAE which learns high-level semantic representations by reconstruction from a highly masked image, our DiMAE learns domain invariant representation by a cross-domain reconstruction task, which aims at recovering images from an image mixed with other domain styles. ハイレベルなセマンティック表現を高度にマスキングされた画像から再構成することで学習するMAEとは異なり、DMAEは他のドメインスタイルと混在した画像から画像を復元することを目的としたクロスドメイン再構成タスクによりドメイン不変表現を学習する。 0.68
Specifically, DiMAE consists three modules, including a Content Preserved Style-Mix (CP-StyleMix), a content encoder, and multiple domain-specific decoders. 具体的には、コンテンツ保存スタイルミクス(CP-StyleMix)、コンテンツエンコーダ、複数のドメイン固有のデコーダの3つのモジュールで構成される。 0.70
The CPStyleMix is used to mix the style information from different domains while preserving the domain-irrelevant object content, which generates the input of the cross-domain reconstruction task. CPStyleMixは、クロスドメイン再構築タスクの入力を生成するドメイン関連オブジェクトコンテンツを保存しながら、異なるドメインからのスタイル情報を混合するために使用される。 0.79
The content encoder F(∗, θF ) are shared by images from all domains, where θF is the parameter of F, and is expected to encode the content and domain-invariant information by denoising the style information. コンテンツエンコーダf(∗, θf )は、すべての領域の画像で共有され、θf は f のパラメータであり、スタイル情報によってコンテンツとドメイン不変情報を符号化することが期待される。 0.83
The domain-specific decoders G in DiMAE are designed to incorporate the style information to the domaininvariant representation for image reconstruction, where G = {G1(∗, φ1),G2(∗, φ2), ...,GNd (∗, φNd )}, φi is the parameter for the i-th domain-specific decoder and Nd is the number of domains in the training set. DiMAEのドメイン固有デコーダGは、G = {G1(∗, φ1), G2(∗, φ2), ...,GNd(∗, φNd )} で、φiはi番目のドメイン固有デコーダのパラメータであり、Ndはトレーニングセット内のドメインの数である。
訳抜け防止モード: DiMAEのドメイン-特定デコーダGは、画像再構成のためのドメイン不変表現にスタイル情報を組み込むように設計されている。 ここで G = { G1(∗, φ1), G2(∗, φ2 ), ..., GNd ( ∗, φNd ) }, φi は i - th ドメイン固有のデコーダのパラメータである そして、Ndはトレーニングセット内のドメインの数です。
0.84
As shown in Fig 1, our DiMAE has the following steps: 図1に示すように、私たちのDiMAEには以下のステップがあります。 0.66
Step1: Transform an image x to its style-mixed view v by Content Preserved Style-Mix (Sec. 3.2). step1: イメージxをスタイル混合ビューvにコンテント保存スタイル混合(sec. 3.2)で変換する。 0.78
Given an image x, with Content Preserved Style-Mix, we mix the style from other domains to the image x while preserving the content in x to generate its style-mixed view v. 画像 x が与えられたとき、Content Preserved Style-Mix で、他のドメインからのスタイルをイメージ x に混ぜながら、コンテントを x に保存し、スタイル混合ビュー v を生成する。 0.77
3.4). Given 3.4). 与えられた 0.40
content representation image ˆx by 内容 表現 画像 x by の略。 0.52
Reconstruct the Step2: Transform the style-mixed view v to content representation z (Sec. 3.3). 再建 その... step2: style-mixed view v を content representation z (sec. 3.3) に変換する。 0.53
We randomly divides v into visible patches vv and masked patches vm, and extract content representation z by encoding the visible patches vv by F(∗, θF ). v を可視パッチ vv とマスキングパッチ vm にランダムに分割し、可視パッチ vv を f(∗, θf ) で符号化してコンテンツ表現 z を抽出する。 0.72
Step3: content representation z with the domain-specific decoders z (Sec. ステップ3: ドメイン固有のデコーダz(sec)によるコンテンツ表現z。 0.72
and multiple = {G1(∗, φ1),G2(∗, φ2), ...,GNd (∗, φNd )}, we reconstruct the image ˆx by Gi, where Gi is the decoder of the i-th domain. そして、多重 = {G1(∗, φ1), G2(∗, φ2), ..., GNd (∗, φNd )} は、Gi が i 番目の領域のデコーダであるような Gi による像を再構成する。 0.76
Step4: Backward propagation using the MSE loss (Sec. 3.5). Step4: MSE損失を用いた後方伝播(Sec. 3.5)。 0.78
Given the reconstructed image ˆx and the original image x, the parameters θF in F(∗, θθF ) and the parameters φ1, φ2,··· , φNd in G(∗, φ1), G(∗, φ2), ..., G(∗, φNd ) are learned by the MSE loss. f(∗, θθf ) のパラメータ θf と g(∗, φ1), g(∗, φ2), ..., g(∗, φnd ) のパラメータ φ1, φ2,····· , φnd in g(∗, φ1), g(∗, φ2), ..., g(∗, φnd ) は mse の損失によって学習される。
訳抜け防止モード: 再構成された像 x と元の像 x が与えられたとき、パラメータ θf は f(∗, θθf ) である。 そしてパラメータ φ1, φ2, · · ·, φnd in g(∗, φ1 ) g(∗, φ2 ), ..., g(∗, φnd ) は mse の損失によって学習される。
0.84
3.2. Content Preserved Style-Mix 3.2. コンテンツ保存スタイルミックス 0.56
domain-specific decoders ドメイン特化 デコーダ 0.64
G Content Preserved Style-Mix (CP-StyleMix) aims at mixing two styles into an image while preserving the content information. G Content Preserved Style-Mix (CP-StyleMix)は、コンテンツ情報を保存しながら2つのスタイルを画像に混ぜることを目的としている。
訳抜け防止モード: G Content Preserved Style - Mix (CP - StyleMix ) が目標 コンテンツ情報を保存しながら2つのスタイルを画像に混ぜること。
0.59
This is a critical part for the cross-domain reconstruction tasks. これはドメイン間の再構築作業にとって重要な部分です。 0.62
Inspired by [39], the style information and the content information can be disentangled in the 39]にインスパイアされて、スタイル情報とコンテンツ情報とをアンタングル化することができる。 0.78
英語(論文から抽出)日本語訳スコア
Figure 1. The pipeline of DiMAE. 図1に示す。 DiMAEのパイプライン。 0.55
First, CP-StyleMix transforms the original image x to its style-mixed view v by adding style information from other domains without introducing content noise. まずcp-stylemixは、コンテンツノイズを導入することなく、他のドメインからスタイル情報を付加することで、オリジナルイメージxをスタイル混合ビューvに変換する。 0.62
Second, the style-mixed view v is divided into visible patches vv and masked patches vm, and the content encoder learns the content representation z from visible patches. 次に、スタイル混合ビューvを可視パッチvvとマスクパッチvmに分割し、コンテンツエンコーダが可視パッチからコンテンツ表現zを学習する。
訳抜け防止モード: 第二に様式 混合ビューvは、可視パッチvvとマスクパッチvmに分割される。 コンテンツエンコーダは、可視パッチからコンテンツ表現zを学習する。
0.77
Third, domain-specific decoders learn to reconstruct ˆx by the corresponding decoder. 第3に、ドメイン固有のデコーダは、対応するデコーダによってxを再構築することを学ぶ。 0.45
the second step of mix on the image space by Mixup [42] process. Mixup[42]プロセスによるイメージ空間上のミックスの第2ステップ。 0.72
Mathematically, the Mixup process can be formulated as 数学的には、ミックスアップ過程を定式化することができる。 0.52
Nd(cid:88) Nd (cid:88) 0.41
v = µivi, (2) v = μivi (2) 0.40
Figure 2. The pipeline of CP-StyleMix. 図2。 CP-StyleMixのパイプライン。 0.74
We mix the Fourier Amplitude of the original image x and two images from other domains to generate content preserved and style-transferred images, and mix them to generate the style-mixed view v. 原画像xのフーリエ振幅と他の領域からの2つの画像とを混合し、保存されたコンテンツとスタイル転送画像を生成し、それらを混合してスタイル混合ビューvを生成する。 0.67
Fourier space. The content information is encoded in the phase of Fourier signals, and the style information is encoded in the amplitude of the Fourier signals. フーリエ空間。 コンテンツ情報はフーリエ信号の位相に符号化され、スタイル情報はフーリエ信号の振幅に符号化される。 0.70
We propose to first mix the style of the i-th domain to the image x in the Fourier space, generation its style views {v1, v2, ..., vNd}, where Nd is the number of domains. まず、i 番目の領域のスタイルをフーリエ空間のイメージ x に混合し、そのスタイルビュー {v1, v2, ..., vNd} を生成する。
訳抜け防止モード: まず、i-th領域のスタイルをフーリエ空間の像 x に混合することを提案する。 スタイルビュー { v1, v2, ..., vNd } を生成する。 ここで Nd はドメインの数です。
0.71
Then we mix these style views by the typical Mixup method [40] in the image space, generating the final style-mixed view v. そして、これらのスタイルビューを画像空間内の典型的なmixupメソッド [40] で混合し、最終的なスタイル混合ビューvを生成する。 0.73
Specifically, for mixing in the Fourier space, given an image x from j-th domain and a randomly selected image xaux from the i-th domain (i (cid:54)= j), the view vi of image x can be formulated as 具体的には、第j領域からの画像xと第i領域からランダムに選択された画像xaux(i(cid:54)=j)を与えられたフーリエ空間で混合する場合、画像xのビューviを定式化することができる。
訳抜け防止モード: 具体的には、フーリエ空間で混合するために、j - th 領域の像 x が与えられる。 i - th ドメインからランダムに選択された画像 xaux (i ( cid:54)= j ) 画像 x のビュー VI は
0.82
vi = K−1(KA vi = K−1(KA) 0.38
mix,KP (x)), mix (複数形 mixs) 0.35
(1) where KA mix = λKA(xaux)+(1−λ)KA(x), K−1 is Fourier inversion, and KA, KP returns the amplitude and phase of Fourier transformation, respectively. 1) KAmix = λKA(xaux)+(1−λ)KA(x), K−1 is Fourier inversion, KA, KP はそれぞれフーリエ変換の振幅と位相を返す。 0.75
Then we implement i=1 そして私たちは i=1 である。 0.46
where µi is the weight of different views, (cid:80)Nd μiは異なる視点の重みです (cid:80)Nd 0.74
i=1 µi = 1, µj = 0. i=1 μi = 1, μj = 0 である。 0.72
Different from the Fourier style transfer proposed by [39], which do not have style mix, we mix different styles in both Fourier space and image space, leading to more diverse style information. スタイルミックスを持たない[39]によって提案されたフーリエスタイル転送とは異なり、フーリエ空間とイメージ空間の両方で異なるスタイルを混合し、より多様なスタイル情報をもたらす。 0.80
Discussion. Theoretically, as summarized in Tab. 議論だ 理論的には、タブにまとめられている。 0.52
1, there are various methods to mix the style information from other domains to the input image, including CutMix [40], MixUp [42], StyleMix [20], and CycleGan+Mix [46]. 例えば、CutMix [40]、MixUp [42]、StyleMix [20]、CycleGan+Mix [46]である。
訳抜け防止モード: 1.1では、他のドメインのスタイル情報を入力画像に混ぜる様々な方法がある。 CutMix [ 40 ], MixUp [ 42 ], StyleMix [ 20 ] を含む。 そしてCycleGan+Mix [46 ]。
0.77
Our content preserved style mix is better than these methods in two critical aspects. コンテンツ保存スタイルミックスは、2つの重要な側面においてこれらの方法より優れている。 0.56
First, our CP-StyleMix can preserve content information compared to CutMix and Mixup, which also mix contents. まず、CP-StyleMixはコンテンツ情報をCutMixやMixupと比べて保存することができる。 0.70
Detailed experiments and analysis in Sec. 4.3 illustrates that compared with content-pereserved methods, the mixture of content with Mixup and CutMix would significantly decrease the performance in reconstruction tasks by −10.47% and −9.71%, respectively. sec. 4.3 の詳細な実験と分析により、コンテント保存法と比較して、mixup と cutmix の混合により、それぞれ −10.47% と −9.71% の再構成タスクの性能が著しく低下することが示された。 0.61
Second, our CP-StyleMix is non-parametric and does not need extra data. 第2に、CP-StyleMixは非パラメトリックであり、余分なデータを必要としない。 0.55
StyleMix [20] and CycleGan+Mix [46] can preserve the content information, but they require to train the transfer module by extra data, which will lead to unfair comparison with existing methods [14, 43]. stylemix [20] と cyclegan+mix [46] はコンテンツ情報を保存することができるが、追加のデータによって転送モジュールをトレーニングする必要がある。
訳抜け防止モード: StyleMix [20 ] と CycleGan+Mix [46 ] はコンテンツ情報を保存することができる。 余分なデータで転送モジュールを訓練する必要があるのです 既存の方法と 不公平な比較につながります [14,43]
0.81
contentencoder…Transform image to style-mixed view by CP-StyleMixMask style-mixed viewand encode the visual patchesReconstruct original imageby domain-specific decoders xvvmvvvvzxˆCP-StyleMixdecoder(r eal)decoder(sketch)m askingFFTFFTFFTmixmi xPhaseAmplitudeMixup iFFTiFFT contentencoder ... CP-StyleMixMaskスタイルの混合ビューとビジュアルパッチのエンコードによる画像変換 ドメイン固有のデコーダ xvvvvvvvvvvvzx CP-StyleMixdecoder(r eal)decoder(sketch)m askingFFTFFFTmixPhas eAmplitudeMixupiFF TiFFT 0.56
英語(論文から抽出)日本語訳スコア
Table 1. Comparison between existing augmentation methods and CP-StyleMix. 表1。 既存の拡張法とCP-StyleMixの比較 0.72
All these existing methods do not fully meet the requirements of being both content preserved and light-weighted. これらの既存の方法は、コンテンツ保存と軽量化の両方の要件を完全に満たしていない。 0.64
Method CutMix [40] MixUp [42] StyleMix [20] StyleCutMix [20] CycleGan+Mix [46] CP-StyleMix(ours) 方法 CutMix [40] MixUp [42] StyleMix [20] StyleCutMix [20] CycleGan+Mix [46] CP-StyleMix(ours) 0.44
Venue ICCV’2019 ICLR’2018 CVPR’2021 CVPR’2021 ICCV’2017 会場 ICCV’2019 ICLR’2018 CVPR’2021 CVPR’2021 ICCV’2017 0.47
- Content preserved (cid:88) (cid:88) (cid:88) (cid:88) - 内容保存 (出典:88)(出典:88)(出典:88)(出典:88) 0.54
No extra training (cid:88) (cid:88) 余分な訓練なし (cid:88)(cid:88) 0.56
(cid:88) 3.3. (cid:88) 3.3. 0.37
Content Encoder コンテンツエンコーダ 0.77
The content Encoder, i.e., F(∗, θF ), is designed to extract the domain-invariant content representations from the style-mixed view v. Similar to MAE [17], our content encoder also follows the vision transformer design, which extracts content representations only by visible patches. コンテンツエンコーダ、すなわちF(∗, θF)は、スタイル混合ビュー v からドメイン不変のコンテンツ表現を抽出するように設計されている。
訳抜け防止モード: コンテンツエンコーダ、すなわちF(∗, θF)は領域を抽出するために設計されている -スタイルから不変コンテンツ表現 混合ビュー v. MAE [ 17 ] と同様、コンテンツエンコーダも視覚変換器の設計に従っています。 これは、可視パッチによってのみコンテンツ表現を抽出する。
0.80
Specifically, given a style-mixed view v, we randomly divide the image patches into visible patches vv with the probability p, leaving the remaining patches as the masked patches vm. 具体的には、スタイル混合ビューvが与えられた場合、画像パッチを確率pの可視パッチvvにランダムに分割し、残りのパッチをマスクされたパッチvmとして残す。 0.66
The content representation z is then extracted by vv using the content encoder, i.e, z = F(vv, θF ). コンテンツ表現 z は、コンテンツエンコーダ、すなわち z = F(vv, θF) を用いて vv によって抽出される。 0.81
(3) 3.4. Domain Specific Decoders (3) 3.4. ドメイン固有デコーダ 0.46
Domain specific decoders are the critical designs in our proposed DiMAE. ドメイン固有デコーダは、提案したDiMAEの重要な設計である。 0.64
Besides the target of the decoder in MAE that is to reconstruct the semantic meaning of the masked patches, Domain specific decoders are expected to additionally reconstruct the domain style of the masked patches. マスクされたパッチの意味を再構築するMAEのデコーダのターゲットに加えて、ドメイン固有のデコーダもマスクされたパッチのドメインスタイルを再構築することが期待されている。 0.70
To achieve this, we design a domainspecific decoder to each domain in the training set. これを実現するために、トレーニングセットの各ドメインに対するドメイン固有デコーダを設計する。 0.73
Specifically, the domain specific decoders are defined as G = {G1(∗, φ1),G2(∗, φ2), ...,GNd (∗, φNd )}, where Nd is the number domains in the training set, G1,G2, ...,GNd share the same architectural design, and φi is the parameter of the i-th domain-specific decoder Gi. 具体的には、ドメイン固有のデコーダは g = {g1(∗, φ1), g2(∗, φ2), ...,gnd(∗, φnd )} と定義され、ここで nd はトレーニングセット内の数領域、g1,g2, ...,gnd は同じアーキテクチャ設計を共有し、 φi は i 番目のドメイン固有デコーダ gi のパラメータである。
訳抜け防止モード: 具体的には、領域固有デコーダは G = { G1(∗, φ1), G2(∗, φ2 ) と定義される。 ..., GNd ( ∗, φNd ) } ここで、Nd はトレーニングセット内の数領域である。 G1,G2,... GNdは同じアーキテクチャ設計を共有しています。 φi は i - th ドメイン - 特定のデコーダ Gi のパラメータである。
0.83
Given content representation z, to reconstruct the patches in the i-th domain, we feed both the content representation z and the learnable masked tokens [17] into the i-th domain specific decoder Gi, i.e., コンテンツ表現zが与えられた場合、第iドメインのパッチを再構築するために、コンテンツ表現zと学習可能なマスクトークン[17]の両方を第iドメイン固有デコーダgiに供給する。 0.72
m = Gi(z, qi ˆvi m = Gi(z, qi >vi 0.44
m), (4) where i ∈ [1, Nd] denotes the domain index, and the qi m denotes the masked tokens in the i-th domain-specific decoder. m)。 (4) ここで i ∈ [1, nd] はドメインインデックスを表し、qi m は i 番目のドメイン固有デコーダのマスクトークンを表す。 0.74
Discussion. As pointed in MAE [17], the decoder design plays a key role in determining the semantic level of the learnt latent features. 議論だ MAE[17]に指摘されているように、デコーダ設計は学習した潜在機能のセマンティックレベルを決定する上で重要な役割を果たしている。 0.61
However, we argue that the domaininvariant features can not be learnt by changing the single decoder designs probably because of the style conflict しかし、おそらくスタイルの矛盾のため、単一デコーダ設計を変更することでドメイン不変性は学習できないと論じる。 0.73
Instead, we propose to use multiin different domains. 代わりに、複数の異なるドメインを使用するように提案する。 0.61
ple domain-specific decoders to learn the domain-invariant features. ドメイン固有のデコーダを使って、ドメイン不変な特徴を学ぶ。 0.47
Specifically, we use a shared content encoder to learn the domain-invariant features, and expect the domainspecific decoder to recover the specific style information for the cross-domain reconstruction. 具体的には、共有コンテンツエンコーダを使用してドメイン不変な特徴を学習し、ドメイン固有デコーダがクロスドメイン再構築のために特定のスタイル情報を復元することを期待する。 0.63
3.5. Objective Function 3.5. 目的機能 0.55
The objective function constrains the error between predicted patches and target patches, which drives the model to recover the original image x using very few mixed-styled neighboring patches. 対象関数は、予測されたパッチとターゲットパッチの間のエラーを制限し、非常に少数の混合スタイルの隣接パッチを使用してモデルが元のイメージxを復元する。 0.64
Specifically, given the image x from the j-th domain, the objective function can be formulated as 具体的には、画像 x を j-領域から与えると、目的関数は次のように定式化することができる。
訳抜け防止モード: 具体的には、j - th ドメインのイメージ x が与えられる。 目的関数は
0.67
(5) m is the reconstructed masked patch by Gj, xm is where ˆvj the corresponding masked patches in the original image x. (5)mはgjによって再構成されたマスクパッチであり、xmは元の画像xの対応するマスクパッチである。 0.76
L = (ˆvj L (複数形 Ls) 0.65
m − xm)2, m − xm)2 である。 0.85
4. Experiment 4.1. Experimental Setup Dataset. 4. 実験 4.1 実験的なセットアップデータセット。 0.78
To validate our approach, we conduct extensive experiments with two generalization settings, namely indomain and cross-domain, which detailed in Sec. 4.2. 提案手法を検証するために,2つの一般化設定,すなわちドメイン内とクロスドメインを用いて広範な実験を行った。 0.76
Two benchmark datasets are adopted to carry through these two settings. この2つの設定を実行するために、2つのベンチマークデータセットが採用されている。 0.43
PACS [25] is a widely used benchmark for domain generalization. PACS[25]はドメイン一般化のための広く使われているベンチマークである。 0.61
It consists of four domains, including Photo (1,670 images), Art Painting (2,048 images), Cartoon (2,344 images) and Sketch (3,929 images) and each domain contains seven categories. 写真(1,670枚)、絵画(2,048枚)、カルトゥーン(2,344枚)、スケッチ(3,929枚)の4つのドメインから構成されており、各ドメインには7つのカテゴリがある。
訳抜け防止モード: 画像(1,670枚)を含む4つの領域からなる。 絵画(2,048枚)、漫画(2,344枚) スケッチ(3,929枚の画像)と 各ドメインには7つのカテゴリがある。
0.68
DomainNet [31] is the largest, most diverse and recent cross-domain benchmark. DomainNet[31]は、最大の、最も多様な、そして最近のクロスドメインベンチマークです。 0.75
Six domains are included: Real, Painting, Sketch, Clipart, Infograph and Quickdraw, with 345 object classes and 586, 575 examples. real、paint、sketch、clipart、infograph、quickdrawの6つのドメインがあり、345のオブジェクトクラスと586,575の例がある。 0.80
For In-domain evaluations, we use all training subset in all domains for self-supervised learning, and then use the validation subset of each domain for evaluation. ドメイン内評価では、全ドメインのトレーニングサブセットを自己教師型学習に使用し、各ドメインの検証サブセットを評価に使用します。 0.75
For cross-domain generalization, following DIUL [43], we select Painting, Real, Sketch as source domains and Clipart, Infograph, Quickdraw as target domains for DomainNet [31]. クロスドメインの一般化には、DIUL [43]に従って、ソースドメインとしてPainting、Real、Sketch、そしてDomainNet [31]のターゲットドメインとしてClipart、Infograph、Quickdrawを選択します。
訳抜け防止モード: クロス - ドメインの一般化。 DIUL [43 ] ソースドメインとしてPainting、Real、Sketch、Clipartを選択します。 Infograph, Quickdraw を DomainNet [31 ] のターゲットドメインとする。
0.75
We select 20 classes out of 345 categories for both 345のカテゴリから20のクラスを選択します。 0.81
英語(論文から抽出)日本語訳スコア
training and testing, exactly following the setting in [43]. 43]の設定に従って、トレーニングとテストを行います。 0.74
For PACS, we follow the common setting in domain generalization [1, 28, 32] where three domains are selected for self-supervised training, and the remaining domain is used for evaluation. PACSでは,3つのドメインが自己指導訓練に選択され,残りのドメインが評価に使用される領域一般化 [1, 28, 32] の共通設定に従う。 0.88
Implementation details. In our implementation, we use ViT-small 2 as the backbone network unless otherwise specified. 実装の詳細。 実装では、指定がなければ、バックボーンネットワークとしてViT-small 2を使用します。 0.65
The learning rate for pretraining is 1.5×10−4 and then decays with a cosine decay schedule. 事前学習の学習率は1.5×10−4で、コサイン崩壊スケジュールで崩壊する。 0.59
The weight decay is set to 0.05 and the batch size is set to 256 × Nd, where Nd is the number of domains in the training set. 重量は 0.05 に設定され、バッチサイズは 256 × nd に設定され、ここで nd はトレーニングセット内の領域の数である。 0.67
All methods are pretrained for 1000 epochs, which is consistent with the implementations in [43] for fair comparison. すべてのメソッドは、[43]の実装と公正な比較のために一致した1000エポックに対して事前学習される。 0.66
The feature dimension is set to 1024. 特徴次元は 1024 に設定される。 0.79
For finetuning, we follow the exact training schedule as that in [43]. 微調整については[43]の正確なトレーニングスケジュールに従っています。 0.68
Following [22], we use an ImageNet pretraining. 22]に続いて、imagenetプリトレーニングを使用します。 0.67
4.2. Experimental Results In-Domain Evaluation. 4.2. ドメイン内評価の実験結果 0.58
In-Domain Evaluation is proposed by [14], and aims to evaluate the performance of the selfsupervised learning methods in the domains that appear in the training set. ドメイン内評価は [14] によって提案され, 学習セットに現れる領域における自己教師あり学習手法の性能評価を目的としている。 0.80
We exactly follow the protocol of [14]. 正確には[14]のプロトコルに従います。 0.76
Specifically, we learn the backbone on the training subset of Photo, Art, Cartoon and Sketch on PACS in a selfsupervised manner, and then linearly train a classifier for each domain using the training subset of each domain with the backbone fixed, respectively. 具体的には,PACSのフォト,アート,カルトゥーン,スケッチの各トレーニングサブセットのバックボーンを自己管理的に学習し,各ドメインのトレーニングサブセットをバックボーンを固定した上で,各ドメインの分類器を線形に訓練する。 0.80
We evaluate our model on the validation subset in each domain, and report the averaged results by 10 runs. 各ドメインのバリデーションサブセットでモデルを評価し、平均結果を10実行で報告します。 0.63
The experimental results are summarized in Tab. 実験結果はタブにまとめられている。 0.81
2. DiMAE outperforms MoCo V3 and MAE by +14.7% and +0.8%, respectively, showing the superior of in-domain instance discrimination ability against the previous methods. 2. DiMAE は MoCo V3 と MAE を+14.7%、+0.8% で上回り、以前の手法に比べてドメイン内のインスタンス識別能力が優れている。 0.50
Furthermore, when we compare the baseline generative method, i.e., MAE, with contrastive learning methods, i.e., MoCoV3, we infer that the reconstruction task can learn better representations of the domains that appear in the training set. さらに、ベースライン生成手法、すなわちMAEと対照的な学習方法、すなわちMoCoV3を比較すると、再構成タスクはトレーニングセットに現れるドメインのより良い表現を学習できると推測する。
訳抜け防止モード: さらに、ベースライン生成法(つまり、ベースライン生成法)を比較すると、 MAE, コントラスト学習法, すなわち MoCoV3 を用いて, その推定を行う。 再建作業は トレーニングセットに現れるドメインの より良い表現を学べます
0.74
Cross-Domain Generalization. クロスドメインの一般化。 0.49
Cross-Domain Generalization is firstly proposed by DIUL [43], which evaluates the generalization ability of the self-supervised learning methods to the domains that are missing in the training set. クロスドメイン一般化は,まずDIUL[43]によって提案され,訓練セットに欠けている領域への自己教師付き学習手法の一般化能力を評価する。 0.77
We exactly follow the cross-domain generalization evaluation process in DIUL [43], which is divided into three steps. 我々は,DIUL[43]における領域間一般化評価プロセスに忠実に従い,三つのステップに分けられる。 0.72
First, we train our model on source domains in the unsupervised manner. まず、教師なしの方法でソースドメインでモデルをトレーニングします。 0.60
Then, we will use a small number of labeled training examples of the validation subset in the source domains to finetune the classifier or the whole backbone. 次に、ソースドメインの検証サブセットのラベル付きトレーニング例を少数使用して、分類器やバックボーン全体を微調整します。 0.55
In detail, when the fraction of labeled finetuning data is lower than 10% of the whole validation subset in the source do- 詳細は、ラベル付き微調整データの断片がソースの検証サブセット全体の10%未満である場合- 0.70
2We do not use the widely-used ResNet18 [19] as the backbone, because DiMAE is exactly a generative method, in which Convolutaional networks are not applicable. 2我々は広く使われているresnet18[19]をバックボーンとして使用しない。
訳抜け防止モード: 2我々は広く使われているresnet18[19 ]をバックボーンとして使用しません。 dimaeはまさに生成的手法であるため、畳み込みネットワークは適用できない。
0.67
We choose the ViT-small model for comparison because the number of their model parameters is similar. モデルパラメータの数が類似しているため,比較対象としてViT小モデルを選択する。 0.76
mains, we only finetune the linear classifier for all the methods. mains、すべてのメソッドの線形分類子のみを微調整します。 0.72
When the fraction of labeled finetuning data is larger than 10% of the whole validation subset in the source domains, we finetune the whole network, including the backbone and the classifier. ラベル付き微調整データの比率がソースドメインのバリデーションサブセット全体の10%以上である場合、バックボーンと分類器を含むネットワーク全体の微調整を行う。 0.68
Last, we can evaluate the model on the target domains. 最後に、ターゲットドメイン上でモデルを評価できる。 0.60
The results are presented in Tab. 結果はタブで表示されます。 0.74
3 (DomainNet) and Tab. 3 (DomainNet) と Tab。 0.81
4 (PACS). 4 (pacs) である。 0.65
In this setting, our DiMAE achieves a better performance than previous works on most tasks and gets significant gains over DIUL and other SSL methods on overall and average accuracy3. この設定では、我々のDiMAEは、ほとんどのタスクにおける以前の作業よりも優れたパフォーマンスを実現し、全体的な平均精度3.3で、DIULや他のSSLメソッドよりも大幅に向上します。 0.55
Compared with contrastive learning based methods, such as MoCo V2, SimCLR V2, BYOL, AdCo, our generative based methods improves the cross-domain generalization tasks by +3.98% and +2.42% for DomainNet and +8.07% and +0.23% for PACS on 1% and 5% fraction setting respectively, which is tested by linear evaluation. MoCo V2, SimCLR V2, BYOL, AdCoなどの対照的な学習ベース手法と比較して, 生成ベース手法は, ドメインネットの+3.98%, +2.42%, PACSの+8.07%, +0.23%をそれぞれ1%, 5%の分数設定で改善し, 線形評価により検証した。 0.82
Our DiMAE also improves other states-ofthe-art methods by +11.87% and +9.87% for DomainNet, +16.18% and +13.24% for PACS on 10% and 100% fraction setting, respectively, when the whole backbone are finetuned. 我々のDiMAEは、バックボーン全体が微調整された場合、他の最先端の手法を、DomainNetでは+11.87%、+9.87%、PACSでは+16.18%、+13.24%改善する。
訳抜け防止モード: 我々のDiMAEは、他の状態も改善します。 DomainNet は +9.87 %、PACS は +16.18 %、 +13.24 % が 10 % と 100 % である。 背骨全体が微調整されたとき
0.68
The significant improvement to contrastive learning based methods illustrate our proposed DiMAE can learn more domain-invariant features in the self-supervised learning from multiple domain data. 比較学習ベース手法の大幅な改善は,複数のドメインデータから自己教師付き学習において,ドメイン不変な特徴をより多く学習できることを示す。 0.70
4.3. Ablation Study 4.3. アブレーション研究 0.52
To investigate the effectiveness of each component of our proposed DiMAE, We ablate our DiMAE on the CrossDomain Generalization task. 提案するDiMAEの各コンポーネントの有効性を検討するため,CrossDomain GeneralizationタスクでDiMAEを吸収する。 0.71
Specifically, we train VitTiny [35] for 100 epoches on the combination of Painting, Real, and Sketch training set in DomainNet, and evaluate the model using the linear evaluation protocol on Clipart. 具体的には,ドメインネットで設定した絵画,実写,スケッチの訓練を組み合わせることで,100個のエポチェのヴィティニ [35] を訓練し,clipart の線形評価プロトコルを用いてモデルを評価する。 0.71
Effectiveness of Preserving Contents in Style Mix. スタイルミックスにおける保存内容の有効性 0.78
To demonstrate the importance of preserving contents in style mix, we ablate the content-preserved and content-mix augmentation methods for DiMAE, which is presented in Tab. スタイルミックスにおけるコンテンツ保存の重要性を実証するために,タブで提示されたdimaeのコンテンツ保存およびコンテンツ混合強化手法を省略する。 0.74
5. Specifically, we choose CP-StyleMix for contentpreserved methods and Mixup and CutMix for contentmixed methods. 5. 具体的には,コンテンツ保存方式ではcp-stylemix,コンテンツ混合方式ではmixupとcutmixを選択した。 0.49
Additionally, to fairly compare with CutMix, we replace the Mixup step in Content Preserved StyleMix with CutMix, creating a competing method called Content Preserved StyleCut (CP-StyleCut). さらに、CutMixと同等に比較するために、Content Preserved StyleMixのMixupステップをCutMixに置き換え、Content Preserved StyleCut (CP-StyleCut)と呼ばれる競合するメソッドを作成します。 0.78
The experimental results of these methods are illustrated in Tab. これらの方法の実験結果はタブで示される。 0.85
5. We conclude that preserving the content information is critical for reconstruction tasks. 5. 我々は,コンテンツ情報の保存が再構築作業にとって重要であると結論づける。 0.52
Specifically, we observe that content-mix methods, i.e., Mixup and CutMix, bring at most +1.24% performance improvement compared with no augmentation. 具体的には、mixup や cutmix といったコンテンツ混合手法が、拡張なしと比較して最大で +1.24% の性能向上をもたらすことを観察する。 0.62
However, two content preserved style mix methods, i.e, CP-StyleMixp and CP-StyleCut, can further improve the content-mix style-mix augmentations, i.e., しかし、CP-StyleMixpとCP-StyleCutという2つのコンテンツ保存スタイルミックスメソッドは、コンテンツミックススタイルミックス強化、すなわち、さらに改善することができる。 0.67
3Overall and Avg. 3OverallとAvg。 0.68
indicate the overall accuracy of all the test data and the arithmetic mean of the accuracy of 3 domains, respectively. すべてのテストデータの全体的な精度と3つのドメインの精度の算術平均を示す。 0.71
Note that they are different because the capacities of different domains are not equal. 異なる領域の容量が等しくないため、それらは異なることに注意。 0.69
英語(論文から抽出)日本語訳スコア
Table 2. Results of In-domain top-1 linear evaluation accuracies on PACS dataset. 表2。 PACSデータセットを用いた領域内トップ1線形評価精度の評価結果 0.68
Results style: best, second best. 結果スタイル: 最良、第2位。 0.73
Training Domain (Photo, Art, Cartoon, Sketch) 研修ドメイン (写真、美術、漫画、スケッチ) 0.67
Method MoCo V3 メソッドMoCo V3 0.82
MAE DeepAll+MI,RotNet DeepAll+MI,AET 前 DeepAll+MI,RotNet DeepAll+MI,AET 0.28
DiMAE (ours) dimae (複数形 dimaes) 0.45
Photo 70.6 83.5 81.6 80.9 84.7 Photo 70.6 83.5 81.6 80.9 84.7 0.24
Art 39.4 53.4 55.5 56.9 57.2 Art 39.4 53.4 55.5 56.9 57.2 0.24
Cartoon 64.8 74.2 68.5 69.6 76.3 漫画 64.8 74.2 68.5 69.6 76.3 0.43
Sketch 54.4 73.8 63.4 67.9 69.8 Sketch 54.4 73.8 63.4 67.9 69.8 0.24
Avg. 57.3 71.2 67.3 68.8 72.0 avgだ 57.3 71.2 67.3 68.8 72.0 0.40
Table 3. Results of the cross-domain generalization on DomainNet. 表3。 domainnetにおけるクロスドメイン一般化の結果 0.59
All of the models are trained on Painting, Real, Sketch domains of DomainNet and tested on the other three domains. すべてのモデルはDomainNetのPaint、Real、Sketchドメインでトレーニングされ、他の3つのドメインでテストされる。 0.79
The title of each column indicates the name of the domain used as target. 各列のタイトルは、対象として使用されるドメイン名を示す。 0.83
All the models are pretrained for 1000 epoches before finetuned on the labeled data. すべてのモデルはラベル付きデータに微調整する前に、1000個のepochesに事前トレーニングされる。 0.63
Results style: best, second best. 結果スタイル: 最良、第2位。 0.73
Label Fraction 1% Label Fraction 5% ラベル分数 1% ラベル分数 5% 0.73
method ERM MoCo V2 [9] SimCLR V2 [8] erm メソッド MoCo V2 [9] SimCLR V2 [8] 0.53
BYOL [16] AdCo [21] ByOL [16] AdCo [21] 0.39
MAE DIUL DiMAE (ours) MAE ダイオール dimae (複数形 dimaes) 0.47
method ERM MoCo V2 SimCLR V2 erm メソッド MoCo V2 SimCLR V2 0.50
BYOL AdCo MAE DIUL Byol AdCo MAE ダイオール 0.66
DiMAE (ours) dimae (複数形 dimaes) 0.45
Clipart 6.54 18.85 23.51 6.21 16.16 22.38 18.53 26.52 Clipart 6.54 18.85 23.51 6.21 16.16 22.38 18.53 26.52 0.23
Clipart 15.10 32.46 37.11 14.55 32.25 51.86 35.15 70.78 Clipart 15.10 32.46 37.11 14.55 32.25 51.86 35.15 70.78 0.23
Infograph Quickdraw Overall Avg. Infograph Quickdraw 総合 Avg。 0.74
4.83 11.92 14.74 4.65 11.36 15.17 13.93 19.15 4.83 11.92 14.74 4.65 11.36 15.17 13.93 19.15 0.21
2.96 10.57 15.42 3.48 12.26 12.62 10.62 15.47 2.96 10.57 15.42 3.48 12.26 12.62 10.62 15.47 0.21
5.00 6.32 5.29 4.27 5.65 10.50 12.65 15.47 5.00 6.32 5.29 4.27 5.65 10.50 12.65 15.47 0.21
4.75 10.05 11.80 4.45 9.57 13.51 13.29 17.72 4.75 10.05 11.80 4.45 9.57 13.51 13.29 17.72 0.21
Label Fraction 10% Infograph Quickdraw Overall Avg. ラベル分数10% Infograph Quickdraw 総合 Avg。 0.71
10.53 19.69 23.10 9.74 20.59 33.54 23.91 45.41 10.53 19.69 23.10 9.74 20.59 33.54 23.91 45.41 0.21
9.39 18.54 19.87 8.71 17.96 24.81 20.88 38.06 9.39 18.54 19.87 8.71 17.96 24.81 20.88 38.06 0.21
7.11 8.05 12.33 5.95 11.56 23.94 15.69 27.39 7.11 8.05 12.33 5.95 11.56 23.94 15.69 27.39 0.21
9.36 15.92 19.45 8.46 17.53 29.87 21.08 39.20 9.36 15.92 19.45 8.46 17.53 29.87 21.08 39.20 0.21
Clipart 10.21 28.13 34.03 9.60 30.77 32.60 39.32 42.31 Clipart 10.21 28.13 34.03 9.60 30.77 32.60 39.32 42.31 0.23
Clipart 52.79 64.18 68.72 54.44 62.84 59.21 72.79 83.87 Clipart 52.79 64.18 68.72 54.44 62.84 59.21 72.79 83.87 0.23
Infograph Quickdraw Overall Avg. Infograph Quickdraw 総合 Avg。 0.74
7.54 17.20 20.69 6.90 19.06 20.44 22.97 25.39 7.54 17.20 20.69 6.90 19.06 20.44 22.97 25.39 0.21
5.34 9.67 10.88 6.02 7.75 13.43 10.50 15.00 5.34 9.67 10.88 6.02 7.75 13.43 10.50 15.00 0.21
6.81 14.56 17.32 6.49 15.44 17.85 18.73 21.68 6.81 14.56 17.32 6.49 15.44 17.85 18.73 21.68 0.21
7.08 13.79 17.17 5.09 18.65 15.28 19.09 18.87 7.08 13.79 17.17 5.09 18.65 15.28 19.09 18.87 0.21
Label Fraction 100% ラベル分数 100% 0.67
Infograph Quickdraw Overall Avg. Infograph Quickdraw 総合 Avg。 0.74
31.85 38.96 42.29 32.86 38.60 37.00 46.18 56.05 31.85 38.96 42.29 32.86 38.60 37.00 46.18 56.05 0.21
23.72 27.44 27.60 23.70 26.69 28.53 32.01 44.99 23.72 27.44 27.60 23.70 26.69 28.53 32.01 44.99 0.21
19.05 25.26 30.56 20.42 26.26 23.27 33.75 39.30 19.05 25.26 30.56 20.42 26.26 23.27 33.75 39.30 0.21
27.19 33.76 37.47 28.23 33.80 32.06 41.19 49.96 27.19 33.76 37.47 28.23 33.80 32.06 41.19 49.96 0.21
Mixup and CutMix, by +10.47% and +9.71%. mixupとcutmixは+10.47%、+9.71%増加した。 0.51
The large performance gap between content-preserved and contentmix augmentations methods indicates the importance of preserving contents in the reconstruction tasks. content-preserved と contentmix の補足メソッド間の大きな性能ギャップは、コンテントの保存がコンストラクションタスクにおいて重要であることを示している。 0.61
Effectiveness of Mixing Style Information. スタイル情報の混合の有効性。 0.78
To illustrate the importance of mixing style information in our propose DiMAE (Eq. 2), we ablate the mixing step by comparing the experiments where we use the mixed-style view v in Eq. 提案するdimae (eq. 2) におけるスタイル情報の混合の重要性を説明するために,eq におけるmixed-style view v を用いた実験を比較して,混合ステップを省略する。 0.79
1, and the view vi before mixing. 1と、混合前のビューvi。 0.63
Here, vi is the i-th style view after style transfer (Eq. 1) before Mixup (Eq. 2). ここでviは、mixup(eq.2)の前にスタイル転送後のi-thスタイルのビュー(eq.1)である。 0.72
As shown in Tab. 6, after applying Mixup and CutMix on the view after style transfer, the performance of the model further increases by +2.45% to +1.10%, respectively. タブに示すように。 スタイル転送後のビューにmixup と cutmix を適用した後、モデルの性能は +2.45% から +1.10% にさらに向上した。 0.71
The consistent improvement indicates that adding more style noise by style mixing can effectively help the encoder to learn domain-invariant features. 一貫性のある改善は、スタイルミキシングによるスタイルノイズの追加が、エンコーダがドメイン不変の機能を学ぶのに有効であることを示している。
訳抜け防止モード: 一貫した改善は スタイル混合によるスタイルノイズの追加は、エンコーダがドメイン不変機能を学ぶのに効果的に役立ちます。
0.67
Effectiveness of Multiple Domain-specific Decoders. 複数のドメイン固有デコーダの有効性 0.70
A novel design of our proposed DiMAE is the domain-specific decoders, which reconstruct corresponding domain-specific 提案するdimaeの新しい設計はドメイン固有デコーダであり,対応するドメイン固有性を再構築する。 0.56
images using the encoded latent representation. エンコードされた潜在表現を用いた画像。 0.54
We ablate this design with all other factors fixed. 私たちはこのデザインを他のすべての要素で改善します。 0.55
Experimental results are illustrated in Tab. 実験結果はタブで示されます。 0.82
7, showing the linear evaluation performance when the single decoder and Domain Specific Decoders are applied. 7. 単一デコーダとドメイン固有デコーダを適用した場合の線形評価性能を示す。 0.80
We observe that the methods using domain-specific decoders improve the methods using the single decoder by +10.47% and +9.71% when images are augmented by CP-StyleMix and CP-StyleCut, respectively. CP-StyleMix と CP-StyleCut で画像が拡張された場合, ドメイン固有デコーダを用いた手法では, 単一デコーダを用いた手法を+10.47%, +9.71%改善する。 0.68
The significant performance gap between two methods verifies the importance of using multiple domain-specific decodoers in our proposed DiMAE. 2つのメソッド間の著しいパフォーマンスギャップは、提案するdimaeにおける複数のドメイン固有デコドーダの使用の重要性を検証する。
訳抜け防止モード: 2つの方法間の重要なパフォーマンスギャップは、重要性を検証する 提案したDiMAEで複数のドメインを使用する。
0.68
To explain the performance gap, we argue that this is because domain-specific decoders help to decouple the different style information from different domains to the corresponding decoders, regularizing the encoder to only learn domain-invariant features. パフォーマンスギャップを説明するために、ドメイン固有のデコーダは異なるドメインから異なるスタイル情報を対応するデコーダに分離するのに役立ち、エンコーダを正規化してドメイン不変の機能のみを学習する。 0.75
Designs in the single decoder and multiple domainspecific decoders. 単一デコーダと複数のドメイン固有デコーダの設計。 0.71
Tab. 8 varies the decoder depth (number of Transformer blocks), from which we have two findings. タブ。 8はデコーダの深さ(トランスフォーマーブロックの数)を変え、そこから2つの発見がある。 0.69
First, we find the depth of the decoder is also im- まず、デコーダの深さも即時であることが分かる。 0.69
英語(論文から抽出)日本語訳スコア
Table 4. Results of the cross-domain generalization setting on PACS. 表4。 PACSのクロスドメイン一般化設定結果 0.50
Given the experiment for each target domain is run respectively, there is no overall accuracy across domains. 各対象ドメインに対する実験がそれぞれ実行されるので、ドメイン全体での全体的な精度は存在しない。 0.72
Thus we report the average accuracy and the accuracy for each domain. したがって,各領域の平均精度と精度を報告する。 0.73
The title of each column indicates the name of the domain used as target. 各列のタイトルは、対象として使用されるドメイン名を示す。 0.83
All the models are pretrained for 1000 epochs before finetuned on the labeled data. すべてのモデルは1000エポックで事前訓練され、ラベル付きデータに微調整される。 0.65
Results style: best, second best. 結果スタイル: 最良、第2位。 0.73
method MoCo V2 SimCLR V2 メソッド MoCo V2 SimCLR V2 0.85
BYOL AdCo MAE DIUL Byol AdCo MAE ダイオール 0.66
DiMAE (ours) dimae (複数形 dimaes) 0.45
method MoCo V2 SimCLR V2 メソッド MoCo V2 SimCLR V2 0.85
BYOL AdCo MAE DIUL Byol AdCo MAE ダイオール 0.66
DiMAE (ours) dimae (複数形 dimaes) 0.45
Photo 22.97 30.94 11.20 26.13 30.72 27.78 48.86 Photo 22.97 30.94 11.20 26.13 30.72 27.78 48.86 0.23
Photo 44.19 54.65 27.01 46.51 35.89 53.37 77.87 Photo 44.19 54.65 27.01 46.51 35.89 53.37 77.87 0.23
Label Fraction 1% Art. 15.58 17.43 14.53 17.11 23.54 19.82 31.73 ラベル分数 1% Art. 15.58 17.43 14.53 17.11 23.54 19.82 31.73 0.48
Cartoon 23.65 30.16 16.21 22.96 20.78 27.51 25.83 Cartoon 23.65 30.16 16.21 22.96 20.78 27.51 25.83 0.23
Sketch 25.27 25.20 10.01 23.37 24.52 29.54 32.50 Sketch 25.27 25.20 10.01 23.37 24.52 29.54 32.50 0.23
Label Fraction 10% Art. 25.85 37.65 25.94 30.21 25.59 39.91 59.77 ラベル分数10% Art. 25.85 37.65 25.94 30.21 25.59 39.91 59.77 0.47
Cartoon 33.53 46.00 20.98 31.45 33.28 46.41 57.72 Cartoon 33.53 46.00 20.98 31.45 33.28 46.41 57.72 0.23
Sketch 24.97 28.25 19.69 22.96 32.39 30.17 39.25 Sketch 24.97 28.25 19.69 22.96 32.39 30.17 39.25 0.23
Avg. 21.87 25.93 12.99 22.39 24.89 26.16 34.23 avgだ 21.87 25.93 12.99 22.39 24.89 26.16 34.23 0.39
Avg. 32.14 41.64 23.40 32.78 31.79 42.47 58.65 avgだ 32.14 41.64 23.40 32.78 31.79 42.47 58.65 0.39
Photo 37.39 54.67 26.55 37.65 32.69 44.61 50.00 Photo 37.39 54.67 26.55 37.65 32.69 44.61 50.00 0.23
Photo 59.86 67.45 41.42 58.59 36.84 68.66 78.99 Photo 59.86 67.45 41.42 58.59 36.84 68.66 78.99 0.23
Content-preserved CP-StyleMix コンテンツ保存 cp型ミックス 0.49
CP-StyleCut 48.56 cp型カット 48.56 0.34
47.21 Content-mix 47.21 コンテンツミックス 0.49
Mixup 38.09 mixup 38.09 0.34
CutMix 37.50 カットミックス 37.50 0.47
Label Fraction 5% Art. 25.57 35.92 17.79 28.21 24.61 39.25 41.25 ラベル分数 5% Art. 25.57 35.92 17.79 28.21 24.61 39.25 41.25 0.49
Cartoon 28.11 35.31 21.87 28.52 27.35 36.41 34.40 Cartoon 28.11 35.31 21.87 28.52 27.35 36.41 34.40 0.23
Sketch 31.16 36.84 19.65 30.35 30.44 36.53 38.00 Sketch 31.16 36.84 19.65 30.35 30.44 36.53 38.00 0.23
Label Fraction 100% ラベル分数 100% 0.67
Art. 28.58 43.60 23.73 29.81 25.24 41.53 63.23 Art. 28.58 43.60 23.73 29.81 25.24 41.53 63.23 0.25
Sketch 34.79 34.73 18.78 30.45 34.45 37.51 55.89 Sketch 34.79 34.73 18.78 30.45 34.45 37.51 55.89 0.23
Cartoon 48.89 54.48 30.02 50.19 32.25 56.89 59.44 Cartoon 48.89 54.48 30.02 50.19 32.25 56.89 59.44 0.23
No aug. 36.85 オーグなし。 36.85 0.40
Avg. 30.56 40.68 21.47 31.18 28.77 39.20 40.91 avgだ 30.56 40.68 21.47 31.18 28.77 39.20 40.91 0.39
Avg. 43.03 50.06 28.49 42.26 32.20 51.15 64.39 avgだ 43.03 50.06 28.49 42.26 32.20 51.15 64.39 0.39
Table 5. Comparison of using content-preserved methods, content-mix methods, and no augmentation. テーブル5。 コンテンツ保存法, コンテントミックス法, 拡張を行わない方法の比較 0.75
Aug. is short for augmentation. aug. (複数形 augs) 0.22
Content-preserved Augmentation Style transfer [39] コンテンツ保存強化 スタイル転送[39] 0.72
CP-StyleMix CP-StyleCut CP-StyleMix CP-StyleCut 0.25
Top-1 46.11 48.56 47.21 Top-1 46.11 48.56 47.21 0.23
Table 6. Comparison of style transfer [39], CP-StyleMix and CPStyleCut. 表6。 スタイル転写[39], CP-StyleMix, CPStyleCutの比較 0.54
Aug. is short for augmentation. aug. (複数形 augs) 0.22
Augmentations Single Decoder 増補 シングルデコーダ 0.65
CP-StyleMix CP-StyleCut CP-StyleMix CP-StyleCut 0.25
38.09 37.50 38.09 37.50 0.25
Domain Specific Decoders ドメイン特有 デコーダ 0.70
48.56 47.21 48.56 47.21 0.25
Table 7. Comparison of single decoder and Domain Specific Decoders. 表7。 単一デコーダとドメイン固有デコーダの比較 0.49
Domain Specific Decoders achieve significant performance improvement with CP-StyelMix and CP-StyleCut. ドメイン固有デコーダはCP-StyelMixとCP-StyleCutで大幅な性能向上を実現している。 0.47
portant in our task, because a sufficiently deep decoder can improves the performance by 0.63% and 3.63% in single and multiple decoders design, respectively. 十分深いデコーダは、単一デコーダ設計で0.63%、複数デコーダ設計で3.63%の性能を向上させることができる。 0.62
Second, the performance gain in multi-decoders design (+3.63%) is much larger than in single-decoder design (+0.63%), because the depth of decoders can influence the semantic level of the 第2に、マルチデコーダ設計における性能向上(+3.63%)はシングルデコーダ設計(+0.63%)よりもはるかに大きい。 0.65
Depth Single Decoder 深さ シングルデコーダ 0.69
Multi Decoders 1 2 4 8 12 マルチデコーダ 1 2 4 8 12 0.59
37.46 37.81 38.01 38.09 37.96 37.46 37.81 38.01 38.09 37.96 0.22
44.93 45.35 46.62 48.56 46.11 44.93 45.35 46.62 48.56 46.11 0.22
Table 8. Comparison of different depth of Domain Specific Decoders. 表8。 ドメイン固有デコーダの異なる深さの比較。 0.53
learned feature, but can not help to regularize the encoder to learn domain-invariant features, which is crucial in our self-supervised learning from multi-domain data task. 学習した機能だが、エンコーダを正規化してドメイン不変機能を学ぶのには役に立たない。
訳抜け防止モード: 学んだ機能ですが、ドメインを学ぶためにエンコーダを正規化するのに役に立ちません。 これは、マルチドメインデータタスクからの教師付き学習に不可欠です。
0.57
4.4. Visualization Feature Distribution Visualization. 4.4. 視覚的特徴分布可視化 0.56
Qualitatively, Fig 3 visualizes the feature distribution of MoCo V3, MAE and DiMAE by t-SNE, on the combination of Painting, Real, and Sketch training set in DomainNet. 図3は、DomainNetのPainting、Real、Sketchトレーニングセットの組み合わせに基づいて、t-SNEによるMoCo V3、MAE、DiMAEの機能分布を視覚化する。 0.73
We observe that the features of DiMAE between three domains are significantly better mixed than the others. 3つのドメイン間のDiMAEの特徴は、他のドメインよりもかなりよく混在している。 0.67
This suggests that compared with MoCo V3 and MAE, DiMAE is able to capture better domain-invariant representations. これは、MoCo V3やMAEと比較して、DiMAEはより良いドメイン不変表現をキャプチャできることを示している。 0.54
Reconstruction Visualization. リコンストラクション・ビジュアライゼーション。 0.53
We visualize reconstruc- リコンストラクションを可視化する 0.50
英語(論文から抽出)日本語訳スコア
Figure 3. Visualization of the feature distribution of MoCo V3, MAE and DiMAE. 図3。 MoCo V3, MAE, DiMAEの特徴分布の可視化 0.72
References [1] Isabela Albuquerque, Jo˜ao Monteiro, Mohammad Darvishi, Tiago H Falk, and Ioannis Mitliagkas. イザベラ・アルバカーキ、ヨ・シャオ・モンテイロ、モハンマド・ダルヴィシ、ティアゴ・H・フォーク、イオアニス・ミトリグカスなどを参照。 0.44
Generalizing to unseen domains via distribution matching. 分布マッチングによる未確認領域への一般化。 0.52
arXiv preprint arXiv:1911.00804, 2019. arXiv preprint arXiv:1911.00804, 2019 0.40
3, 6 [2] Hangbo Bao, Li Dong, and Furu Wei. 3, 6 [2]ハンボバオ、リドン、古ワイ。 0.41
Beit: Bert pre-training arXiv preprint arXiv:2106.08254, Beit: Bert pre-training arXiv preprint arXiv:2106.08254, 0.35
of image transformers. イメージ・トランスフォーマーです 0.56
2021. 3 [3] Shuhao Cao, Peng Xu, and David A Clifton. 2021. 3 [3]Shuhao Cao、Peng Xu、David A Clifton。 0.39
to understand masked autoencoders. マスク付きオートエンコーダを理解する。 0.56
arXiv:2202.03670, 2022. arXiv:2202.03670, 2022。 0.64
2 How arXiv preprint 2 arXivのプレプリント 0.65
Figure 4. Reconstruction visualization of different decoders. 図4。 異なるデコーダの再構成可視化 0.77
Sketch→Real denotes using Sketch as source domain and Real as the a different domain to reconstruct. Sketch→RealはソースドメインとしてSketchを使い、Realは再構築のための別のドメインとして使用する。 0.53
tion results of DiMAE using ViT-base in Fig 4. 図4におけるViTベースを用いたDiMAEの投与成績 0.75
The results demonstrate that, in our DiMAE, the encoder removes the domain style and multiple decoders learn specific style information. 結果は、dimaeではエンコーダがドメインスタイルを取り除き、複数のデコーダが特定のスタイル情報を学習することを示しています。 0.62
Specifically, DiMAE eliminates the style noise on visible patches as no messy style information appears in reconstructions. 特に、DMAEは、復元に散らかったスタイル情報がないため、目に見えるパッチのスタイルノイズを取り除く。 0.63
Second, DiMAE provides complete reconstructions with specific domain styles. 第二に、DiMAEは特定のドメインスタイルで完全な再構築を提供する。 0.57
Third, we also observe that it is quite hard for DiMAE to recover colors perfectly from sketch inputs. 第3に、スケッチ入力から完全に色を復元することがDMAEにとって非常に困難であることも観察した。 0.58
5. Conclusions In this paper, we propose a novel Domain invariant Masked AutoEncoder (DiMAE) to tackle the selfsupervised learning from multi-domain data. 5.結論 本稿では,マルチドメインデータから自己教師付き学習を実現するために,新しいドメイン不変なMasked AutoEncoder(DiMAE)を提案する。 0.74
Our DiMAE constructs a new cross-domain reconstruction task with a proposed content preserved style mix and multiple decoder designs to learn domain-invariant features. 提案するコンテンツ保存スタイルと複数のデコーダ設計を組み合わせた新しいクロスドメイン再構築タスクを構築し,ドメイン不変な特徴を学習する。 0.70
The content preserved style mix aims to mix style information from different domains, while preserving the image content. コンテンツ保存スタイルミックスは、画像コンテンツを維持しながら、異なるドメインのスタイル情報を混合することを目的としている。
訳抜け防止モード: コンテンツ保存スタイルミックスの目的は イメージコンテンツを保存しながら、異なるドメインのスタイル情報を混合する。
0.82
The multiple decoders are proposed to regularize the encoder to extract domain-invariant features. 複数のデコーダは、エンコーダを正規化してドメイン不変の特徴を抽出するために提案される。 0.52
Extensive experiments validate the effectiveness of DiMAE. 広範な実験がdimaeの有効性を検証する。 0.57
[4] Fabio M Carlucci, Antonio D’Innocente, Silvia Bucci, Barbara Caputo, and Tatiana Tommasi. Fabio M Carlucci氏、Antonio D’Innocente氏、Silvia Bucci氏、Barbara Caputo氏、Tatiana Tommasi氏。 0.35
Domain generalization by solving jigsaw puzzles. ジグソーパズルの解法による領域一般化 0.60
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2229–2238, 2019. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2229–2238, 2019。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 2229-2238頁、2019年。
0.82
3 [5] Mathilde Caron, Hugo Touvron, Ishan Misra, Herv´e J´egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. 3 5]Mathilde Caron, Hugo Touvron, Ishan Misra, Herv ́e J ́egou, Julien Mairal, Piotr Bojanowski, Armand Joulin
訳抜け防止モード: 3 5 ] マチルド・カロン、ヒューゴ・トゥーヴォロン、イサン・ミスラ、 herv ́e j ́egou, julien mairal, piotr bojanowski, armand joulin。
0.51
Emerging properties in self-supervised vision transformers. 自己教師型視覚変換器の創発特性 0.53
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9650–9660, 2021. Proceedings of the IEEE/CVF International Conference on Computer Vision, page 9650–9660, 2021。 0.46
2 [6] Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, and Ilya Sutskever. 2 6]Mark Chen、Alec Radford、Rewon Child、Jeffrey Wu、Heewoo Jun、David Luan、Ilya Sutskever。 0.55
Generative pretraining from pixels. ピクセルからの生成前トレーニング。 0.70
In International Conference on Machine Learning, pages 1691–1703. 機械学習に関する国際会議、1691-1703頁。 0.76
PMLR, 2020. PMLR、2020年。 0.88
3 [7] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 3 7]Ting Chen、Simon Kornblith、Mohammad Norouzi、Geoffrey Hinton。 0.36
A simple framework for contrastive learning of visual representations. 視覚表現のコントラスト学習のための単純なフレームワーク。 0.81
In International conference on machine learning, pages 1597–1607. 機械学習に関する国際会議』1597-1607頁。 0.77
PMLR, 2020. PMLR、2020年。 0.88
1, 2, 3 [8] Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi, and Geoffrey Hinton. 1, 2, 3 Ting Chen氏、Simon Kornblith氏、Kevin Swersky氏、Mohammad Norouzi氏、Geoffrey Hinton氏。 0.59
Big self-supervised models are strong semi-supervised learners. 大きな自己教師型モデルは強力な半教師型学習者である。 0.35
arXiv preprint arXiv:2006.10029, 2020. arxiv プレプリント arxiv:2006.10029, 2020 0.44
7 [9] Xinlei Chen, Haoqi Fan, Ross Girshick, and Kaiming He. 7 9]シンレイ・チェン、ハウチ・ファン、ロス・ガーシック、カイミング・ヘ 0.46
Improved baselines with momentum contrastive learning. モーメントコントラスト学習によるベースラインの改善。 0.76
arXiv preprint arXiv:2003.04297, 2020. arxiv プレプリント arxiv:2003.04297, 2020 0.44
1, 2, 7 [10] Xinlei Chen, Saining Xie, and Kaiming He. 1, 2, 7 [10]シンレイ・チェン、サイニング・シエー、カイミング・ヘ。 0.66
An empirical study of training self-supervised vision transformers. 自己監督型視覚変換器の訓練に関する実証的研究 0.66
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9640–9649, 2021. Proceedings of the IEEE/CVF International Conference on Computer Vision, page 9640–9649, 2021。 0.47
2 [11] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2 [11]Jia Deng、Wei Dong、Richard Socher、Li-Jia Li、Kai Li、Li Fei-Fei。 0.41
Imagenet: A large-scale hierarchical image database. Imagenet: 大規模な階層型イメージデータベース。 0.85
In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. 2009年、ieee conference on computer vision and pattern recognition 248-255ページ。 0.80
Ieee, 2009. Ieee, 2009年。 0.89
1 [12] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al An image is worth 16x16 words: TransarXiv preprint formers for image recognition at scale. 1 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al Image is worth 16x16 words: TransarXiv preprint formers for image recognition at scale. 0.41
arXiv:2010.11929, 2020. 2010.11929、2020年。 0.41
3 [13] Linus Ericsson, Henry Gouk, and Timothy M Hospedales. 3 13]ライナス・エリクソン、ヘンリー・グーク、ティモシー・m・ホッペデールズ 0.46
How well do self-supervised models transfer? 自己教師型モデルはどの程度うまく転送できるのか? 0.43
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5414–5423, 2021. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 5414–5423, 2021。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 5414-5423、2021年。
0.85
1 [14] Zeyu Feng, Chang Xu, and Dacheng Tao. 1[14]ゼユ・フェン、チャン・ク、ダチェン・タオ。 0.32
Self-supervised In representation learning from multi-domain data. 自己監督型イン マルチドメインデータからの表現学習。 0.56
MAEMoCoV3DiMAESource ImageStyle-Mixed ViewMasked Style-Mixed ViewSource DomainReconstruction Different DomainReconstruction Different DomainSampleSketch RealPainting RealReal SketchReal Sketch MAEMoCoV3DiMAESource ImageStyle-Mixed ViewMasked Style-Mixed ViewSource DomainReconstruction Different DomainReconstruction Different DomainSampleSketch RealPainting RealReal SketchReal Sketch 0.28
英語(論文から抽出)日本語訳スコア
Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3245–3255, 2019. IEEE/CVF International Conference on Computer Vision, 3245–3255, 2019の成果。 0.43
1, 3, 4, 6 1, 3, 4, 6 0.42
[15] Spyros Gidaris, Praveer Singh, and Nikos Komodakis. 15] スパイロス・ギダリス、プラーヴェア・シン、ニコス・コモダキス 0.34
Unsupervised representation learning by predicting image rotations. 画像回転予測による教師なし表現学習 0.65
arXiv preprint arXiv:1803.07728, 2018. arXiv preprint arXiv:1803.07728, 2018 0.40
1, 2 [16] Jean-Bastien Grill, Florian Strub, Florent Altch´e, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, et al Bootstrap your own latent-a new approach to self-supervised learning. 1, 2 Jean-Bastien Grill, Florian Strub, Florent Altch ́e, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, et al Bootstrap your own latent-a new approach to self-supervised learning。 0.44
Advances in Neural Information Processing Systems, 33:21271–21284, 2020. 神経情報処理システムの進歩 33:21271-21284, 2020 0.80
2, 7 [17] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll´ar, and Ross Girshick. 2, 7 17]カイミング・ヘ、シンレイ・チェン、サイニン・シー、ヤンハオ・リー、ピョートル人形、ロス・ガーシック 0.66
Masked autoencoders are scalable vision learners. マスク付きオートエンコーダはスケーラブルなビジョン学習者です。 0.46
arXiv preprint arXiv:2111.06377, 2021. arxiv プレプリント arxiv:2111.06377, 2021。 0.41
2, 3, 5 [18] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. 2, 3, 5 [18]カイミング・ヘ、ホーキー・ファン、ユキシン・ウー、サイニング・シー、ロス・ギルシック。 0.41
Momentum contrast for unsupervised visual representation learning. 教師なし視覚表現学習におけるモメンタムコントラスト 0.62
In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 9729–9738, 2020. コンピュータビジョンとパターン認識に関するIEEE/CVFカンファレンスのProceedings of the Proceedings of the IEEE/CVF conference, page 9729–9738, 2020。
訳抜け防止モード: コンピュータビジョンとパターン認識に関するIEEE/CVF会議のまとめ 9729-9738、2020年。
0.71
1, 2, 3 [19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 1, 2, 3 〔19〕開明彼、西安宗、宗清連、鑑真 0.59
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 770–778, 2016
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 770-778頁、2016年。
0.83
6 [20] Minui Hong, Jinwoo Choi, and Gunhee Kim. 6 [20]ホン・ミヌイ、ジヌ・チョイ、キム・グンヘ 0.47
Stylemix: Separating content and style for enhanced data augmentation. Stylemix: 拡張データ拡張のためのコンテンツとスタイルの分離。 0.79
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14862–14870, 2021. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 14862–14870, 2021。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 14862-14870、2021年。
0.84
4, 5 [21] Qianjiang Hu, Xiao Wang, Wei Hu, and Guo-Jun Qi. 4, 5 [21]広東省、広東省、広州省、広州省、広州省。 0.43
Adco: Adversarial contrast for efficient learning of unsupervised representations from self-trained negative adversaries. Adco: 自己学習した否定的敵からの教師なし表現の効率的な学習のための対人コントラスト。 0.58
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1074–1083, 2021. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 1074–1083, 2021。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 1074-1083頁、2021年。
0.84
7 [22] Donghyun Kim, Kuniaki Saito, Tae-Hyun Oh, Bryan A Plummer, Stan Sclaroff, and Kate Saenko. 7[22] ドンギュン・キム、斉藤邦明、テヒョン・オ、ブライアン・A・プラマー、スタン・スクラロフ、ケイト・サエンコ。 0.57
Cds: Crossdomain self-supervised pre-training. Cds: クロスドメインの自己教師型事前トレーニング。 0.53
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9123–9132, 2021. ieee/cvf国際コンピュータビジョン会議の議事録には、9123-9132, 2021ページがある。 0.62
1, 6 [23] Gustav 1, 6 [23]グスタフ 0.52
Shakhnarovich. colorization. シャフナロヴィチ。 カラー化。 0.57
pages 577–593. Springer, 2016. 577-593頁。 スプリンガー、2016年。 0.61
2, 3 Larsson, Michael Maire, 2, 3 ラーソン マイケル・メール 0.65
and Gregory Learning representations for automatic In European conference on computer vision, そしてgregory learning representations for automatic in european conference on computer vision。 0.35
[24] Gustav Larsson, Michael Maire, [24]グスタフ ラーソン マイケル・メール 0.53
and Gregory Shakhnarovich. そしてグレゴリー・シャクナロヴィチ 0.50
Colorization as a proxy task for visual In Proceedings of the IEEE conference on understanding. IEEEカンファレンスの視覚的推論のプロキシタスクとしての着色。 0.58
computer vision and pattern recognition, pages 6874–6883, 2017. コンピュータビジョンとパターン認識』6874-6883頁、2017年。 0.76
2, 3 [25] Da Li, Yongxin Yang, Yi-Zhe Song, and Timothy M Hospedales. 2, 3 25]ダ・リー、ヨンシン・ヤン、yi-zhe song、timothy m hospedales。 0.66
Deeper, broader and artier domain generalization. より深く、より広く、より高度なドメインの一般化。 0.46
In Proceedings of the IEEE international conference on computer vision, pages 5542–5550, 2017. IEEEのコンピュータビジョン国際会議Proceedings of the IEEE International Conference on computer vision, page 5542–5550, 2017。 0.74
2, 5 [26] Da Li, Jianshu Zhang, Yongxin Yang, Cong Liu, Yi-Zhe Song, and Timothy M Hospedales. 2, 5 26]ダ・リー、ジャンシュ・チャン、ヨンシン・ヤン、コン・リウ、イ・ジ・ソング、ティモシー・m・ホッペデールズ。
訳抜け防止モード: 2, 5 26 ]ダ・リー、ジャンシュ・チャン、ヨンシン・ヤン、 cong liu, yi - zhe song, and timothy m hospedales。
0.48
Episodic training for domain generalization. ドメイン一般化のためのエピソディクストレーニング。 0.63
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 1446– 1455, 2019. ieee/cvf国際コンピュータビジョン会議の議事録、2019年1446-1455頁。 0.60
3 [27] Haoliang Li, Sinno Jialin Pan, Shiqi Wang, and Alex C Kot. 3 [27]Haoliang Li、Sinno Jialin Pan、Shiqi Wang、Alex C Kot。 0.38
Domain generalization with adversarial feature learning. 敵対的特徴学習によるドメイン一般化。 0.69
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5400–5409, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 5400–5409, 2018。 0.42
3 [28] Ya Li, Xinmei Tian, Mingming Gong, Yajing Liu, Tongliang Liu, Kun Zhang, and Dacheng Tao. 3 [28]ヤリ、シンメイ・ティアン、ミンミング・ゴン、ヤジン・リウ、トングリアン・リウ、クン・チャン、ダッチェン・タオ。 0.44
Deep domain generalization via conditional invariant adversarial networks. 条件不変逆数ネットワークによる深部領域一般化 0.68
In Proceedings of the European Conference on Computer Vision (ECCV), pages 624–639, 2018. Proceedings of the European Conference on Computer Vision (ECCV) 2018年624-639頁。 0.39
3, 6 [29] Mehdi Noroozi and Paolo Favaro. 3, 6 29] メフディ・ノロージとパオロ・ファヴァロ 0.38
Unsupervised learning of visual representations by solving jigsaw puzzles. ジグソーパズルの解法による視覚表現の教師なし学習 0.66
In European conference on computer vision, pages 69–84. 欧州のコンピュータビジョン会議において69-84頁。 0.75
Springer, 2016. スプリンガー、2016年。 0.60
2 [30] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A Efros. 2 Deepak Pathak氏、Philipp Krahenbuhl氏、Jeff Donahue氏、Trevor Darrell氏、Alexei A Efros氏。 0.38
Context encoders: Feature learning by inpainting. コンテキストエンコーダ: インペイントによる特徴学習。 0.78
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2536–2544, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 2536–2544, 2016
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2536-2544頁、2016年。
0.82
2, 3 [31] Xingchao Peng, Qinxun Bai, Xide Xia, Zijun Huang, Kate Saenko, and Bo Wang. 2, 3 〔31〕青春ペン、シナクンバイ、xide xia、zijun huang、ケイト・サエンコ、ボ・ワン 0.70
Moment matching for multisource domain adaptation. マルチソースドメイン適応のためのモーメントマッチング 0.72
In Proceedings of the IEEE/CVF international conference on computer vision, pages 1406– 1415, 2019. IEEE/CVF国際コンピュータビジョン会議Proceedings of the IEEE/CVF International Conference on computer vision, page 1406–1415, 2019。 0.68
2, 5 [32] Mohammad Mahfujur Rahman, Clinton Fookes, Mahsa Baktashmotlagh, and Sridha Sridharan. 2, 5 Mohammad Mahfujur Rahman氏、Clinton Fookes氏、Mahsa Baktashmotlagh氏、Sridha Sridharan氏。 0.53
Correlation-aware adPattern versarial domain adaptation and generalization. 相関対応型アドパターン 汎用ドメイン適応と一般化 0.68
Recognition, 100:107124, 2020. 登録番号 100:107124, 2020。 0.74
3, 6 [33] Mert Bulent Sariyildiz, Yannis Kalantidis, Diane Larlus, and Karteek Alahari. 3, 6 He33] Mert Bulent Sariyildiz, Yannis Kalantidis, Diane Larlus, Karteek Alahari。 0.39
Concept generalization in visual repIn Proceedings of the IEEE/CVF resentation learning. IEEE/CVF残響学習の視覚的再現における概念一般化 0.83
International Conference on Computer Vision, pages 9629– 9639, 2021. 国際コンピュータビジョン会議、9629-9639, 2021頁。 0.68
1 [34] Yonglong Tian, Chen Sun, Ben Poole, Dilip Krishnan, Cordelia Schmid, and Phillip Isola. 1 34]ヨンロン・チアン、チェン・サン、ベン・プール、ディリップ・クリシュナン、コーデリア・シュミット、フィリップ・イゾラ。 0.49
What makes for arXiv preprint good views for contrastive learning? arXivがコントラスト学習に良いビューをプレプリントする理由 0.68
arXiv:2005.10243, 2020. arXiv:2005.10243, 2020 0.35
1, 3 [35] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Herv´e J´egou. 1, 3 Hugo Touvron氏、Matthieu Cord氏、Matthijs Douze氏、Francisco Massa氏、Alexandre Sablayrolles氏、Herv ́e J ́egou氏。 0.38
Training data-efficient image transformers & distillation through attention. データ効率のよい画像変換器の訓練と注意による蒸留 0.64
In International Conference on Machine Learning, pages 10347–10357. 機械学習に関する国際会議、10347-10357頁。 0.78
PMLR, 2021. PMLR、2021年。 0.80
6 [36] Yizhou Wang, Shixiang Tang, Feng Zhu, Lei Bai, Rui Zhao, Donglian Qi, and Wanli Ouyang. 6 [36]yzhou Wang、Shixiang Tang、Feng Zhu、Lei Bai、Rui Zhao、Donglian Qi、Wanli Ouyang。 0.38
Revisiting the transferability of supervised pretraining: an mlp perspective. 教師付き事前学習の伝達可能性の再検討:mlpの視点から 0.52
arXiv preprint arXiv:2112.00496, 2021. arXiv preprint arXiv:2112.00496, 2021 0.40
1 [37] Ziqi Wang, Marco Loog, and Jan van Gemert. 1 [37] ziqi wang、marco loog、jan van gemert。 0.43
Respecting domain relations: Hypothesis invariance for domain generalization. 領域関係を考察する: 領域一般化のための仮説不変性。 0.55
In 2020 25th International Conference on Pattern Recognition (ICPR), pages 9756–9763. 2020年の第25回国際パターン認識会議(ICPR)、9756-9763頁。 0.72
IEEE, 2021. IEEE、2021年。 0.81
3 [38] Zhirong Wu, Yuanjun Xiong, Stella X Yu, and Dahua Lin. 3 [38]Zhirong Wu、Yuanjun Xiong、Stella X Yu、Dahua Lin。 0.55
Unsupervised feature learning via non-parametric instance discrimination. 非パラメータインスタンス識別による教師なし特徴学習。 0.60
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3733–3742, 2018. ieee conference on computer vision and pattern recognition(ieee conference on computer vision and pattern recognition)では、2018年の第3733-3742ページを扱っている。 0.48
3 [39] Qinwei Xu, Ruipeng Zhang, Ya Zhang, Yanfeng Wang, and Qi Tian. 3 [39]キンワイ・チ、ルイン・チャン、ヤ・チャン、ヤンファン・ワン、カイ・ティアン。 0.45
A fourier-based framework for domain generalization. ドメイン一般化のためのフーリエベースのフレームワーク。 0.49
In Proceedings of the IEEE/CVF Conference on IEEE/CVFカンファレンスに参加して 0.83
英語(論文から抽出)日本語訳スコア
Computer Vision and Pattern Recognition, pages 14383– 14392, 2021. コンピュータビジョンとパターン認識、14383-14392, 2021頁。 0.79
3, 4, 8 [40] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. 3, 4, 8 [40]サンドゥー・ユン、ドンギョン・ハン、ソンジュン・オ、サンギュク・チュン、ジュンジュン・チョン、ヨンジュン・ヨー。
訳抜け防止モード: 3, 4, 8 【40】サン・ドゥー・ユン、ドンギョン・ハン、ソンジュン・オ、 sanghyuk chun、junsuk choe、youngjoon yoo。
0.53
Cutmix: Regularization strategy to train strong classifiers with localizable features. Cutmix: ローカライズ可能な機能を備えた強力な分類器をトレーニングするための正規化戦略。 0.48
In Proceedings of the IEEE/CVF international conference on computer vision, pages 6023–6032, 2019. IEEE/CVF国際コンピュータビジョン会議Proceedings of the IEEE/CVF International Conference on computer vision, page 6023–6032, 2019。 0.66
2, 4, 5 [41] Jure Zbontar, Li Jing, 2, 4, 5 [41]ジュール・ズボンタル、リー・ジン、 0.51
Ishan Misra, Yann LeCun, and St´ephane Deny. ishan misra、yann lecun、st 'ephaneは否定する。 0.37
Barlow twins: Self-supervised learning via redundancy reduction. Barlow twins: 冗長性低減による自己教師型学習。 0.69
In International Conference on Machine Learning, pages 12310–12320. 機械学習に関する国際会議、12310-12320頁。 0.75
PMLR, 2021. PMLR、2021年。 0.80
1, 2 [42] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. 1 2[42] ホン・チャン、ムスタファ・チッセ、ヤン・ヌ・ダウフィン、ダビッド・ロペス・パズ。 0.50
mixup: Beyond empirical risk minimization. Mixup: 経験的リスク最小化を超えて。 0.59
In International Conference on Learning Representations, 2018. 2018年、国際学習表現会議に参加。 0.75
2, 4, 5 [43] Xingxuan Zhang, Linjun Zhou, Renzhe Xu, Peng Cui, Zheyan Shen, and Haoxin Liu. 2, 4, 5 [43]Xingxuan Zhang、Linjun Zhou、Renzhe Xu、Peng Cui、Zheyan Shen、Haoxin Liu。 0.56
Domain-irrelevant representation learning for unsupervised domain generalization. 教師なし領域一般化のためのドメイン非関連表現学習 0.47
arXiv preprint arXiv:2107.06219, 2021. arxiv プレプリント arxiv:2107.06219, 2021。 0.40
1, 3, 4, 5, 6 1, 3, 4, 5, 6 0.42
[44] Nanxuan Zhao, Zhirong Wu, Rynson WH Lau, and Stephen Lin. [44]ナンクアン・ジャオ、ジン・ウー、リンソン・ヒュー・ラウ、スティーブン・リン。 0.46
What makes instance discrimination good for transfer learning? 転校学習になぜインスタンス識別がよいのか? 0.60
arXiv preprint arXiv:2006.06606, 2020. arxiv プレプリント arxiv:2006.06606, 2020 0.44
1 [45] Kaiyang Zhou, Yongxin Yang, Timothy Hospedales, and Tao Xiang. 1 [45]カイヤン・周、ヨンシン・ヤン、ティモシー・ホスペデール、タオ・シャン 0.40
Deep domain-adversarial image generation for domain generalisation. ドメイン一般化のための深部領域逆画像生成 0.69
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 13025–13032, 2020. aaai conference on artificial intelligence』第34巻、第13025-13032頁、2020年。 0.61
3 [46] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. 3 [46]Jun-Yan Zhu、Taesung Park、Phillip Isola、Alexei A Efros。 0.40
Unpaired image-to-image translation using cycleconsistent adversarial networks. 周期整合対向ネットワークを用いた不対向画像変換 0.67
In Proceedings of the IEEE international conference on computer vision, pages 2223– 2232, 2017. IEEEのコンピュータビジョンに関する国際会議Proceedings of the IEEE International Conference on Computer Vision, page 2223–2232, 2017。 0.71
4, 5 [47] Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Hui Xiong, and Qing He. 4, 5 [47]普真宗、済元清、慶元、東方宗、慶中宗、本州周、湖西省、清州。
訳抜け防止モード: 4, 5 【47 47 ]普真周、慈元清、慶元(けいゅうだん) ドンボ・チ、ヨンチュン・チュ、ヘンシュ・チュ、フイ・シオン と清は言った。
0.50
A comprehensive survey on transfer learning. 転校学習に関する総合的な調査。 0.68
Proceedings of the IEEE, 109(1):43–76, 2020. ieeeの議事録 109(1):43–76, 2020。 0.66
1 1 0.42
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。