論文の概要、ライセンス

# (参考訳) クロスドメインクラウドカウントのための双方向アライメント [全文訳有]

Bi-level Alignment for Cross-Domain Crowd Counting ( http://arxiv.org/abs/2205.05844v1 )

ライセンス: CC BY 4.0
Shenjian Gong, Shanshan Zhang, Jian Yang, Dengxin Dai and Bernt Schiele(参考訳) 近年,群集密度推定が注目されている。 このタスクの主な課題は、大量のトレーニングデータで高品質な手動アノテーションを実現することである。 このようなアノテーションへの依存を避けるため、従来の研究は教師なしドメイン適応(UDA)技術を適用し、容易にアクセス可能な合成データから学習した知識を実世界のデータセットに転送する。 しかし、現在の最先端の手法は、補助的なタスクを訓練するための外部データに依存するか、高価な粗大な推定を適用している。 本研究は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発することを目的とする。 合成データと実データとのドメイン間ギャップを低減するために,(1)タスク駆動型データアライメントと(2)細粒度機能アライメントからなるbi-level alignment framework(bla)を設計した。 従来のドメイン拡張手法とは対照的に、ソース上の最適な変換を探すためにAutoMLを導入します。 一方,アライメントの困難さを軽減するために,前景と背景の微粒なアライメントを別々に行う。 我々は,既存の手法を大差で上回る5つの実世界の群衆数ベンチマークについて評価した。 また、私たちのアプローチはシンプルで、実装が簡単で、適用も効率的です。 コードはhttps://github.com/Y ankeegsj/BLAで公開されている。

Recently, crowd density estimation has received increasing attention. The main challenge for this task is to achieve high-quality manual annotations on a large amount of training data. To avoid reliance on such annotations, previous works apply unsupervised domain adaptation (UDA) techniques by transferring knowledge learned from easily accessible synthetic data to real-world datasets. However, current state-of-the-art methods either rely on external data for training an auxiliary task or apply an expensive coarse-to-fine estimation. In this work, we aim to develop a new adversarial learning based method, which is simple and efficient to apply. To reduce the domain gap between the synthetic and real data, we design a bi-level alignment framework (BLA) consisting of (1) task-driven data alignment and (2) fine-grained feature alignment. In contrast to previous domain augmentation methods, we introduce AutoML to search for an optimal transform on source, which well serves for the downstream task. On the other hand, we do fine-grained alignment for foreground and background separately to alleviate the alignment difficulty. We evaluate our approach on five real-world crowd counting benchmarks, where we outperform existing approaches by a large margin. Also, our approach is simple, easy to implement and efficient to apply. The code is publicly available at https://github.com/Y ankeegsj/BLA.
公開日: Thu, 12 May 2022 02:23:25 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Bi-level Alignment for Cross-Domain Crowd Counting クロスドメインクラウドカウントのための双方向アライメント 0.66
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] V C . s c [ ] 略称はC。 sc [ 0.39
1 v 4 4 8 5 0 1 v 4 4 8 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Shenjian Gong1, Shanshan Zhang1,*, Jian Yang1, Dengxin Dai2, and Bernt Schiele2 shenjian gong1, shanshan zhang1,*, jian yang1, dengxin dai2, bernt schiele2 0.37
1PCA Lab, Key Lab of Intelligent Perception and Systems for High-Dimensional Information 1PCAラボ, 高次元情報のための知能認識・システムキーラボ 0.69
of Ministry of Education, and Jiangsu Key Lab of Image and Video Understanding for Social Security, 文部省、江蘇省、社会保障のための画像・映像理解研究会 0.47
School of Computer Science and Engineering, Nanjing University of Science and Technology 南京科学技術大学 計算機工学科 0.41
{shenjiangong,shansha n.zhang,csjyang}@njust.edu.cn shanshan.zhang,csjya ng}@njust.edu.cn 0.42
{ddai,schiele}@mpi-inf.mpg.de ddai,schiele}@mpi-inf.mpg.de 0.31
2MPI Informatics 2MPIインフォマティクス 0.71
Abstract Recently, crowd density estimation has received increasing attention. 概要 近年,群集密度推定が注目されている。 0.56
The main challenge for this task is to achieve high-quality manual annotations on a large amount of training data. このタスクの主な課題は、大量のトレーニングデータで高品質な手動アノテーションを実現することである。 0.83
To avoid reliance on such annotations, previous works apply unsupervised domain adaptation (UDA) techniques by transferring knowledge learned from easily accessible synthetic data to real-world datasets. このようなアノテーションへの依存を避けるため、従来の研究は教師なしドメイン適応(UDA)技術を適用し、容易にアクセス可能な合成データから学習した知識を実世界のデータセットに転送する。 0.59
However, current state-of-the-art methods either rely on external data for training an auxiliary task or apply an expensive coarse-to-fine estimation. しかし、現在の最先端の手法は、補助的なタスクを訓練するための外部データに依存するか、高価な粗大な推定を適用している。 0.49
In this work, we aim to develop a new adversarial learning based method, which is simple and efficient to apply. 本研究は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発することを目的とする。 0.77
To reduce the domain gap between the synthetic and real data, we design a bi-level alignment framework (BLA) consisting of (1) task-driven data alignment and (2) fine-grained feature alignment. 合成データと実データとのドメイン間ギャップを低減するために,(1)タスク駆動型データアライメントと(2)細粒度機能アライメントからなるbi-level alignment framework(bla)を設計した。 0.78
In contrast to previous domain augmentation methods, we introduce AutoML to search for an optimal transform on source, which well serves for the downstream task. 従来のドメイン拡張手法とは対照的に、ソース上の最適な変換を探すためにAutoMLを導入します。 0.56
On the other hand, we do fine-grained alignment for foreground and background separately to alleviate the alignment difficulty. 一方,アライメントの困難さを軽減するために,前景と背景の微粒なアライメントを別々に行う。 0.68
We evaluate our approach on five real-world crowd counting benchmarks, where we outperform existing approaches by a large margin. 我々は,既存の手法を大差で上回る5つの実世界の群衆数ベンチマークについて評価した。
訳抜け防止モード: 我々は,5つの実物群カウントベンチマークに対する我々のアプローチを評価する。 既存のアプローチを大差で上回ります
0.66
Also, our approach is simple, easy to implement and efficient to apply. また、私たちのアプローチはシンプルで、実装が簡単で、適用も効率的です。 0.65
The code is publicly available at https://github.com/Y ankeegsj/BLA. コードはhttps://github.com/Y ankeegsj/BLAで公開されている。 0.50
(a) Style Transfer (b) Domain Randomization and Task-Driven Data Alignment (a)伝法 b)ドメインのランダム化とタスク駆動データアライメント 0.64
Figure 1. Comparison of three different ways for source domain augmentation. 図1に示す。 ソース領域拡張のための3つの異なる方法の比較 0.66
(a). Style transfer translates images from source to a target-like domain based on target style priors, but the translation is usually limited to color changes, and blind to the task objective. (a) スタイル転送は、対象のスタイルプリエントに基づいて、ソースからターゲットライクなドメインへイメージを変換するが、変換は通常、色の変化に制限され、タスク目的に盲目である。 0.49
(b). Domain randomization augments the source domain randomly in a more diverse manner (colors, scales, etc.) but without any priors from target; our proposed task-driven data alignment is more similar to domain randomization; but instead of random selection, we pick the most suitable augmentation based on the task objective, which enables a more dynamic and robust model to the target domain. (b) ドメイン・ランダム化は、より多様な方法でソース・ドメインをランダムに増強する(色、スケール等)が、対象から先行しない;提案したタスク駆動型データアライメントはドメイン・ランダム化に近い; しかし、ランダム・セレクションの代わりにタスク・オブジェクトに基づいて最適な拡張を選択する。
訳抜け防止モード: (b) ドメインランダム化は、より多様な方法でソースドメインをランダムに増強する (色、スケール等) でも ターゲットからの事前情報がないと 提案したタスク-駆動データアライメントはドメインのランダム化に近い しかし、ランダムな選択の代わりに、タスクの目的に基づいて最も適切な拡張を選択する。 ターゲットドメインに対して、よりダイナミックで堅牢なモデルを可能にする。
0.51
1. Introduction Crowd counting aims to estimate the number of persons in crowded scenes. はじめに 群衆カウントは、混雑したシーンで人の数を見積もることを目的としています。 0.45
This task has gained a lot of attention [11, 19] as it is useful for video surveillance, traffic control and human behavior analysis. このタスクはビデオ監視、交通制御、人間の行動分析に有用であるため、多くの注目を集めています [11, 19]。 0.77
Especially under pandemics such as COVID-19, it can be used to monitor and regulate 特に新型コロナウイルスなどのパンデミックでは、監視や規制に利用できる。 0.44
*Corresponding author the flow of people for safety reasons. ※対応作者 安全上の理由から 人々の流れを 0.67
In recent years, many methods have been proposed for crowd counting. 近年,群衆数に多くの手法が提案されている。 0.76
Most state-of-the-art approaches rely on ground truth density maps for a large number of training images, with each human head marked. 最先端のアプローチの多くは、人間の頭がマークされた多数のトレーニング画像の基底真理密度マップに依存している。 0.66
However, it is extremely expensive to annotate so many human heads and for high-density regions such manual labels can be noisy. しかし、多くの人間の頭や、マニュアルラベルのような高密度な領域に注釈を付けるのは非常に高価である。 0.60
To reduce annotations costs, a large-scale synthetic dataset アノテーションコストを削減するために、大規模な合成データセット 0.64
Domain RandomizationTask-Aw are Loss:𝐿2✓Pick the minimum:𝐿𝑁𝐿1……… ドメインランダム化Task-Aware Loss:L2\Pick the minimum:LNL1........ .... 0.35
英語(論文から抽出)日本語訳スコア
GTA5 Crowd Counting (GCC) [26] was created, serving as a well-established training set with automatic annotations. gta5 crowd counting (gcc) [26] が作成され、自動アノテーションを備えた確立されたトレーニングセットとして機能した。 0.62
However, models trained on the synthetic dataset perform poorly due to the large domain gap between synthetic and real-world images. しかし、合成データセットでトレーニングされたモデルは、合成画像と実世界画像の間の領域ギャップが大きいため、パフォーマンスが低下する。 0.55
Thus, it is necessary to investigate how to adapt the models trained on the synthetic domain to the real domain, without requiring annotations on the latter, i.e. via unsupervised domain adaptation (UDA). したがって、非教師なしドメイン適応(UDA)を通じて、後者のアノテーションを必要とすることなく、合成ドメインで訓練されたモデルを実際のドメインに適応させる方法を検討する必要がある。 0.78
There are a few UDA methods proposed for crowd counting. 群衆カウントにはいくつかのUDA手法が提案されている。 0.57
For instance, SE Cycle-GAN [26] translates synthetic images to the real domain with improved CycleGAN and then trains purely on the translated images; Gaussian Process-based iterative learning (GP) [24] generates pseudo-labels on the target images via a Gaussian process to allow for supervised training on the target domain. 例えば、SE Cycle-GAN [26]は、改良されたCycleGANで実領域に合成画像を変換し、翻訳された画像上で純粋に訓練する。
訳抜け防止モード: 例えば、SE Cycle - GAN [26 ]は、CycleGANを改良した実領域に合成画像を変換する。 ガウス過程をベースとした反復学習(GP ) [ 24 ] はガウス過程を通して対象画像の擬似ラベルを生成する。 対象ドメインの教師付きトレーニングを可能にする。
0.75
More recently, better performance has been achieved by employing an adversarial framework to align features from both source and target domains [6, 8]. 最近では、ソースドメインとターゲットドメインの両方の機能を調整するために、敵フレームワークを使用することで、パフォーマンスが向上しています [6, 8]。 0.60
However, FSC [8] introduces an auxiliary task of semantic segmentation, relying on external labeled human body segmentation datasets for pre-training; FADA [6] performs a coarse-to-fine estimation, making the inference less efficient. しかし、FSC[8]は、事前トレーニングのために外部ラベル付き人体セグメンテーションデータセットに依存するセグメンテーションの補助タスクを導入し、FADA[6]は粗い粒度推定を行い、推論の効率を低下させる。 0.69
In this paper, we aim to develop a new adversarial learning based method, which is more effective and flexible. 本稿では,より効果的で柔軟な新しい対角学習手法を開発することを目的とする。 0.69
We investigate the key components to boost performance. 性能向上の鍵となる要素について検討する。 0.56
Previous methods employed either domain randomization or style transfer for source domain augmentation, using no priors or the target style priors only. 以前の手法では、プロプライエタリやターゲットスタイルプリエントのみを使用して、ソースドメイン拡張のためにドメインランダム化またはスタイル転送を使用していた。 0.57
In contrast, our taskdriven data alignment is able to control the domain augmentation based on both the target style priors and the task objective such that it is optimized for our crowd counting task on the given target domain. 対照的に、私たちのタスク駆動データアライメントは、ターゲットのスタイルプリエントとタスクの目的の両方に基づいてドメイン拡張を制御でき、与えられたターゲットのドメインの群衆カウントタスクに最適化されます。 0.82
We show a comparison of three different source domain augmentation methods in Fig. 1. 図1の3つの異なるソース領域拡張手法の比較を示す。 0.68
On the other hand, since the foreground and background regions differ significantly in semantics, we propose a fine-grained feature alignment to handle them separately. 一方,セマンティクスでは前景と背景領域が著しく異なるため,それらを別々に扱うための細かな特徴アライメントを提案する。 0.73
To summarize, the contributions of our work are as follows: (1) For more effective and efficient synthetic to real adaptive crowd counting, we propose a novel adversarial learning based method, consisting of bi-level alignments: task-driven data alignment and fine-grained feature alignment. 本研究の貢献は,(1) 実適応群数に対するより効率的かつ効率的な合成のために,タスク駆動データアライメントと細粒度特徴アライメントという2レベルアライメントからなる,新しい敵対的学習ベース手法を提案する。
訳抜け防止モード: 要約すると、我々の作品の貢献は以下の通りである。 : (1 ) より効率的で効率的な合成から実適応的な群集カウント 両レベルアライメント:タスク駆動型データアライメントと細かな機能アライメントからなる新しい逆学習ベース手法を提案する。
0.82
(2) To the best of our knowledge, it is the first UDA approach to search for the optimal source data transform based on the downstream task performance on the target domain. (2)我々の知る限りでは、ターゲットドメインの下流タスクパフォーマンスに基づいて最適なソースデータ変換を探索する最初のudaアプローチである。 0.72
(3) Experimental results on various real datasets show that our method achieves state-of-the-art results for synthetic-to-real domain adaptation; also, our method is simple and efficient to apply. 3) 種々の実データを用いた実験結果から,本手法は合成・実領域適応のための最先端の手法であることがわかった。 0.74
2. Related Works Since we solve the problem of domain adaptive crowd counting, we first review recent works; our major contribution is a novel domain augmentation method via AutoML, 2.関連作品 ドメイン適応型クラウドカウンティングの問題を解決するため、最近の研究を最初にレビューし、AutoMLによる新しいドメイン拡張手法を主要な貢献として紹介する。
訳抜け防止モード: 2.関連作品 ドメイン適応型群集カウントの問題を解決するため,我々は最近の研究を概観する。 主な貢献はAutoMLによる新しいドメイン拡張手法です。
0.77
so we also discuss related works in the above two areas. 上記の2つの領域で 関連する研究も議論します 0.72
2.1. Domain Adaptive Crowd Counting 2.1. ドメイン適応型群衆カウント 0.57
There are two groups of domain adaptation works in crowd counting: real-to-real and synthetic-to-real. 実物から実物へ、合成から実物へという2つのドメイン適応作品群がある。 0.54
Real-toreal adaptation aims to generalize models across real scenarios [9, 16], but since one real-world dataset is taken as the source domain, manual annotations are still needed. リアル・トゥ・リアル適応(real-toreal adaptation)は,実シナリオ [9, 16] にわたってモデルを一般化することを目的としている。 0.62
In contrast, synthetic-to-real adaptation fully avoids the requirement for manual annotations and thus is more interesting. 対照的に、synthetic-to-real adaptationは手動アノテーションの必要性を完全に回避しているため、より興味深い。
訳抜け防止モード: 対照的に、合成-to-実適応は手動アノテーションの要求を完全に回避する より興味深いことです
0.59
In this work, we focus on synthetic-to-real adaptation. 本研究では,合成から現実への適応に焦点をあてる。 0.54
One direct way is to translate the labeled synthetic images to the style of the real images and then train on the translated images [4, 26], but it is limited by the performance of the translation method. 1つの直接的な方法は、ラベル付き合成画像を実際の画像のスタイルに翻訳し、翻訳された画像[4,26]で訓練することであるが、翻訳方法のパフォーマンスに制限される。 0.77
Another intuitive way is to generate pseudo-labels on the target real images to allow for supervised learning on the target domain [4, 24]. もうひとつの直感的な方法は、ターゲットのリアルイメージに擬似ラベルを生成して、ターゲットドメインで教師あり学習を可能にすることだ [4, 24]。 0.59
More recently, the adversarial framework has been leveraged to achieve better performance via feature alignment between source and target domains [6, 8]. 最近では、ソースドメインとターゲットドメイン間の機能アライメントによるパフォーマンス向上のために、adversarial frameworkが活用されている [6, 8]。 0.65
However, previous works are not efficient, requiring external training data or additional inference time. しかし、以前の作業は効率的ではなく、外部のトレーニングデータや追加の推論時間を必要とする。 0.61
For instance, FSC [8] introduces an auxiliary task of semantic segmentation, relying on external labeled human body segmentation datasets for pre-training; FADA [6] performs a coarse-to-fine estimation, making the inference less efficient. 例えば、fsc [8] は、事前学習のための外部ラベル付き人体セグメンテーションデータセットに依存する意味セグメンテーションの補助タスクを導入する。
訳抜け防止モード: 例えば、SC [8 ] はセマンティックセグメンテーションの補助タスクを導入します。 事前訓練のための外部ラベル付き人体セグメンテーションデータセットに依存する FADA [6 ] は粗い - 微細な推定を行い、推論の効率を低下させる。
0.70
In this work, we leverage adversarial training but aim to develop a simple yet effective method. 本研究では, 対人訓練を活用しながら, シンプルで効果的な手法の開発を目指す。 0.69
2.2. Domain Augmentation 2.2. ドメイン拡張 0.49
Previously, there are two ways to augment the existing source domain: one is domain randomization, randomly changing the style of source images; the other is style transfer, translating the source images to the target style. これまで、既存のソースドメインを拡張する方法は2つあった: 1つはドメインのランダム化であり、ソースイメージのスタイルをランダムに変更し、もう1つはスタイル転送であり、ソースイメージをターゲットのスタイルに翻訳する。 0.71
Both of them preserve the contents of source images to allow for supervised learning. どちらも、教師付き学習を可能にするために、ソースイメージの内容を保存する。 0.59
Domain randomization is mostly used for domain generalization, which handles unknown target domains. ドメインランダム化は主に、未知のターゲットドメインを扱うドメイン一般化に使用される。 0.76
The generated new samples with random styles are helpful to enhance the generalization ability of the trained model. ランダムなスタイルで生成された新しいサンプルは、訓練されたモデルの一般化能力を高めるのに役立つ。 0.70
One direct way is to generate various styles of images by style transfer CNN [31] or data augmentation [25]. 一つの直接的な方法は、スタイル転送cnn[31]またはデータ拡張[25]によって様々なスタイルの画像を生成することである。
訳抜け防止モード: 一つの直接的な方法は スタイル転送cnn[31]またはデータ拡張[25]により画像の様々なスタイルを生成する。
0.75
On the other hand, AdaIN [13] has demonstrated that the mean and variance of convolutional feature maps can be used to represent the image style, making the domain randomization easier [21]. 一方、AdaIN[13]は、畳み込み特徴写像の平均と分散を画像のスタイルを表現するために使用することができ、ドメインのランダム化がより容易であることを示す[21]。 0.76
Some recent works modify styles in the frequency domain [12,28] by randomizing the domain-variant components, which represent styles. 最近の研究では、[12,28]の周波数領域のスタイルを、スタイルを表すドメイン変種コンポーネントをランダムにすることで変更している。
訳抜け防止モード: 最近の作品では周波数領域[1228]のスタイルを修飾している。 ドメインのランダム化 - スタイルを表す異種コンポーネント。
0.63
In contrast, style transfer is used for domain adaptation, where the target domain images are given to provide style guidance. 対照的に、スタイル転送はドメイン適応に使われ、ターゲットのドメインイメージはスタイルガイダンスを提供するために与えられる。 0.76
The most common way is to generate source-totarget images through Cycle-GAN [4,10,26]. 最も一般的な方法は、 cycle-gan [4,10,26] でソースからターゲットへのイメージを生成することである。 0.48
Similar to domain randomization, some works also do it in the frequency domain by replacing the style-related components with tar- ドメインのランダム化と同様に、スタイル関連コンポーネントをtarに置き換えて周波数領域でも行う作品もある。 0.73
英語(論文から抽出)日本語訳スコア
get ones, e g the amplitude of Fourier transform [30]. フーリエ変換[30]の振幅を例に挙げます。 0.60
In this work, we propose a novel domain augmentation method named task-driven data alignment which is superior than domain randomization and style transfer. 本稿では、ドメインのランダム化やスタイル転送よりも優れたタスク駆動データアライメントという新しいドメイン拡張手法を提案する。 0.79
The major difference is that the augmentation is controlled by both the target style priors and by verifying the counting performance on a target-like domain. 主な違いは、拡張がターゲットスタイルの先行とターゲットライクなドメイン上のカウント性能の検証の両方によって制御されることである。 0.72
In this way, we are able to optimize augmentation for our crowd counting task on the given target domain. このようにして、与えられたターゲットドメイン上の群衆カウントタスクの強化を最適化することができます。 0.67
2.3. Auto Machine Learning 2.3. オート機械学習 0.56
Auto machine learning (AutoML) aims to free human practitioners and researchers from selecting the optimal values for each hyperparameter, such as learning rate, weight decay, and dropout [2], or designing well-performing network architectures [1]. オート機械学習(AutoML)は、人間の実践者や研究者が学習率、体重減少、ドロップアウト[2]などのハイパーパラメータ毎に最適な値を選択することや、ネットワークアーキテクチャの優れた設計から解放することを目的としている。 0.75
Pioneers in this field develop optimization methods to guide the search process based on reinforcement learning (RL) [7], evolutionary algorithm (EA) [29] and Bayesian optimization [18]. この分野のパイオニアは、強化学習(RL) [7]、進化アルゴリズム(EA) [29]、ベイズ最適化(18)に基づく探索過程を導く最適化手法を開発した。 0.80
These works are often impractical because of the required computational overhead. これらの作業はしばしば計算オーバーヘッドが要求されるため実行不可能である。 0.59
In contrast, a differentiable controller [20] converts the selection into a continuous hidden space optimization problem, allowing for an efficient search process performed by a gradient-based optimizer. 対照的に、微分可能なコントローラ[20]は、選択を連続した隠れ空間最適化問題に変換し、勾配に基づくオプティマイザによる効率的な探索を可能にする。 0.65
We apply a differentiable controller to search for several hyperparameters which represent styles. スタイルを表す複数のハイパーパラメータを探索するために微分可能なコントローラを適用する。 0.57
The transformed source images are then used for training, where the feature alignment becomes easier as the domain gap is reduced. 変換されたソースイメージはトレーニングに使用され、ドメインギャップが小さくなるにつれて特徴アライメントが簡単になる。 0.76
In order to verify the searched hyperparameters, we construct a target-like domain in the feature space via AdaIN. 探索されたハイパーパラメータを検証するために、AdaINを介して特徴空間にターゲットライクなドメインを構築する。 0.65
3. Bi-Level Alignment Counting (BLA) 3. biレベルアライメント計数(bla) 0.56
In this section, we will introduce our bi-level alignment method for cross-domain crowd counting. 本稿では,クロスドメイン・クラウドカウントのための双方向アライメント手法を紹介する。 0.60
Our core idea is to perform alignment between the source and target domains at both data-level and feature-level via two components namely task-driven data alignment and fine-grained feature alignment. 私たちの核となるアイデアは、タスク駆動データアライメントときめ細かい機能アライメントという2つのコンポーネントを通じて、データレベルと機能レベルの両方でソースとターゲットドメインのアライメントを実行することです。 0.61
The overall pipeline is depicted in Fig 2 and detailed descriptions are provided in the following. パイプライン全体は図2に示されており、詳細は以下のとおりである。 0.68
3.1. Problem Formulation 3.1. 問題定式化 0.36
S, yi S)NS For UDA crowd counting, we have an annotated synthetic dataset S = (xi i=1 as source and an unlabeled real-world dataset T = (xi i=1 as target, where T ∈ R3×H×W denote an arbitrary image from the xi S, xi S ∈ RH×W represents the source and target domain, and yi ground truth density map in source. S,Yi S)NS UDAクラウドカウントでは、注釈付き合成データセットS = (xi i=1 をソースとし、未ラベルの実世界のデータセットT = (xi i=1 をターゲットとし、T ∈ R3×H×W はxi S から任意の画像を表し、xi S ∈ RH×W はソース領域とターゲット領域を表す。 0.53
Our goal is to obtain a model that performs well on the target domain via reducing the large domain gap between the source and target. 私たちの目標は、ソースとターゲットの間の大きなドメインギャップを減らすことで、ターゲットドメインでうまく機能するモデルを得ることです。 0.77
3.2. Overview T )NT 3.2. 概要 t (複数形 ts) 0.51
As shown in Fig 2, we propose a new UDA method for crowd counting based on adversarial learning. 図2に示すように, 逆学習に基づく群衆カウントのための新しいuda法を提案する。 0.67
It consists of feature extractor (F), density estimator (E), task-driven data alignment and local fine-grained discriminator (D). 構成 特徴抽出器(f)、密度推定器(e)、タスク駆動データアライメントおよび局所細粒度判別器(d)について 0.42
At training time, the source dataset S is first transformed to S+, with the same labels; a pair of images (xS+, xT ) from the augmented source and target domains are fed into F, obtaining corresponding feature maps (FS, FT ), FS and FT ∈ RC×h×w; D performs feature alignment by passing reversed gradients to F; in the end, E predicts density maps トレーニング時に、ソースデータセットSをS+に変換し、同じラベルで、拡張ソースとターゲットドメインから一対の画像(xS+, xT )をFに供給し、対応する特徴写像(FS, FT )、FS および FT ∈ RC×h×w を得る。
訳抜け防止モード: トレーニング時に、ソースデータセットSを同一ラベルでS+に変換し、拡張ソースからの1対の画像(xS+,xT)とターゲットドメインとをFに供給する。 対応する特徴写像 (FS, FT ), FS および FT ∈ RC×h×w を得る ; D は F に逆勾配を渡すことで特徴アライメントを実行する ; 最後に、Eは密度写像を予測する
0.81
(cid:101)yS based on FS, supervised by yS. (cid:101)ySはFSをベースとし,ySが監督した。 0.57
At test time, the inthrough F and E to obtain the predicted density map(cid:101)yT . 試験時には、インスルーF,Eが予測密度マップ(cid:101)yTを得る。 0.70
ference is rather simple: each target image xi 推測はかなり単純です それぞれのターゲットイメージxiは 0.69
Following previous works, we employ VGG16 [22] as our feature extractor F. For E, we stack a series of convolution and deconvolution layers, inspired by [4]. Eのために、[4]にインスパイアされた一連の畳み込み層とデ畳み込み層を積み重ねます。
訳抜け防止モード: 前作より。 特徴抽出器として VGG16 [22 ] を用いる。 我々は[4]にインスパイアされた一連の畳み込み層と畳み込み層を積み重ねています。
0.69
T only goes The density estimation loss LE on a labeled source im- Tのみ ラベル付き源imにおける密度推定損失le- 0.65
age can be defined as follows: 年齢は次のように定義できる。 0.76
(cid:88)(cid:107)yS −(cid:101)yS(cid:107) 2 . (cid:88)(cid:107)yS −(cid:101)yS(cid:107) 2。 0.39
LE = (1) 3.3. LE = (1) 3.3. 0.40
Task-Driven Data Alignment タスク駆動データアライメント 0.71
Typically, domain augmentation enhances the performance on the target domain using generated new samples via domain randomization or style transfer. 通常、ドメイン拡張はドメインランダム化やスタイル転送を通じて生成された新しいサンプルを使用して、ターゲットドメインのパフォーマンスを高める。
訳抜け防止モード: 通常、ドメイン拡張はターゲットドメインのパフォーマンスを高める ドメインランダム化やスタイル転送を通じて生成された新しいサンプルを使用する。
0.68
In contrast to previous domain augmentation methods that are blind to the downstream task, our method searches for the most suitable augmentation based on both the target styles and the task performance on target via AutoML. ダウンストリームタスクに盲目な従来のドメイン拡張手法とは対照的に,本手法は,ターゲットのスタイルとターゲットのタスクパフォーマンスの両方に基づいて,AutoMLを介して最適な拡張を探索する。 0.77
In such a task-driven way, our method is expected to find a transform that better serves for the downstream task on the given target domain. このようなタスク駆動型手法では,提案手法は与えられた対象領域の下流タスクによりよい変換を期待できる。 0.63
It has been shown in [19] that for the crowd counting task, images mainly differ in color, scale and perspective. 19]では,群衆計数作業において,画像の色,スケール,視点が主に異なることが示されている。 0.79
Accordingly, in this paper, we define three basic transform units: RGB2Gray, scaling and perspective transform. そこで本稿では,rgb2gray, scaling, perspective transformの3つの基本変換ユニットを定義する。 0.80
Each transform is a combination of the above three transform units. 各変換は上記の3つの変換単位の組み合わせである。 0.76
As shown in Tab. 1, one transform is defined by five parameters, among which only three are searched for simplicity. タブに示すように。 1 つの変換は 5 つのパラメータで定義され、そのうち 3 つだけが単純さを求めて検索される。 0.67
It is notable the transform is not limited to the above three units and can be easily extended to different and also more types, with proper manual definitions. トランスフォーメーションは上記の3つのユニットに限らず、簡単な手作業による定義で、異なる型やより多くの型に拡張することができることは注目に値する。 0.68
Transform unit RGB2Gray 変換ユニット RGB2Gray 0.51
Scaling Perspective transform スケーリング 視点変換 0.66
Parameters Split ratio パラメータ スプリット比 0.74
Attribute pG* pS pPT 属性 pG* pS pPT 0.58
- Scale factor* - スケールファクター* 0.54
Angle* Table 1. Each transform consists of three different units, each represented by two parameters: one for split ratio and another for attribute. 角度* 表1。 それぞれの変換は3つの異なる単位で構成され、それぞれが2つのパラメータで表される。 0.60
* marks those parameters we search while others are fixed. ※検索対象のパラメータをマークし、他のパラメータを固定します。 0.60
A full transform set is generated by iterating each parameter. 各パラメータを反復してフル変換セットを生成する。 0.82
Given a transform, we split the whole source set into sev- 変換が与えられた場合、ソースセット全体をsevに分割します。 0.53
英語(論文から抽出)日本語訳スコア
Figure 2. Overview of our proposed bi-level alignment framework (BLA), which mainly consists of four components: feature extractor (F), density estimator (E), task-driven data alignment and local fine-grained discriminator (D). 図2。 提案するbi-level alignment framework(bla)の概要は,機能抽出器(f),密度推定器(e),タスク駆動データアライメント,局所的きめ細かい判別器(d)の4つのコンポーネントから成り立っている。 0.77
At training time, the source dataset S is transformed to S+ with the optimal transform searched via task-driven data alignment (Alg. 1), during which the validation feature generator provides target-like features for candidate transform validation. トレーニング時、ソースデータセットSをタスク駆動型データアライメントを介して探索する最適な変換(Alg1)でS+に変換し、検証機能ジェネレータが候補変換バリデーションのためのターゲットライクな特徴を提供する。 0.80
Then the entire network is optimized based on S+ and T using the training objective in Eq 5. そして、Eq 5のトレーニング目標を用いて、S+とTに基づいて全ネットワークを最適化する。
訳抜け防止モード: そしてネットワーク全体が最適化される Eq 5のトレーニング目標を用いたS+とTに基づく。
0.90
At test time, we simply feed a target image xi テスト時には、ターゲットイメージxiを単純にフィードします。 0.65
T to F and E to obtain the predicted density map(cid:101)yT . T〜F,Eにより予測密度マップ(cid:101)yTを得る。 0.78
eral subsets via a transform tree, as shown in Fig 3. 図3に示すように、変換木によるエデル部分集合。 0.68
At the 1st level, the whole source dataset is split into two subsets with a ratio of pG, i.e. some images are converted to gray scale images (along path Y), while others are kept the same (along path N). 第1レベルでは、ソースデータセット全体をpgの比率で2つのサブセットに分割する。例えば、一部の画像はグレースケールの画像に変換される(経路y)。
訳抜け防止モード: 1番目のレベルでは、ソースデータセット全体がpgの比率で2つのサブセットに分割される。 例えば、いくつかの画像は(経路yに沿って)グレースケールの画像に変換されます。 他は同じ(経路nに沿って)保持される。
0.69
At the following levels, each subset generated from the previous level goes through one split with a given split ratio and an attribute parameter. 以下のレベルでは、前のレベルから生成された各サブセットは、所定の分割比率と属性パラメータで1つのスプリットを通過します。 0.76
Given three transform units, we finally generate 8 (23) subsets. 3つの変換単位が与えられたとき、最終的に8 (23) の部分集合を生成する。 0.53
In this paper, we use a differential controller to guide the direction of our search process. 本稿では,ディファレンシャルコントローラを用いて探索プロセスの方向を案内する。
訳抜け防止モード: 本稿では,差動制御器を用いる。 探索プロセスの方向を導いてくれるのです
0.79
The search process is iterated via multiple rounds, each of which is described in Alg. 検索プロセスは複数のラウンドを通じて反復され、それぞれがalgで記述される。 0.71
1. At each round, we first transform the source data given some transform candidates, and then obtain the reward of each transform via validation on a generated target-like set; after that, we learn the mapping function from transforms to corresponding rewards via training a differentiable controller; finally, we update the transform candidates based on the controller and goes to the next search round. 1. 各ラウンドで、まず変換候補を与えられたソースデータを変換し、生成したターゲットライクなセット上で検証して各変換の報酬を得る。その後、微分可能なコントローラをトレーニングすることで、変換から対応する報酬へのマッピング関数を学習し、最後に、コントローラに基づいて変換候補を更新し、次の検索ラウンドに進む。 0.58
In the following, we explain the above process in more detail. 以下では、上記のプロセスについてより詳細に説明する。 0.77
Figure 3. We split the whole source set into several subsets via a transform tree according to pG, pS and pPT. 図3。 pG,pS,pPTに従って,ソースセット全体を変換木を介して複数のサブセットに分割した。 0.73
“Y: pG” refers to performing the transformation G with a ratio of pG; “N: 1 - pG” means that no transformation is performed with a ratio of 1 - pG. Y: pG」はpGの比で変換Gを実行すること、「N: 1 - pG」は1 - pGの比で変換を行わないことを意味する。
訳抜け防止モード: Y : pG 」とは、pG の比で変換 G を実行することを指す ; "N : 1 - pG" は 変換は1-pGの比で行われない。
0.77
Finally, we obtain the corresponding subsets as shown at the bottom row, which constitute S+. 最後に、S+を構成する下行に示すような対応する部分集合を得る。 0.71
Source Data Transformation Based on Candidate Transforms. 候補変換に基づくソースデータ変換。 0.66
At this stage, we first randomly initialize a transform set D = (dk)ND k=1. この段階で、まず変換集合 D = (dk)ND k=1 をランダムに初期化する。 0.77
Given an arbitrary transform dk, we split the whole source set into several subsets via a transform tree, as illustrated in Fig 3. 任意の変換 dk が与えられたとき、図3に示すように、ソースセット全体を変換木を介していくつかの部分集合に分割する。 0.69
In this way, we apply one transform on the source data and obtain a new mixed )NS source dataset S+ i=1. このようにして、ソースデータに1つの変換を適用し、新しい混合 )NS ソースデータセット S+ i=1 を得る。 0.75
Due to the large num- num が大きいため- 0.71
k = (xi , yi k = (xi) 意(いい) 0.41
S+ k S+ k ber of source images, we do not do standard data augmentation, but apply the transform on the original data to keep the same size of S+ S+k S+k ソース画像の場合、標準データ拡張は行いませんが、元のデータに変換を適用してS+と同じサイズにします。 0.53
Candidate Transform Validation. Based on each new source dataset S+ k , we train the whole network as shown in Fig. 2 with the learning objective from Eq 5. 候補変換検証。 各新たなソースデータセットS+kに基づいて、図2に示すように、Eq 5からの学習目標を用いてネットワーク全体をトレーニングする。 0.70
Now we need to evaluate the alignment quality of each S+ k . 現在、各 S+ k のアライメント品質を評価する必要がある。 0.68
Ideally, k and S. 理想的には k と s。 0.64
ControllerSourceTarg et000000-00000------ --0----------0-----0 0000000-0000111111-- 1111--------1---1--- ---11----11111111-11 1-𝑳𝑩𝑻𝑳𝑭𝑺𝑳EPred Density MapGT Density Map𝑳𝑭TPred FG PatchesPred BG PatchesLabel𝐹𝑆𝐹𝑇Validation FeatureGenerator Source ForwardTarget ForwardValidation PathBackpropagation𝝏𝑳𝑩𝑺𝝏D𝝏𝑳𝑭𝑺𝝏D𝝏𝑳𝑭𝑻𝝏D𝝏𝑳𝑩𝑻𝝏DGradient reverse𝝏𝑳𝑬𝝏E𝝏𝑳𝑬𝝏FBackwardProcedureGr adient reverseTask-Driven Data AlignmentFine-Graine d Feature Alignment𝑳𝑩𝑺BG headFG head−𝝏𝑳𝑩𝑺𝝏F−𝝏𝑳𝑭𝑺𝝏F−𝝏𝑳𝑭𝑻𝝏F−𝝏𝑳𝑩𝑻𝝏FFeature Extractor(F)Density Estimator(E)Fine-grained Discriminator(D)𝑆+𝐹𝑉𝑈3𝑈3𝑈3𝑈3𝑈2𝑈2𝑈1𝑈1: RGB2Gray 𝑈2: Scaling 𝑈3: Perspective transform𝑆1𝑆5𝑆8𝑆2𝑆4𝑆6𝑆7𝑆3Source: 𝑺N:1 -pGY:pGN:1 -pSY:pSN: 1 -pPTY:pPTN:1 -pSY:pS𝑺+N: 1 -pPTY:pPTN: 1 -pPTY:pPTN: 1 -pPTY:pPT ControllerSourceTarg et000000-00000------ --0----------0-----0 0000000-0000111111-- 1111--------1---1--- ---11----11111111-11 1-𝑳𝑩𝑻𝑳𝑭𝑺𝑳EPred Density MapGT Density Map𝑳𝑭TPred FG PatchesPred BG PatchesLabel𝐹𝑆𝐹𝑇Validation FeatureGenerator Source ForwardTarget ForwardValidation PathBackpropagation𝝏𝑳𝑩𝑺𝝏D𝝏𝑳𝑭𝑺𝝏D𝝏𝑳𝑭𝑻𝝏D𝝏𝑳𝑩𝑻𝝏DGradient reverse𝝏𝑳𝑬𝝏E𝝏𝑳𝑬𝝏FBackwardProcedureGr adient reverseTask-Driven Data AlignmentFine-Graine d Feature Alignment𝑳𝑩𝑺BG headFG head−𝝏𝑳𝑩𝑺𝝏F−𝝏𝑳𝑭𝑺𝝏F−𝝏𝑳𝑭𝑻𝝏F−𝝏𝑳𝑩𝑻𝝏FFeature Extractor(F)Density Estimator(E)Fine-grained Discriminator(D)𝑆+𝐹𝑉𝑈3𝑈3𝑈3𝑈3𝑈2𝑈2𝑈1𝑈1: RGB2Gray 𝑈2: Scaling 𝑈3: Perspective transform𝑆1𝑆5𝑆8𝑆2𝑆4𝑆6𝑆7𝑆3Source: 𝑺N:1 -pGY:pGN:1 -pSY:pSN: 1 -pPTY:pPTN:1 -pSY:pS𝑺+N: 1 -pPTY:pPTN: 1 -pPTY:pPTN: 1 -pPTY:pPT 0.29
英語(論文から抽出)日本語訳スコア
this should be done by measuring the counting performance on T . これは、T 上のカウントパフォーマンスを測定することで行うべきである。 0.64
Unfortunately, we do not have labels for T . 残念ながら、Tのラベルはありません。 0.64
To address this problem, we propose a validation feature generator, which takes the features of a pair of source and target image features (FS, FT ) from the feature extractor as input and generate a new feature FV via AdaIN [13], which is a mixture of source contents and target style, namely a target-like image feature. この問題に対処するために、特徴抽出器から1対のソースとターゲットの画像特徴(FS,FT)の特徴を入力として、ソース内容とターゲットスタイルの混合であるAdaIN[13]を介して新しい特徴FVを生成する検証機能生成器を提案する。 0.73
Specifically, we first compute the source style representation with channel-wise mean and standard deviation µ(FS), σ(FS) ∈ RC and the target style representation µ(FT ), σ(FT ) ∈ RC. 具体的には、まずチャネル平均および標準偏差 μ(FS), σ(FS) ∈ RC とターゲットスタイル表現 μ(FT ), σ(FT ) ∈ RC を用いてソーススタイル表現を計算する。 0.76
Then we replace the style of FS with that of FT and obtain FV : そして、FSのスタイルをFTのスタイルに置き換え、FVを得る。 0.64
F c V = µ(F c F c V = μ(F c) 0.47
T ) + σ(F c T ) + σ(F c) 0.47
T ) · ( S − µ(F c F c S) σ(F c S) T) · ( S − μ(F c F c S) σ(F c S) 0.42
), (2) where c ∈ {1, 2, 3,· · ·C} is the channel index. ), (2) ここで c ∈ {1, 2, 3, · · · c} はチャネル指標である。 0.51
After that, we feed FV to the density estimator and get(cid:101)yV . その後 我々はFVを密度推定器に供給し、(cid:101)yV を得る。 0.58
Because FS and FV share the same contents, we evaluate(cid:101)yV based FSとFVは同じ内容であるため、(cid:101)yVをベースとした評価を行う。 0.62
on yS. In this way, we obtain the evaluated validation performance pk as reward for transform dk. yS。 このようにして、変換dkに対する報酬として評価された検証性能pkを得る。 0.42
Candidate Transform Update. Candidate Transform Update 0.31
After obtaining the reward for each transform in D, we then train a differentiable controller and let it learn the mapping function from a transform to its corresponding reward. d における各変換に対する報酬を得た後、微分可能なコントローラを訓練し、変換から対応する報酬へのマッピング関数を学習させる。 0.69
The controller is of encoder-decoder structure. コントローラはエンコーダ・デコーダ構造である。 0.79
The encoder takes a transform as input, maps it to a hidden state, and predicts its perfor- エンコーダは変換を入力として、それを隠れた状態にマッピングし、その穿孔を予測する。 0.68
mance as(cid:101)pk. マンス as(cid:101)pk。 0.74
The decoder reconstructs the transform dk as (cid:101)dk from the hidden state. デコーダは、変換dkを隠れた状態から(cid:101)dkとして再構成する。 0.62
The loss function of our controller (cid:13)(cid:13)(cid :13)dk −(cid:101)dk 制御器の損失関数 (cid:13)(cid:13)(cid :13)dk −(cid:101)dk 0.49
(cid:13)(cid:13)(cid :13)2 (cid:13)(cid:13)(cid :13)2 0.38
LC = + (cid:107)pk −(cid:101)pk(cid:107) 2 . LC = + (cid:107)pk −(cid:101)pk(cid:107) 2 である。 0.57
(3) is defined as: (3) 次のように定義されています 0.43
Same with NAO [20], we then update the hidden state towards the gradient direction of improved performance and obtain a new transform set D(cid:48), for better alignment. NAO[20]と同様、隠れた状態を改良性能の勾配方向に向けて更新し、アライメントを改善するために新しい変換セットD(cid:48)を得る。 0.77
After several rounds, we choose the optimal transform from all validated transforms based on their rewards. 数ラウンドの後に、その報酬に基づいて、検証されたすべての変換から最適な変換を選択する。 0.53
Please refer to [20] for more details regarding the update procedure. 更新手順の詳細は[20]を参照してください。 0.76
3.4. Fine-Grained Feature Alignment 3.4. きめ細かい特徴アライメント 0.50
To perform feature alignment, we employ adversarial learning via a discriminator and a gradient reverse layer. 特徴のアライメントを行うために,判別器と勾配逆層による逆学習を用いる。 0.73
Inspired by the success of using segmentation as an auxiliary task for crowd counting [23], we propose a fine-grained discriminator, with two separated classification heads for foreground and background regions. 群衆数 [23] の補助タスクとしてセグメンテーションを用いることが成功したことに触発されて,前景と背景領域を2つに分けた細粒度判別器を提案する。 0.78
To handle the unbalanced numbers of foreground and background pixels, the discriminator is applied on local patches instead of pixels. 前景と背景画素の不均衡を扱うために、画素の代わりに局所パッチに判別器を適用する。
訳抜け防止モード: 前景および背景画素の不均衡数を処理する。 判別器はピクセルの代わりにローカルパッチに適用される。
0.76
Given the grid size G = (gh, gw), we feed a pair of feature maps (FS, FT ) to D and obtain two pairs of patch-level discrimination maps: (OF S, OBS) for source and (OF T , OBT ) for target, separating foreground グリッドサイズ G = (gh, gw) が与えられた場合、D に特徴写像 (FS, FT ) を1対ずつ供給し、2 組のパッチレベルの識別マップを得る: (OF S, OBS) ソースと (OF T , OBT ) ターゲット、フォアグラウンドを分離する。 0.84
Algorithm 1 Pseudo code of one-round search procedure of data-level alignment Input: Source and target domain training set S, T ; the pre- アルゴリズム1 データレベルアライメント入力の1ラウンド探索手順の擬似コード:ソースとターゲットドメインのトレーニングセットs,t,pre- 0.82
trained source only network(cid:98)G = {(cid:98)θF,(cid:98)θE}; the candidate 訓練されたソースのみネットワーク(cid:98)G = {(cid:98)θF,(cid:98)θE}; 候補 0.80
initialize G = {θF, θE, θD} with(cid:98)G k = transform (S,dk){As Fig 3} S+ G = train (G, S+ pk = validate (G, S, T ) {Val performance as reward} G = {θF, θE, θD} を(cid:98)G k = transform (S,dk){As Fig 3} S+ G = train (G, S+ pk = validation (G, S, T ) {Val performance as reward} で初期化する。 0.48
transform set D and the controller C 1: for dk ∈ D do 2: 3: 4: 5: 6: end for 7: P = {p1, p2.. 変換集合 D とコントローラ C 1: for dk ∈ D do 2: 3: 4: 5: 6: end for 7: P = {p1, p2. 0.84
.} 8: C = train controller(C, D, P) {As Eq 3} 9: D = update (C, D) {Same with NAO [20]} 10: return D, P .} 8: c = train controller(c, d, p) {as eq 3} 9: d = update (c, d) {same with nao [20]} 10: return d, p 0.39
k , T ) and background. k, T)。 背景も 0.62
Each map OF S, OF T , OBS, OBT ∈ R(H/gh)×(W/gw). S, OF T , OBS, OBT ∈ R(H/gh)×(W/gw) の各写像。 0.79
The segmentation masks (MS,(cid:102)MT ) are obtained by セグメンテーションマスク(MS,(cid:102)MT)を得る。 0.59
thresholding the ground truth density maps. 基底真理密度マップのしきい値化。 0.76
Please note that for the target we use pseudo density maps instead. ターゲットに対して、代わりに疑似密度マップを使うことに注意してください。 0.68
Specifically, we apply a threshold of th on each patch, to threshold the sum of all its pixel values. 具体的には、各パッチにthのしきい値を適用し、そのピクセル値の合計をしきい値とする。 0.75
As shown in Fig 2, we define local fine-grained discrimination losses of background and foreground LB, LF , as follows: 図2に示すように、背景および前景LB,LFの局所的微粒化識別損失を次のように定義する。 0.78
LD = LB + LF LB = LBS + LBT LD = LB + LF LB = LBS + LBT 0.42
(cid:88)−(1 − MS) · log(1 − OBS) (cid:88)−(1 −(cid:102)MT ) · log(OBT ), (cid:88)−MS · log(1 − OF S) (cid:88)−(cid:102)MT · log(OF T ). (cid:88)−(1 − MS) · log(1 − OBS) (cid:88)−(1 −(cid:102)MT ) · log(OBT ), (cid:88)−MS · log(1 − S) (cid:88)−(cid:102)MT · log(OF T ))。 0.47
= + = + LF = LF S + LF T = + = + LF = LF S + LF T 0.43
(4) We use the same back-propagation optimizing scheme with the gradient reverse layer [3] for adversarial learning. (4) 逆学習には逆勾配層[3]と同じバックプロパゲーション最適化スキームを用いる。 0.58
3.5. Optimization The optimization objective of the whole method is: 3.5. 最適化 全手法の最適化の目的は次のとおりである。 0.57
(5) where λ is a weight factor to balance the task loss LE and the domain adaptation loss LD. (5) ここで λ はタスク損失 le とドメイン適応損失 ld のバランスをとるための重み係数である。 0.85
L = LE + λLD, l = le + λld である。 0.58
The whole network is optimized via two steps. ネットワーク全体が2つのステップで最適化される。 0.70
For data alignment, we first optimize all the parameters in the network including the feature alignment component for each transform to obtain the corresponding reward, during the データアライメントのために、まず、変換毎に特徴アライメントコンポーネントを含むネットワーク内の全てのパラメータを最適化し、その間に対応する報酬を得る。 0.71
英語(論文から抽出)日本語訳スコア
search process in Alg. algの検索プロセス。 0.70
1. After selecting the best transform, we retrain the whole network including the feature alignment component with the transformed S+. 1. 最適な変換を選択した後、変換されたS+で特徴アライメント成分を含むネットワーク全体をトレーニングする。 0.56
4. Experiments We first introduce the datasets, evaluation metrics and implementation details; then we provide comparisons with state-of-the-art methods, followed by analysis on data alignment; finally, we perform some ablation studies. 4.実験 まず、データセット、評価メトリクス、実装の詳細を紹介し、次に最先端手法との比較を行い、データアライメントの分析を行い、最後にいくつかのアブレーション研究を行う。 0.74
4.1. Datasets and Evaluation Metrics 4.1. データセットと評価メトリクス 0.61
To evaluate the proposed method, the experiments are conducted under adaptation scenarios from GCC [26] to five large-scale real-world datasets, i.e. ShanghaiTech Part A/B (SHA/SHB) [33], QNRF [15], UCF-CC-50 [14] and WorldExpo’10 [32] respectively. 提案手法を評価するために,gcc [26] から 5 つの大規模実世界データセット,すなわち shanghaitech part a/b (sha/shb) [33], qnrf [15], ucf-cc-50 [14], worldexpo’10 [32] への適応シナリオを用いて実験を行った。 0.78
Statistics are listed in Tab. 統計はタブに記載されている。 0.61
2. Dataset Attribute 2. データセット 属性 0.59
# Images GCC SHA SHB QNRF 画像 GCC SHA SHB QNRF 0.39
UCF-CC-50 WorldExpo’10 UCF-CC-50 WorldExpo’10 0.33
Syn Real Real Real Real Real Syn Real Real Real Real Real Real Real 0.45
15,211 482 716 1,535 15,211 482 716 1,535 0.34
50 3,980 Cnt 50 3,980 Cnt 0.38
(Mean ± Std) 501±718 501±456 123±94 815±1176 1,279±950 50±41 (平均±Std) 501±718 501±456 123±94 815±1176 1,279±950 50±41 0.36
Table 2. Statistics of five real-world (Real) datasets and one synthetic (Syn) dataset GCC used for experiments. 表2。 5つの実世界(Real)データセットと、実験に使用される合成(Syn)データセットGCCの統計。 0.75
and Mean solute Error (MSE) lated as: M AE = つまり 絶対誤差 (MSE) は次のようになる。 0.46
(MAE) as Following previous works, we adopt Mean AbSquared Error formu- (MAE) として 先行研究に続いて,平均absquared error formu を採用する。 0.50
(cid:80)N i=1 |(cid:80) yi −(cid:80)(cid:101)yi| , and (cid:80)N i=1 |(cid:80) yi −(cid:80)(cid:101)yi|2, where N is the number of test images; (cid:80) yi, (cid:80)(cid:101)yi represent the ground (cid:80)n i=1 |(cid:80) yi −(cid:80)(cid:101)yi| , and (cid:80)n i=1 |(cid:80) yi −(cid:80)(cid:101)yi|2, ここで n はテスト画像の数である。 0.93
evaluation metrics. truth and predicted number on the i-th image respectively. 評価指標。 第i画像の真理と予測数をそれぞれ算出する。 0.65
4.2. Implementation Details 4.2. 実施内容 0.38
They are M SE = 彼らは M SE = 0.59
(cid:113) 1 N (cid:113) 1N 0.39
1 N The architectures of feature extractor (F), density estimator (E), fine-grained discriminator (D) and controller (C) are listed in supplementary. 1N 補足的に特徴抽出器(f)、密度推定器(e)、細粒度判別器(d)、制御器(c)のアーキテクチャを列挙する。
訳抜け防止モード: 1N 特徴抽出器(F)、密度推定器(E)のアーキテクチャ fine - きめ細かい識別器(D)とコントローラ(C)は補足的にリストされる。
0.53
We input 4 pairs of source and target images with a uniform size of 576 × 768 at each iteration. 各イテレーションで576×768の均一なサイズで4対のソース画像とターゲット画像を入力する。 0.73
Following the previous work [4], we generate the ground truth density map using Gaussian kernel with a kernel size of 15× 15 and a fixed standard deviation of 4. 先行研究 [4] に続いて, 核サイズが15×15, 固定標準偏差が4のガウス核を用いて, 基底真理密度マップを生成する。 0.74
We set th, G in Eq 4 and λ in Eq 5 to 0.005, (16,16) and 1.0 respectively for all our experiments; both pS and pPT are set to 0.5. Eq 5 では th, G と λ をそれぞれ 0.005, (16,16) と 1.0 に設定し、pS と pPT は 0.5 に設定した。 0.74
And the gradient factor of the gradient reverse layer is set to 0.01. そして、勾配反転層の勾配係数を0.01とする。 0.75
We also adopt a scene regularization strategy proposed by [26] to avoid negative knowledge transfer. また, [26] が提案するシーン正規化戦略を採用し, 負の知識伝達を回避する。 0.71
We train the adversarial framework and controller with 我々は敵のフレームワークとコントローラを訓練する 0.76
Adam optimizer with default parameters, and their learning rates are initialized as 10−5 and 10−1 respectively. デフォルトパラメータを持つアダムオプティマイザとその学習速度はそれぞれ10−5と10−1と初期化される。 0.68
All experiments are conducted on a single NVIDIA RTX 2080TI GPU with 11GB of VRAM and our code is implemented with Pytorch. 実験はすべて、11GBのVRAMを持つ1つのNVIDIA RTX 2080TI GPU上で行われ、我々のコードはPytorchで実装されている。 0.68
4.3. Comparisons with State-of-the-Art 4.3. State-of-the-Artとの比較 0.38
We compare our method BLA with previous published unsupervised domain adaptive crowd counting methods under the adaptation scenarios from synthetic GCC dataset to five different real-world datasets. 提案手法を,合成GCCデータセットから5種類の実世界のデータセットへの適応シナリオ下での非教師なし領域適応群カウント法と比較した。 0.71
All methods employ VGG16 [22] as backbone. すべてのメソッドはVGG16[22]をバックボーンとして使用する。 0.59
From the results in Tab. 3, we have the following observations: (1) Our proposed method outperforms all existing domain adaptation methods by a large margin across different datasets and on WorldExpo’10 we achieve comparable results with DACC. Tabの結果から。 1)提案手法は,既存のすべてのドメイン適応メソッドを,異なるデータセットに対して大きなマージンで上回っており,worldexpo’10では,daccと同等の結果が得られる。 0.66
In particular, on SHA our proposed method achieves 99.3 MAE and 145.0 MSE, outperforming previous best results by 13.1 pp w.r.t. MAE and 31.9 pp w.r.t. MSE. 特にSHAでは,提案手法は99.3 MAEと145.0 MSEを達成し,13.1 pp w.r.t. MAEと31.9 pp w.r.t. MSEよりも優れていた。 0.62
(2) Our method is robust across various real target datasets, showing high adaptability. 2)本手法は,様々な実対象データセットに対して頑健であり,高い適応性を示す。 0.67
As shown in Tab. 2, although the density of these real-world datasets varies a lot, we perform the best on all target domains. タブに示すように。 これらの実世界のデータセットの密度は多種多様ですが、すべてのターゲットドメインでベストを尽くしています。 0.66
4.4. Analysis on Task-Driven Data Alignment 4.4. タスク駆動型データアライメントの解析 0.53
In order to understand how the data alignment behaves, we show the searched transforms for different target datasets in Tab. データアライメントの動作を理解するために、Tab内の異なるターゲットデータセットに対する検索された変換を示す。 0.75
4. It shows that our task-driven data alignment is quite interpretable, representing various domain gaps between source and different target domains. 4. これは、タスク駆動のデータアライメントが、ソースと異なるターゲットドメイン間のさまざまなドメインギャップを表す、非常に解釈可能であることを示している。 0.50
For instance, GCC contains highly-saturated color images while UCF-CC-50 and WorldExpo’10 contain lots of images with low saturations, so the RGB2Gray ratios on them are rather high (0.85 and 0.98) as gray scale images are of 0 saturation; in contrast, SHB is closer to GCC in terms of saturation, so the RGB2Gray ratio on SHB is rather low (0.16). 例えば、UCF-CC-50とWorldExpo’10は飽和度の低い多くの画像を含むため、RGB2Gray比はかなり高く(0.85と0.98)、グレースケール画像は飽和度の0であるのに対し、SHBは飽和度の点でGCCに近いため、SHB上のRGB2Gray比は比較的低い(0.16)。 0.85
Similarly, since UCF-CC-50 is denser than other datasets, its scaling factor is particularly smaller, such that denser regions with small-scale heads will be generated. 同様に、UCF-CC-50は他のデータセットよりも密度が高いため、そのスケーリング係数は特に小さく、小規模の頭を持つより密度の高い領域が生成される。 0.61
Moreover, we perform cross dataset validation by applying the searched transform on one dataset to another. さらに,探索された変換を別のデータセットに適用することにより,データセット間の検証を行う。 0.63
As shown in Tab. 5, when testing on SHB, the transform searched on SHA underperforms that searched on SHB; and vice versa. タブに示すように。 SHBでテストすると、SHBで検索したSHAアンダーパフォーマンスで検索され、逆も検索された。 0.66
These results indicate that each dataset requires its personalized transform to achieve the optimal performance. これらの結果は、各データセットが最適な性能を達成するためにパーソナライズされた変換を必要とすることを示している。
訳抜け防止モード: これらの結果は 各データセットは最適なパフォーマンスを達成するためにパーソナライズされた変換が必要です。
0.66
It is necessary to search for the most suitable transform on each dataset in an automatic way so as to avoid tedious manual designs. 面倒な手動設計を避けるために、各データセット上で最も適切な変換を自動で検索する必要がある。 0.72
Additionally, Fig 4 shows some qualitative results on the SHA dataset. さらに、図4はshaデータセットに定性的な結果を示している。 0.63
From Column 3, we can see that without adaptation, the model either fails to detect the presence of people in some areas (top row), or fails to get a correct estimate of the local density (middle and bottom rows). コラム3から、適応がなければ、モデルが一部の領域(トップ列)における人物の存在を検知できないか、あるいは局所密度(中間列と下列)を正しく推定できないかが分かる。
訳抜け防止モード: コラム3から 適応がなければモデルが どちらかが、いくつかの領域(最上位列)における人々の存在を検出することに失敗する。 あるいは、局所密度(中・下行)を正しく見積もることができない。
0.75
Our 我々の 0.67
英語(論文から抽出)日本語訳スコア
Method NoAdpt [34] 方法 NoAdpt[34] 0.40
Cycle-GAN [34] サイクルガン[34] 0.74
SE Cycle-GAN [26] SEサイクルGAN[26] 0.90
SE Cycle-GAN(JT) [27] SEサイクルGAN(JT) [27] 0.86
FSC [8] FADA [6] GP [24] DACC [4] BLA (ours) FSC [8] FADA [6] GP [24] DACC [4] BLA (ours) 0.42
SHA SHB QNRF 社 SHB QNRF 0.44
UCF-CC-50 WorldExpo’10 UCF-CC-50 WorldExpo’10 0.33
MAE MSE MAE MSE MAE MSE MAE MSE 689.0 160.0 143.3 548.2 528.8 123.4 119.6 512.0 129.3 MAE MSE MASE MSE MSE MSE 689.0 160.0 143.3 548.2 528.8 123.4 119.6 512.0 129.3 0.30
216.5 204.3 193.4 189.1 187.6 216.5 204.3 193.4 189.1 187.6 0.22
275.5 257.3 230.4 225.9 221.2 275.5 257.3 230.4 225.9 221.2 0.22
458.5 400.6 384.5 385.7 390.2 458.5 400.6 384.5 385.7 390.2 0.44
487.2 404.6 373.4 370.2 487.2 404.6 373.4 370.2 0.23
- - 210.0 211.7 198.9 - - 210.0 211.7 198.9 0.36
- 351.0 357.9 316.1 - 351.0 357.9 316.1 0.33
355.0 505.0 355.0 505.0 0.29
- - 346.8 480.0 - - 346.8 480.0 0.36
- 22.8 25.4 19.9 16.4 16.9 16.0 12.8 13.1 11.9 - 22.8 25.4 19.9 16.4 16.9 16.0 12.8 13.1 11.9 0.32
30.6 39.7 28.3 25.8 24.7 24.7 19.2 19.4 18.9 30.6 39.7 28.3 25.8 24.7 24.7 19.2 19.4 18.9 0.21
- 121.0 112.4 99.3 - 121.0 112.4 99.3 0.33
- 181.0 176.9 145.0 - 181.0 176.9 145.0 0.33
Avg. MAE 42.8 26.3 26.3 24.4 avgだ 前 42.8 26.3 26.3 24.4 0.33
- 21.6 20.4 17.4 17.9 - 21.6 20.4 17.4 17.9 0.33
Table 3. Comparison of our method with previous methods for synthetic-to-real adaptation. 表3。 合成と現実の適応のための従来の手法との比較を行った。 0.47
All methods employ VGG16 [22] as backbone. すべてのメソッドはVGG16[22]をバックボーンとして使用する。 0.59
Figure 4. Qualitative adaptation results of images with different levels of density on SHA. 図4。 SHA上の密度の異なる画像の質的適応結果 0.68
Dataset SHA SHB QNRF データセット SHA SHB QNRF 0.52
UCF-CC-50 WorldExpo’10 UCF-CC-50 WorldExpo’10 0.33
Searched transform d pG 0.78 0.16 0.67 0.85 0.98 探索変換d pG 0.78 0.16 0.67 0.85 0.98 0.45
Scale factor Angle 12◦ 3◦ 25◦ 4◦ 17◦ スケールファクター アングル12 ^ 3 ^ 25 ^ 4 ^ 17 ^ 17 ^ 0.41
0.77 0.42 0.41 0.23 0.57 0.77 0.42 0.41 0.23 0.57 0.22
Table 4. Searched transforms vary across different target datasets. 表4。 検索された変換は、異なるターゲットデータセットによって異なる。 0.43
task-driven data alignment helps to reduce the errors largely, indicating the domain gaps are significantly narrowed. タスク駆動のデータアライメントは、エラーを大幅に減らすのに役立つ。
訳抜け防止モード: Task - データアライメントが役に立つ エラーを減らし ドメインのギャップは かなり狭まっています
0.71
After further adding our fine-grained feature alignment, our BLA method provides more accurate final counts. さらに細かな特徴アライメントを加えた後、BLA法はより正確な最終カウントを提供する。 0.67
Dataset SHA SHB データセット SHA SHB 0.52
Searched d for SHA Searched d for SHB [0.78, 0.77, 12◦] MAE MSE 145.0 99.3 14.7 26.4 sha の d を検索すると、shb [0.78, 0.77, 12] mae mse 145.0 99.3 14.7 26.4 となる。
訳抜け防止モード: sha の d を検索し、shb [ 0.78, 0.77] を検索する。 12] mae mse 145.0 99.3 14.7 26.4
0.47
[0.16, 0.42, 3◦] MSE 153.7 18.9 [0.16, 0.42, 3◦] MSE 153.7 18.9 0.34
MAE 104.3 11.9 MAE 104.3 11.9 0.29
Table 5. Different datasets require different transformations for optimal results. テーブル5。 異なるデータセットは最適な結果を得るために異なる変換を必要とする。 0.63
4.5. Ablation Studies 4.5. アブレーション研究 0.53
In this subsection, we conduct some ablation studies to analyze different components of our proposed BLA. 本節では,提案するBLAの異なる成分を分析するためのアブレーション研究を行っている。 0.77
All experiments are conducted under the GCC −→ SHA adaptation due to its large variation in crowd density. 全ての実験は、群衆密度の大きな変化のため、GCC −→ SHA適応の下で実施される。 0.71
Effects of Two Levels of Alignment. 2段階のアライメントの効果。 0.63
We first analyze the effects of data alignment and feature alignment. まず,データアライメントと特徴アライメントの効果について分析する。 0.74
Input ImageGround TruthBLA (Ours)No AdaptTask-Driven Data AlignmentPred:1122.1 Pred:389.0Pred:325.0 Pred:1115.2GT:382GT: 1068GT:466Pred:238.5 Pred:512.8Pred:143.6 Pred:422.9Pred:477.5 Input ImageGround TruthBLA (Ours)No AdaptTask-Driven Data AlignmentPred:1122.1 Pred:389.0Pred:325.0 Pred:1115.2GT:382GT: 1068GT:466Pred:238.5 Pred:512.8Pred:143.6 Pred:422.9Pred:477.5 0.10
英語(論文から抽出)日本語訳スコア
As shown in Tab. 6, the performance is significantly improved by ∼25 pp w.r.t MAE (from 134.7 to 109.1) when task-driven data alignment is employed. タブに示すように。 6 pp w.r.t mae (134.7 から 109.1) のタスク駆動データアライメントで性能が大幅に向上した。 0.64
On the other hand, we also observe a large improvement of ∼14 pp w.r.t MAE (from 134.7 to 121.1) by replacing global feature alignment with fine-grained feature alignment. 一方,グローバル機能アライメントを細粒度特徴アライメントに置き換えることで,14ppw.r.t mae(134.7から121.1)を大きく改善した。 0.75
Moreover, we obtain a total gain of ∼35 pp w.r.t MAE by adding both alignments. さらに、両アライメントを加算することにより、合計で35 pp w.r.t MAEを得る。 0.61
These results indicate the effects of two levels of alignment and the complementarity between them. これらの結果は2段階のアライメントの効果とそれらの相補性を示している。 0.71
Task-Driven Data Alignment タスク駆動 データアライメント 0.66
× (cid:88) × (cid:88) × (cid:88)× (cid:88) 0.40
Fine-Grained Feature Alignment MAE MSE 210.9 153.8 200.8 145.0 細粒 特徴アライメント MAE MSE 210.9 153.8 200.8 145.0 0.36
134.7 109.1 121.1 99.3 134.7 109.1 121.1 99.3 0.23
× × (cid:88) (cid:88) × × (cid:88) (cid:88) 0.41
Table 6. Effects of two levels of alignment. 表6。 2段階のアライメントの効果。 0.50
Effect of Task-Driven Data Alignment To evaluate the effectiveness of task-driven data alignment, we replace it with domain randomization and style transfer. タスク駆動データアライメントの影響 タスク駆動データアライメントの有効性を評価するために、ドメインのランダム化とスタイル転送に置き換える。 0.79
From Tab. 7, we can see that our task-driven data alignment outperforms previous two data augmentation methods by a large margin. タブから。 7) タスク駆動型データアライメントは,これまでの2つのデータ拡張メソッドよりも大きなマージンで優れています。 0.61
Method Style Transfer Domain Randomization 方法 様式移転 ドメインランダム化 0.55
Task-Driven Data Alignment タスク駆動データアライメント 0.71
MAE MSE 194.6 119.4 164.2 110.0 99.3 145.0 MAE MSE 194.6 119.4 164.2 110.0 99.3 145.0 0.25
Table 7. Effect of Task-Driven Data Alignment. 表7。 タスク駆動型データアライメントの効果 0.54
Effect of Validation Feature Generator. 検証特徴発生装置の効果 0.66
To evaluate the alignment quality of each transform, we generate a target-like feature set for validation via AdaIN. 各変換のアライメント品質を評価するために, adain による検証のためにターゲットライクな特徴セットを生成する。 0.71
In Fig 5, we compare the counting performance on our generated validation set and the real target training set w.r.t. MAE, where the index indicates different combinations of transform parameters. 図5では、生成したバリデーションセットと実際のターゲットトレーニングセットw.r.t.maeの計数性能を比較し、その指標が変換パラメータの異なる組み合わせを示す。 0.83
We can see that the two curves go in a similar trend, i.e. the worst performance happens at index 0, the best performance happens at index 7, and there is fluctuation in between. 2つの曲線は同様の傾向にあり、つまり、インデックス0で最悪のパフォーマンス、インデックス7で最高のパフォーマンス、間には変動がある。
訳抜け防止モード: 2つの曲線が同じような傾向にあることが分かる。 つまり 最悪のパフォーマンスは インデックス0で起こります 最高のパフォーマンスは インデックス7で行われます 間にはゆがみがあります
0.69
This comparison demonstrates that our generated validation set is of high similarity to the real target set, allowing us to do effective validation without relying on target annotations. この比較は、生成したバリデーションセットが実際のターゲットセットと非常に類似していることを示し、ターゲットアノテーションに頼ることなく有効なバリデーションを行うことができる。 0.62
On the other hand, we observe the performance varies a lot along the choice of transform parameters, showing that different transforms highly affect the performance. 一方、変換パラメータの選択によって性能が大きく変化し、異なる変換が性能に高い影響を与えていることを示す。 0.75
Thus it is of great importance to search for an optimal transform for a given target set. したがって、与えられた対象集合の最適変換を探すことは非常に重要である。 0.74
Impact of Grid Size in Fine-Grained Feature Alignment. 細粒度特徴アライメントにおけるグリッドサイズの影響 0.77
Our fine-grained feature alignment strategy is conducted in a patch-wise style. 私たちの細かい機能アライメント戦略はパッチワイドなスタイルで行われます。 0.70
We analyze how the grid size グリッドのサイズをどう分析するか 0.65
Figure 5. Comparison of validation performance on the generated set (left) and real target set (right) across different transforms w.r.t. MAE. 図5。 生成した集合(左)と実ターゲット集合(右)の異なる変換 w.r.t. MAE における検証性能の比較。 0.77
The similar trend verifies the effect of our validation feature generator. 同様の傾向は、検証機能ジェネレータの効果を検証する。 0.69
G affects the performance. Gはパフォーマンスに影響する。 0.76
As shown in Tab. 8, if the size G is too small or too large, there will be a data imbalance between the numbers of background and foreground patches, which results in poor feature alignment. タブに示すように。 サイズが小さすぎるか大きすぎると、背景と前景のパッチの数の間にデータ不均衡が生じ、結果として機能の整合性が低下する。 0.65
Since the patch size of 16 performs the best, we use 16 as the default size in all experiments. 16のパッチサイズがベストなので、すべての実験でデフォルトサイズとして16を使用します。 0.83
Grid size G MAE MSE 222.9 205.4 206.3 200.8 223.6 格子サイズG MAE MSE 222.9 205.4 206.3 200.8 223.6 0.58
(2,2) (4,4) (8,8) (16,16) (32,32) (2,2) (4,4) (8,8) (16,16) (32,32) 0.36
138.1 130.5 129.0 121.1 141.4 138.1 130.5 129.0 121.1 141.4 0.22
Table 8. Impact of local grid size G used in fine-grained feature alignment. 表8。 きめ細かな特徴アライメントに用いる局所格子サイズGの影響 0.52
In the supplementary material, we provide more ablation studies on the impact of segmentation threshold, effect of additional style transfer from S+ to T , effect of using more transformations, and a comparison to grid search. 補足資料では, セグメンテーション閾値の影響, s+ から t への付加的スタイル移動の影響, より多くの変換の効果, グリッド探索との比較について, さらなるアブレーション研究を行っている。 0.80
5. Conclusion In this work, we propose a bi-level alignment framework for synthetic-to-real UDA crowd counting. 5.結論 そこで本研究では,合成から現実までのUDA群カウントのための2レベルアライメントフレームワークを提案する。 0.67
On one hand, we propose task-driven data alignment to search for a specific transform given the target set, which is applied on the source data to narrow down the domain gap at the data level. 本稿では,データレベルの領域ギャップを狭めるために,ソースデータに適用する対象セットを与えられた特定の変換を探索するためにタスク駆動データアライメントを提案する。 0.77
On the other hand, to alleviate the alignment difficulty on the entire image, we propose to perform fine-grained feature alignment on foreground and background patches separately. 一方,画像全体のアライメントの困難さを軽減するために,前景と背景のパッチを別々に微粒な特徴アライメントを行うことを提案する。 0.77
Extensive experiments on five real-world crowd counting benchmarks have demonstrated the effectiveness of our contributions. 5つの実世界のクラウドカウントベンチマークに関する広範な実験が、我々の貢献の有効性を実証しました。 0.53
Acknowledgements This work was supported in part by the “111” Program B13022, Fundamental Research Funds for the Central Universities (No. 30920032201) and the National Natural Science Foundation of China (Grant No. 62172225). 覚書 この研究は、「111」プログラムB13022、中央大学基礎研究基金(No. 30920032201)、中国自然科学財団(Grant No. 62172225)によって部分的に支援された。 0.60
01234567Index7607808 00820840860MAEValida tion01234567Index102 104106108110112114MA ETarget 01234567Index7607808 00820840860MAEValida tion01234567Index102 1041061081102114MAET arget 0.13
英語(論文から抽出)日本語訳スコア
References [1] Minghao Chen, Jianlong Fu, and Haibin Ling. 参照 [1]Minghao Chen、Jianlong Fu、Haybin Ling。 0.60
One-shot neural ensemble architecture search by diversity-guided search space shrinking. 多様性誘導型探索空間縮小によるワンショットニューラルアンサンブルアーキテクチャの探索 0.67
In CVPR, pages 16530–16539, 2021. CVPRでは16530–16539, 2021。 0.77
3 [2] Xuanyi Dong, Mingxing Tan, Adams Wei Yu, Daiyi Peng, Bogdan Gabrys, and Quoc V Le. 3 [2]Xuanyi Dong、Mingxing Tan、Adams Wei Yu、Daiyi Peng、Bogdan Gabrys、Quoc V Le。
訳抜け防止モード: 3 [2]Xuanyi Dong,Mingxing Tan,Adams Wei Yu, Daiyi Peng, Bogdan Gabrys, Quoc V Le など。
0.60
Autohas: Differentiable hyper-parameter and architecture search. Autohas: 微分可能なハイパーパラメータとアーキテクチャ検索。 0.68
arXiv. 3 [3] Yaroslav Ganin and Victor Lempitsky. arXiv。 3 ヤロスラフ・ガニンとヴィクトル・レンピツキー。 0.36
Unsupervised domain adaptation by backpropagation. バックプロパゲーションによる教師なしドメイン適応 0.53
pages 1180–1189, 2015. 1180-1189, 2015年。 0.59
5 [4] Junyu Gao, Tao Han, Qi Wang, and Yuan Yuan. 5 [4] 賀王順雄、漢太夫、王慶、元元。 0.27
Domainadaptive crowd counting via inter-domain features segregation and gaussian-prior reconstruction. ドメイン間を経由したドメイン適応的な集団カウントは、分離とガウス・プライアの再構築が特徴である。 0.33
arXiv. 2, 3, 6, 7 arXiv。 2, 3, 6, 7 0.42
[5] Junyu Gao, Qi Wang, and Xuelong Li. 【5】賀王純雄、王喜、李季龍 0.25
Pcc net: Perspective crowd counting via spatial convolutional network. Pccnet:空間畳み込みネットワークによる観客数計測。 0.63
IEEE TCSVT, 30(10):3486–3498, 2019. ieee tcsvt, 30(10):3486-3498, 2019を参照。 0.63
[6] Junyu Gao, Yuan Yuan, and Qi Wang. [6]雅元、元元、清王。 0.21
Feature-aware adaptation and density alignment for crowd counting in video surveillance. ビデオ監視における群衆カウントのための特徴認識適応と密度アライメント 0.77
arXiv. 2, 7 arXiv。 2, 7 0.63
[7] Xinyu Gong, Shiyu Chang, Yifan Jiang, and Zhangyang Wang. [7]新友権(しんゆうごん)、長清(しゆう)、Yifan Jiang(Yifan Jiang)、張陽(Zhangyang Wang)。 0.40
Autogan: Neural architecture search for generative adversarial networks. Autogan: 生成的敵ネットワークのニューラルネットワーク検索。 0.67
In ICCV, pages 3224–3234, 2019. ICCVでは、3224-3234, 2019。 0.80
3 [8] Tao Han, Junyu Gao, Yuan Yuan, and Qi Wang. 3 [8]太漢、賀陽順雄、元元、王慶。 0.35
Focus on semantic consistency for cross-domain crowd understanding. クロスドメイン理解のための意味的一貫性に着目する。 0.53
In ICASSP, pages 1848–1852, 2020. ICASSP』1848-1852、2020年。 0.71
2, 7 [9] Yuhang He, Zhiheng Ma, Xing Wei, Xiaopeng Hong, Wei Ke, and Yihong Gong. 2, 7 [9]ユン・ヒョン・マ、Xing Wei、Xiaopeng Hong、Wei Ke、Yihong Gong。 0.71
Error-aware density isomorphism reconstruction for unsupervised cross-domain crowd counting. 教師なしクロスドメイン群数に対するエラーアウェア密度同型再構成 0.55
In AAAI, number 2, pages 1540–1548, 2021. AAAI, number 2, page 1540–1548, 2021. 0.41
2 [10] Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu, Phillip Isola, Kate Saenko, Alexei Efros, and Trevor Darrell. 2 Judy Hoffman氏、Eric Tzeng氏、Taesung Park氏、Jun-Yan Zhu氏、Phillip Isola氏、Kate Saenko氏、Alexei Efros氏、Trevor Darrell氏。
訳抜け防止モード: 2 [10 ]ジュディ・ホフマン、エリック・ツェング、帝王公園。 Jun - Yan Zhu, Phillip Isola, Kate Saenko, Alexei Efros トレバー・ダレル(Trevor Darrell)。
0.61
Cycada: Cycle-consistent adversarial domain adaptation. Cycada: サイクル一貫性のある対向ドメイン適応。 0.65
pages 1989–1998, 2018. 1989-1998年、2018年。 0.55
2 [11] Yutao Hu, Xiaolong Jiang, Xuhui Liu, Baochang Zhang, Jungong Han, Xianbin Cao, and David Doermann. 2 [11]ユタオ・フ、Xiaolong Jiang、Xuhui Liu、Baochang Zhang、Jungong Han、Xianbin Cao、David Doermann。
訳抜け防止モード: 2 [11 ]ユタオ・フ、クアオロン・ジアン、クウイ・リウ Baochang Zhang氏、Jungong Han氏、Xianbin Cao氏、David Doermann氏。
0.51
Nascount: Counting-by-density with neural architecture search. Nascount: ニューラルネットワーク検索によるカウントバイ密度。 0.55
In ECCV, pages 747–766, 2020. ECCV』747-766頁、2020年。 0.74
1 [12] Jiaxing Huang, Dayan Guan, Aoran Xiao, and Shijian Lu. 1 【12】十八天黄、太安広安、青蘭青雄、志慈庵ル 0.47
Fsdr: Frequency space domain randomization for domain generalization. Fsdr: 領域一般化のための周波数空間領域ランダム化。 0.65
In CVPR, pages 6891–6902, 2021. CVPRでは6891–6902, 2021。 0.81
2 [13] Xun Huang and Serge Belongie. 2 13]Xun HuangとSerge Belongie。 0.54
Arbitrary style transfer in In ICCV, In ICCVにおける任意型転送 0.77
real-time with adaptive instance normalization. 適応インスタンス正規化によるリアルタイム。 0.62
pages 1501–1510, 2017. 2017年、1501-1510頁。 0.58
2, 5 [14] Haroon Idrees, Imran Saleemi, Cody Seibert, and Mubarak Shah. 2, 5 14]Haroon Idrees、Imran Saleemi、Cody Seibert、Mubarak Shah。 0.37
Multi-source multi-scale counting in extremely dense crowd images. 超高密度群集画像におけるマルチソースマルチスケール計測 0.68
In CVPR, pages 2547–2554, 2013. CVPR』2547-2554頁、2013年。 0.69
6 [15] Haroon Idrees, Muhmmad Tayyab, Kishan Athrey, Dong Zhang, Somaya Al-Maadeed, Nasir Rajpoot, and Mubarak Shah. 6 [15]Haroon Idrees, Muhmmad Tayyab, Kishan Athrey, Dong Zhang, Somaya Al-Maadeed, Nasir Rajpoot, Mubarak Shah。
訳抜け防止モード: 6 [15 ]ハーーン・イドリース,ムハンマド・タイヤブ,キシャン・アスレイ, Dong Zhang, Somaya Al - Maadeed, Nasir Rajpoot そしてムバラク・シャー。
0.48
Composition loss for counting, density map estimation and localization in dense crowds. 密集群集における数量・密度マップ推定・局所化のための組成損失 0.76
In ECCV, pages 532–546, 2018. ECCVでは、2018年532-546頁。 0.68
6 [16] Wang Li, Li Yongbo, and Xue Xiangyang. 6 [16]王李、李永保、Xue Xiangyang。 0.35
Coda: Counting objects via scale-aware adversarial density adaption. Coda: スケールアウェアな対向密度適応によるオブジェクトのカウント。 0.73
In ICME, pages 193–198, 2019. ICME』193-198頁、2019年。 0.72
2 [17] Yuhong Li, Xiaofan Zhang, and Deming Chen. 2 [17]ユホン・リー、シャオファン・チャン、デミング・チェン。 0.45
Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes. Csrnet: 混雑したシーンを理解するための、拡張畳み込みニューラルネットワーク。 0.72
In CVPR, pages 1091–1100, 2018. CVPR』1091-1100頁、2018年。 0.73
[18] Chenxi Liu, Barret Zoph, Maxim Neumann, Jonathon Shlens, Wei Hua, Li-Jia Li, Li Fei-Fei, Alan Yuille, Jonathan Huang, and Kevin Murphy. [18]Chenxi Liu、Barret Zoph、Maxim Neumann、Jonathon Shlens、Wei Hua、Li-Jia Li、Li Fei-Fei、Alan Yuille、Jonathan Huang、Kevin Murphy。
訳抜け防止モード: [18 ]Chenxi Liu, Barret Zoph, Maxim Neumann, Joathon Shlens, Wei Hua, Li - Jia Li, Li Fei - Fei アラン・ユイユ、ジョナサン・フアン、ケビン・マーフィー。
0.79
Progressive neural architecture search. 進化的ニューラルアーキテクチャ探索。 0.68
In ECCV, pages 19–34, 2018. ECCV、2018年、19-34頁。 0.37
3 [19] Yongtuo Liu, Qiang Wen, Haoxin Chen, Wenxi Liu, Jing Qin, Guoqiang Han, and Shengfeng He. 3 [19]ヨントゥオ・リ、チャン・ウェン、ハオシン・チェン、ウェンチ・リウ、ジン・チン、グオチャン・ハン、シェンファン・ヘ。
訳抜け防止モード: 3 [19 ]ヨントゥオ・リ、チャン・ウェン、ハオシン・チェン、 Wenxi Liu, Jing Qin, Guoqiang Han, and Shengfeng He
0.56
Crowd counting via cross-stage refinement networks. クロスステージリファインメントネットワークによる群衆のカウント。 0.65
IEEE TIP, 29:6800–6812, 2020. IEEE TIP, 29:6800–6812, 2020。 0.38
1, 3 [20] Renqian Luo, Fei Tian, Tao Qin, Enhong Chen, and Tie-Yan In NeurIPS, pages 1, 3 [20]蓮如王、Fei Tian、Tao Qin、Enhong Chen、Tie-Yan In NeurIPS、ページ 0.40
Liu. Neural architecture optimization. Liu ニューラルネットワークの最適化。 0.34
7827–7838, 2018. 7827–7838, 2018. 0.42
3, 5 [21] Hyeonseob Nam, HyunJae Lee, Jongchan Park, Wonjun Yoon, and Donggeun Yoo. 3, 5 21]ヒョンソブ・ナム、ヒョンジェ・リー、ジョンチャン・パーク、ウォンジュン・ヨン、ドンジュン・ヨン 0.49
Reducing domain gap by reducing style bias. スタイルバイアスの低減によるドメインギャップの低減。 0.63
In CVPR, pages 8690–8699, 2021. CVPRでは8690-8699, 2021。 0.80
2 [22] Karen Simonyan and Andrew Zisserman. 2 22]カレン・シモンヤンとアンドリュー・ジッセルマン 0.52
Very deep convolutional networks for large-scale image recognition. 大規模画像認識のための深層畳み込みネットワーク 0.78
arXiv, 2014. 2014年、arxiv。 0.55
3, 6, 7 [23] Vishwanath A Sindagi and Vishal M Patel. 3, 6, 7 Vishwanath A Sindagi and Vishal M Patel.[23] Vishwanath A Sindagi and Vishal M Patel. 0.38
Inverse attention guided deep crowd counting network. 逆の注意 ディープ・クラウド・カウント・ネットワーク 0.50
pages 1–8, 2019. 2019年 - 8頁。 0.73
5 [24] Vishwanath A Sindagi, Rajeev Yasarla, Deepak Sam Babu, R Venkatesh Babu, and Vishal M Patel. 5 Vishwanath A Sindagi, Rajeev Yasarla, Deepak Sam Babu, R Venkatesh Babu, Vishal M Patel。
訳抜け防止モード: 5 24 ]ヴィシュワナト・ア・シンダギ、ラジェエフ・ヤサラ、ディープク・サム・バブ ベンカテシュ・バブ(venkatesh babu)とヴィシャール・m・パテル(vishal m patel)。
0.44
Learning to count in the crowd from limited labeled data. 限られたラベル付きデータから、群衆を数えることを学ぶ。 0.66
In ECCV, pages 212– 229, 2020. ECCVでは、2020年212-229頁。 0.76
2, 7 [25] Josh Tobin, Rachel Fong, Alex Ray, Jonas Schneider, Wojciech Zaremba, and Pieter Abbeel. 2, 7 Josh Tobin氏、Rachel Fong氏、Alex Ray氏、Jonas Schneider氏、Wojciech Zaremba氏、Pieter Abbeel氏。 0.75
Domain randomization for transferring deep neural networks from simulation to the real world. シミュレーションから実世界へのディープニューラルネットワークの転送のためのドメインランダム化 0.80
pages 23–30, 2017. 2017年、23-30頁。 0.59
2 [26] Qi Wang, Junyu Gao, Wei Lin, and Yuan Yuan. 2 [26]Qi Wang、Junyu Gao、Wei Lin、Yuan Yuan。 0.37
Learning from synthetic data for crowd counting in the wild. 野生の群集計数のための合成データからの学習 0.71
In CVPR, pages 8198–8207, 2019. CVPR』8198-8207、2019年。 0.31
2, 6, 7 [27] Qi Wang, Junyu Gao, Wei Lin, and Yuan Yuan. 2, 6, 7 【27】王清、賀王順雄、林文、元元 0.33
Pixel-wise crowd understanding via synthetic data. 合成データによるピクセル単位の群衆理解。 0.63
IJCV, 129(1):225– 245, 2021. ijcv、129(1):225–245、2021。 0.67
7 [28] Qinwei Xu, Ruipeng Zhang, Ya Zhang, Yanfeng Wang, and Qi Tian. 7 [28]チンウェイxu、ルピエンzhang、ヤ・チャン、ヤンチェン・ワン、チー・チャン 0.48
A fourier-based framework for domain generalization. ドメイン一般化のためのフーリエベースのフレームワーク。 0.49
In CVPR, pages 14383–14392, 2021. CVPRでは14383–14392, 2021。 0.81
2 [29] Bin Yan, Houwen Peng, Kan Wu, Dong Wang, Jianlong Fu, and Huchuan Lu. 2 [29]ビン・ヤン、フーエン・ペン、カン・ウー、ドン・ワン、ジャンロン・フー、フチュアン・ル 0.48
Lighttrack: Finding lightweight neural networks for object tracking via one-shot architecture search. Lighttrack: ワンショットアーキテクチャ検索によるオブジェクト追跡のための軽量ニューラルネットワークの検出。 0.80
In CVPR, pages 15180–15189, 2021. CVPR』15180-15189, 2021年。 0.80
3 [30] Yanchao Yang and Stefano Soatto. 3 30] ヤンチャオ・ヤンと ステファノ・サットー 0.52
Fda: Fourier domain In CVPR, pages Fda: Fourier ドメイン CVPR では、ページ 0.87
adaptation for semantic segmentation. 意味的セグメンテーションの適応 0.60
4085–4095, 2020. 4085–4095, 2020. 0.42
3 [31] Xiangyu Yue, Yang Zhang, Sicheng Zhao, Alberto Sangiovanni-Vincente lli, Kurt Keutzer, and Boqing Gong. 3 〔31〕西安祐、陽張、シチェン・ジャオ、アルベルト・サンジョヴァンニ=ヴィンセンテッリ、クルト・キューツァー、ボクチン・ゴン 0.47
Domain randomization and pyramid consistency: Simulation-to-real generalization without accessing target domain data. ドメインのランダム化とピラミッドの一貫性: 対象ドメインデータにアクセスせずにシミュレーションから現実への一般化。 0.52
In ICCV, pages 2100–2110, 2019. ICCV』2100-2110頁、2019年。 0.72
2 [32] Cong Zhang, Kai Kang, Hongsheng Li, Xiaogang Wang, Rong Xie, and Xiaokang Yang. 2 [32]Cong Zhang、Kai Kang、Hongsheng Li、Xiaogang Wang、Rong Xie、Xiaokangang。 0.53
Data-driven crowd understanding: A baseline for a large-scale crowd dataset. データ駆動の群衆理解: 大規模な群衆データセットのベースライン。 0.78
IEEE TMM, 18(6):1048–1061, 2016. ieee tmm, 18(6):1048–1061, 2016を参照。 0.49
6 [33] Yingying Zhang, Desen Zhou, Siqin Chen, Shenghua Gao, and Yi Ma. 6 [33]yingying Zhang、Desen Zhou、Siqin Chen、Shenghua Gao、Yi Ma。 0.38
Single-image crowd counting via multi-column In CVPR, pages 589–597, convolutional neural network. マルチカラムによるシングルイメージの群衆カウント CVPRでは、ページ589-597、畳み込みニューラルネットワーク。 0.69
2016. 6 2016. 6 0.43
英語(論文から抽出)日本語訳スコア
[34] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. [34]Jun-Yan Zhu、Taesung Park、Phillip Isola、Alexei A Efros。 0.38
Unpaired image-to-image translation using cycleconsistent adversarial networks. 周期整合対向ネットワークを用いた不対向画像変換 0.67
In ICCV, pages 2223–2232, 2017. ICCV』2223-2232頁、2017年。 0.76
7 7 0.43
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。