論文の概要: Leveraging Self-Supervision for Cross-Domain Crowd Counting
- arxiv url: http://arxiv.org/abs/2103.16291v1
- Date: Tue, 30 Mar 2021 12:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:14:31.495670
- Title: Leveraging Self-Supervision for Cross-Domain Crowd Counting
- Title(参考訳): クロスドメイン群衆数における自己スーパービジョンの活用
- Authors: Weizhe Liu, Nikita Durasov, Pascal Fua
- Abstract要約: 混雑したシーンで人をカウントするための最先端の方法は、群衆密度を推定するために深いネットワークに依存します。
われわれのネットワークは、通常の画像から逆さまの実際の画像を認識できるように訓練し、その不確実性を予測する能力を組み込む。
このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。
- 参考スコア(独自算出の注目度): 71.75102529797549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art methods for counting people in crowded scenes rely on deep
networks to estimate crowd density. While effective, these data-driven
approaches rely on large amount of data annotation to achieve good performance,
which stops these models from being deployed in emergencies during which data
annotation is either too costly or cannot be obtained fast enough.
One popular solution is to use synthetic data for training. Unfortunately,
due to domain shift, the resulting models generalize poorly on real imagery. We
remedy this shortcoming by training with both synthetic images, along with
their associated labels, and unlabeled real images. To this end, we force our
network to learn perspective-aware features by training it to recognize
upside-down real images from regular ones and incorporate into it the ability
to predict its own uncertainty so that it can generate useful pseudo labels for
fine-tuning purposes. This yields an algorithm that consistently outperforms
state-of-the-art cross-domain crowd counting ones without any extra computation
at inference time.
- Abstract(参考訳): 混雑したシーンで人々を数えるための最先端の手法は、群衆密度を推定するためにディープネットワークに依存している。
有効ではあるが、これらのデータ駆動アプローチは、優れたパフォーマンスを達成するために大量のデータアノテーションに依存しており、データアノテーションがコストがかかりすぎるか、十分な速さで取得できない緊急時にこれらのモデルがデプロイされなくなる。
一般的な解決策のひとつは、トレーニングに合成データを使用することだ。
残念なことに、ドメインシフトのため、結果のモデルは実際のイメージにあまり依存しない。
我々は,合成画像と関連ラベル,ラベル付き実画像の両方を訓練することにより,この欠点を解決した。
この目的のために,我々はネットワークに対して,通常の画像から逆さまの実際の画像を認識するようにトレーニングすることで,視点認識の特徴を学習させ,その不確実性を予測して,微調整目的に有用な擬似ラベルを生成できるようにする。
このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。
関連論文リスト
- SYRAC: Synthesize, Rank, and Count [19.20599654208014]
本稿では, 遅延拡散モデルを用いて合成データを生成することによって, アノテーションの負担を軽減する新しい手法を提案する。
本報告では,非監視的群集カウントの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-10-02T21:52:47Z) - Self-Supervised Pretraining for 2D Medical Image Segmentation [0.0]
自己教師付き学習は、不正なデータに対して特定のドメインのモデルを事前訓練することで、手動でアノテートされたデータの必要性を下げる手段を提供する。
自然画像と対象領域固有の画像による自己教師付き事前学習は、最も速く、最も安定した下流収束をもたらす。
低データシナリオでは、教師付きImageNet事前トレーニングが最も正確であり、最小限のエラーに近づくためには100以上の注釈付きサンプルが必要である。
論文 参考訳(メタデータ) (2022-09-01T09:25:22Z) - A low-rank representation for unsupervised registration of medical
images [10.499611180329804]
本稿では,低ランク表現,すなわちRegnet-LRRに基づく新しい手法を提案する。
低ランク表現は、モデルの能力と堅牢性を高め、ノイズの多いデータ登録シナリオにおいて大幅な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-20T07:04:10Z) - A general approach to bridge the reality-gap [0.0]
これを回避するための一般的なアプローチは、大量のラベル付きデータを持つ既存の類似したデータセットを活用することである。
本稿では,任意の画像を正規分布へ変換する一般変換学習を提案する。
この変換は教師なしのシステムで訓練され、データの増大を利用して画像の非標準的な例を生成する。
論文 参考訳(メタデータ) (2020-09-03T18:19:28Z) - Deep Traffic Sign Detection and Recognition Without Target Domain Real
Images [52.079665469286496]
本稿では,ターゲットドメインからの実際の画像を必要としない新しいデータベース生成手法と,(ii)交通標識のテンプレートを提案する。
この方法は、実際のデータでトレーニングを克服することではなく、実際のデータが利用できない場合に互換性のある代替手段になることを目的としている。
大規模なデータセットでは、完全に合成されたデータセットによるトレーニングは、実際のデータセットとトレーニングのパフォーマンスにほぼ一致する。
論文 参考訳(メタデータ) (2020-07-30T21:06:47Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z) - Towards Achieving Adversarial Robustness by Enforcing Feature
Consistency Across Bit Planes [51.31334977346847]
我々は、高ビット平面の情報に基づいて粗い印象を形成するためにネットワークを訓練し、低ビット平面を用いて予測を洗練させる。
異なる量子化画像間で学習した表現に一貫性を付与することにより、ネットワークの対角的ロバスト性が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-04-01T09:31:10Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。