論文の概要: Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation
- arxiv url: http://arxiv.org/abs/2209.08788v1
- Date: Mon, 19 Sep 2022 06:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:29:00.035337
- Title: Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation
- Title(参考訳): 深層顔表現学習のための尺度注意:視覚的尺度変動の検討
- Authors: Hailin Shi, Hang Du, Yibo Hu, Jun Wang, Dan Zeng, Ting Yao
- Abstract要約: 我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
- 参考スコア(独自算出の注目度): 69.45176408639483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human face images usually appear with wide range of visual scales. The
existing face representations pursue the bandwidth of handling scale variation
via multi-scale scheme that assembles a finite series of predefined scales.
Such multi-shot scheme brings inference burden, and the predefined scales
inevitably have gap from real data. Instead, learning scale parameters from
data, and using them for one-shot feature inference, is a decent solution. To
this end, we reform the conv layer by resorting to the scale-space theory, and
achieve two-fold facilities: 1) the conv layer learns a set of scales from real
data distribution, each of which is fulfilled by a conv kernel; 2) the layer
automatically highlights the feature at the proper channel and location
corresponding to the input pattern scale and its presence. Then, we accomplish
the hierarchical scale attention by stacking the reformed layers, building a
novel style named SCale AttentioN Conv Neural Network (\textbf{SCAN-CNN}). We
apply SCAN-CNN to the face recognition task and push the frontier of SOTA
performance. The accuracy gain is more evident when the face images are blurry.
Meanwhile, as a single-shot scheme, the inference is more efficient than
multi-shot fusion. A set of tools are made to ensure the fast training of
SCAN-CNN and zero increase of inference cost compared with the plain CNN.
- Abstract(参考訳): 人間の顔画像は通常、広範囲の視覚的スケールで現れる。
既存の顔表現は、有限列の事前定義されたスケールを組み立てるマルチスケールスキームによってスケール変動を扱う帯域幅を追求する。
このようなマルチショットスキームは推論の負担をもたらし、事前定義されたスケールは必然的に実際のデータとギャップを持つ。
代わりに、データからスケールパラメータを学習し、それらをワンショットの機能推論に使うことは、まともなソリューションです。
この目的のために、スケール空間理論を利用して凸層を改革し、2倍の設備を実現する。
1) conv層は、実データ分布から、それぞれがconvカーネルで満たされたスケールの集合を学習する。
2) 層は入力パターンスケールとその存在に対応する適切なチャネルと位置で自動的に特徴をハイライトする。
次に,改良層を積み重ねることで階層的スケールアテンションを実現し,スケールアテンションconvニューラルネットワーク(\textbf{scan-cnn})と呼ばれる新しいスタイルを構築する。
顔認識タスクにSCAN-CNNを適用し,SOTA性能のフロンティアを推し進める。
顔画像がぼやけた場合の精度向上はより顕著である。
一方、単発方式では、推論はマルチショット融合よりも効率的である。
SCAN-CNNの高速なトレーニングと、通常のCNNと比較して推論コストのゼロな増加を保証するためのツールセットが作成されている。
関連論文リスト
- Scale Propagation Network for Generalizable Depth Completion [16.733495588009184]
入力から出力までのスケールを伝搬する新しいスケール伝搬正規化法(SP-Norm)を提案する。
また,SP-NormとConvNeXt V2のバックボーンをベースとした新しいネットワークアーキテクチャを開発した。
我々のモデルは、最先端の手法と比較して、高速かつ低メモリで常に最高の精度を達成している。
論文 参考訳(メタデータ) (2024-10-24T03:53:06Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Multi-scale Unified Network for Image Classification [33.560003528712414]
CNNは、実世界のマルチスケール画像入力を扱う際に、性能と計算効率において顕著な課題に直面している。
本稿では,マルチスケール,統一ネットワーク,スケール不変制約からなるMultiscale Unified Network(MUSN)を提案する。
MUSNは精度が44.53%向上し、マルチスケールシナリオではFLOPを7.01-16.13%減少させる。
論文 参考訳(メタデータ) (2024-03-27T06:40:26Z) - Scale-Equivariant UNet for Histopathology Image Segmentation [1.213915839836187]
畳み込みニューラルネットワーク(CNN)は、特定のスケールでそのような画像で訓練されたが、異なるスケールのものに一般化することができない。
本稿では,スケール空間理論に基づく画像分割のためのスケール・エクイバティブUNet(SEUNet)を提案する。
論文 参考訳(メタデータ) (2023-04-10T14:03:08Z) - Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial
Representation Learning [55.762840052788945]
本研究では,異なるスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。
その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。
論文 参考訳(メタデータ) (2022-12-30T03:15:34Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face
Learning [54.13876727413492]
多くの現実世界の顔認識シナリオでは、トレーニングデータセットの深さは浅いため、IDごとに2つの顔画像しか利用できません。
非均一なサンプルの増加により、このような問題はより一般的なケース、すなわち長い尾の顔学習に変換される。
これらの問題に対処するために,マルチエージェントセミシアントレーニング(masst)という高度なソリューションを導入する。
広範な実験と比較は、長い尾と浅い顔学習のためのMASSTの利点を示しています。
論文 参考訳(メタデータ) (2021-05-10T04:57:32Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。