論文の概要: End-to-End Face Parsing via Interlinked Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2002.04831v2
- Date: Tue, 23 Jun 2020 19:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:14:30.485821
- Title: End-to-End Face Parsing via Interlinked Convolutional Neural Networks
- Title(参考訳): 相互結合畳み込みニューラルネットワークによるエンドツーエンド顔解析
- Authors: Zi Yin, Valentin Yiu, Xiaolin Hu, Liang Tang
- Abstract要約: 顔解析は、顔部分の正確なピクセル分割を必要とする重要なコンピュータビジョンタスクである。
ICNN(Interlinked Convolutional Neural Networks)は、顔解析に有効な2段階モデルであることが証明された。
そこで本研究では,STN-aided iCNN(STN-iCNN)という,2つの分離ステージの間にSpatial Transformer Network(STN)を追加することで,iCNNを拡張したシンプルな面解析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.236765462504938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face parsing is an important computer vision task that requires accurate
pixel segmentation of facial parts (such as eyes, nose, mouth, etc.), providing
a basis for further face analysis, modification, and other applications.
Interlinked Convolutional Neural Networks (iCNN) was proved to be an effective
two-stage model for face parsing. However, the original iCNN was trained
separately in two stages, limiting its performance. To solve this problem, we
introduce a simple, end-to-end face parsing framework: STN-aided
iCNN(STN-iCNN), which extends the iCNN by adding a Spatial Transformer Network
(STN) between the two isolated stages. The STN-iCNN uses the STN to provide a
trainable connection to the original two-stage iCNN pipeline, making end-to-end
joint training possible. Moreover, as a by-product, STN also provides more
precise cropped parts than the original cropper. Due to these two advantages,
our approach significantly improves the accuracy of the original model. Our
model achieved competitive performance on the Helen Dataset, the standard face
parsing dataset. It also achieved superior performance on CelebAMask-HQ
dataset, proving its good generalization. Our code has been released at
https://github.com/aod321/STN-iCNN.
- Abstract(参考訳): 顔分析は、顔の一部(目、鼻、口など)の正確なピクセル分割を必要とする重要なコンピュータビジョンタスクであり、さらなる顔分析、修正、その他の応用のための基盤を提供する。
interlinked convolutional neural networks (icnn) は顔解析に有効な2段階モデルであることが証明された。
しかし、オリジナルのiCNNは2段階に分けて訓練され、性能は制限された。
そこで本研究では,2つの分離ステージ間に空間トランスフォーマーネットワーク(stn)を付加することにより,icnnを拡張した簡易なエンドツーエンド顔解析フレームワークであるstn-aided icnn(stn-icnn)を提案する。
STN-iCNNはSTNを使用して、元の2段階のiCNNパイプラインへのトレーニング可能な接続を提供し、エンドツーエンドのジョイントトレーニングを可能にする。
さらに副産物として、stnは元の作物よりも精密に切り抜いた部品を提供する。
これら2つの利点により,本手法はオリジナルモデルの精度を大幅に向上させる。
我々のモデルは、標準的な顔解析データセットであるHelen Dataset上での競合性能を達成した。
CelebAMask-HQデータセットでも優れたパフォーマンスを実現し、その優れた一般化が証明された。
私たちのコードはhttps://github.com/aod321/STN-iCNNで公開されています。
関連論文リスト
- Recurrent Neural Networks for Still Images [0.0]
我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。
本稿では、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを紹介する。
論文 参考訳(メタデータ) (2024-09-10T06:07:20Z) - CNN2GNN: How to Bridge CNN with GNN [59.42117676779735]
蒸留によりCNNとGNNを統一する新しいCNN2GNNフレームワークを提案する。
Mini-ImageNetにおける蒸留ブースターの2層GNNの性能は、ResNet152のような数十層を含むCNNよりもはるかに高い。
論文 参考訳(メタデータ) (2024-04-23T08:19:08Z) - Spikeformer: A Novel Architecture for Training High-Performance
Low-Latency Spiking Neural Network [6.8125324121155275]
静的データセットとニューロモルフィックデータセットの両方において,トランスフォーマーをベースとした新しいSNNであるSpikeformerを提案する。
注目すべきは、SpikeformerはImageNet上の他のSNNよりも大きなマージン(5%以上)で、DVS-GestureとImageNetでANNよりも3.1%、そして2.2%高いパフォーマンスである。
論文 参考訳(メタデータ) (2022-11-19T12:49:22Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - CTCNet: A CNN-Transformer Cooperation Network for Face Image
Super-Resolution [64.06360660979138]
超解像課題に対する効率的なCNN-Transformer Cooperation Network (CTCNet)を提案する。
本稿ではまず,FSAUとTransformerブロックから構成されるLGCM(Local-Global Feature Cooperation Module)を考案した。
次に、エンコードされた機能を強化するために、効率的な機能リファインメントモジュール(FRM)を設計する。
論文 参考訳(メタデータ) (2022-04-19T06:38:29Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Beyond Classification: Directly Training Spiking Neural Networks for
Semantic Segmentation [5.800785186389827]
ニューラルネットワークの低消費電力代替としてスパイキングニューラルネットワーク(SNN)が登場している。
本稿では,ニューロンをスパイクしたセマンティックセグメンテーションネットワークの分類を超えて,SNNの応用について検討する。
論文 参考訳(メタデータ) (2021-10-14T21:53:03Z) - Transformed CNNs: recasting pre-trained convolutional layers with
self-attention [17.96659165573821]
視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
論文 参考訳(メタデータ) (2021-06-10T14:56:10Z) - Going Deeper With Directly-Trained Larger Spiking Neural Networks [20.40894876501739]
スパイキングニューラルネットワーク(SNN)は、バイオユースブルな情報とイベント駆動信号処理のためのコーディングを約束している。
しかし、SNNのユニークな動作モードにより、従来のネットワークよりもトレーニングが困難になる。
CIF依存型バッチ正規化法(tpladBN)を提案する。
論文 参考訳(メタデータ) (2020-10-29T07:15:52Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。