論文の概要: Vision Transformer Equipped with Neural Resizer on Facial Expression
Recognition Task
- arxiv url: http://arxiv.org/abs/2204.02181v1
- Date: Tue, 5 Apr 2022 13:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 18:02:38.918175
- Title: Vision Transformer Equipped with Neural Resizer on Facial Expression
Recognition Task
- Title(参考訳): 表情認識タスクにおけるニューラルリシライザを備えた視覚トランスフォーマ
- Authors: Hyeonbin Hwang, Soyeon Kim, Wei-Jin Park, Jiho Seo, Kyungtae Ko, Hyeon
Yeo
- Abstract要約: 本稿では,データ駆動方式で情報とダウンスケーリングを補償することでTransformerをサポートする新しいトレーニングフレームワークであるNeural Resizerを提案する。
F-PDLS損失関数を用いたニューラルリサイザ実験により,Transformerの変種での性能が向上した。
- 参考スコア(独自算出の注目度): 1.3048920509133808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When it comes to wild conditions, Facial Expression Recognition is often
challenged with low-quality data and imbalanced, ambiguous labels. This field
has much benefited from CNN based approaches; however, CNN models have
structural limitation to see the facial regions in distant. As a remedy,
Transformer has been introduced to vision fields with global receptive field,
but requires adjusting input spatial size to the pretrained models to enjoy
their strong inductive bias at hands. We herein raise a question whether using
the deterministic interpolation method is enough to feed low-resolution data to
Transformer. In this work, we propose a novel training framework, Neural
Resizer, to support Transformer by compensating information and downscaling in
a data-driven manner trained with loss function balancing the noisiness and
imbalance. Experiments show our Neural Resizer with F-PDLS loss function
improves the performance with Transformer variants in general and nearly
achieves the state-of-the-art performance.
- Abstract(参考訳): 野生の状況では、表情認識は低品質のデータと不均衡で曖昧なラベルでしばしば挑戦される。
この分野は、CNNベースのアプローチの恩恵を受けているが、CNNモデルは、遠方の顔領域を見るための構造的制限がある。
治療として、グローバル受容野を持つ視覚野にトランスフォーマーが導入されているが、強い誘導バイアスを味わうために、事前訓練されたモデルに入力空間サイズを調整する必要がある。
本稿では,決定論的補間法を用いることで,トランスフォーマーに低解像度データを供給できるかどうかを疑問視する。
本研究では,ノイズと不均衡のバランスをとる損失関数を訓練したデータ駆動方式で情報とダウンスケーリングを補償し,トランスフォーマティブをサポートするための新しいトレーニングフレームワークであるneural resizerを提案する。
実験の結果,F-PDLS損失関数を用いたニューラルリサイザはトランスフォーマーの変種での性能を向上し,最先端の性能をほぼ達成できることがわかった。
関連論文リスト
- Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution [6.367865391518726]
トランスフォーマーベースモデルは、画像超解像(SR)を含む低レベル視覚タスクにおいて顕著な結果を得た
グローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。
ウェーブレット損失を利用してTransformerモデルをトレーニングし、定量的および主観的性能を向上させる。
論文 参考訳(メタデータ) (2024-04-17T11:25:19Z) - In Search of a Data Transformation That Accelerates Neural Field Training [37.39915075581319]
画素位置の置換がSGDの収束速度にどのように影響するかに焦点をあてる。
対して、画素位置をランダムに変化させることで、トレーニングをかなり加速させることができる。
解析の結果、ランダムなピクセル置換は、初期最適化の妨げとなるが、信号の細部を捉えやすいパターンを取り除くことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T06:17:49Z) - Local Distortion Aware Efficient Transformer Adaptation for Image
Quality Assessment [62.074473976962835]
局所歪み特性を適切に注入することにより、IQAタスクにおいて、より大きな事前訓練および固定された基礎モデルがより優れた性能を発揮することを示す。
具体的には、局所歪み構造と視覚変換器(ViT)の誘導バイアスの欠如に対して、別の事前学習畳み込みニューラルネットワーク(CNN)を用いる。
本研究では, 予め訓練したCNNから局所歪み特徴を得るための局所歪み抽出器と, 局所歪み特徴をViTに注入する局所歪み注入器を提案する。
論文 参考訳(メタデータ) (2023-08-23T08:41:21Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Probabilistic Spatial Transformer Networks [0.6999740786886537]
本稿では、決定論的ではなく、変換を推定する確率的拡張を提案する。
これら2つの特性が,分類性能,ロバスト性,モデル校正性の向上につながることを示す。
さらに、時系列データにおけるモデル性能を改善することにより、非視覚領域へのアプローチが一般化されることを実証する。
論文 参考訳(メタデータ) (2020-04-07T18:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。