論文の概要: FAN-Trans: Online Knowledge Distillation for Facial Action Unit
Detection
- arxiv url: http://arxiv.org/abs/2211.06143v1
- Date: Fri, 11 Nov 2022 11:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:31:50.832056
- Title: FAN-Trans: Online Knowledge Distillation for Facial Action Unit
Detection
- Title(参考訳): FAN-Trans: 顔行動単位検出のためのオンライン知識蒸留
- Authors: Jing Yang, Jie Shen, Yiming Lin, Yordan Hristov, Maja Pantic
- Abstract要約: オンライン知識蒸留フレームワークを活用し,AU検出のための「FANTrans」手法を提案する。
我々のモデルは、AU毎の特徴を学習し、AU共起をモデル化するための、畳み込みと変圧器ブロックのハイブリッドネットワークで構成されている。
- 参考スコア(独自算出の注目度): 45.688712067285536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to its importance in facial behaviour analysis, facial action unit (AU)
detection has attracted increasing attention from the research community.
Leveraging the online knowledge distillation framework, we propose the
``FANTrans" method for AU detection. Our model consists of a hybrid network of
convolution and transformer blocks to learn per-AU features and to model AU
co-occurrences. The model uses a pre-trained face alignment network as the
feature extractor. After further transformation by a small learnable add-on
convolutional subnet, the per-AU features are fed into transformer blocks to
enhance their representation. As multiple AUs often appear together, we propose
a learnable attention drop mechanism in the transformer block to learn the
correlation between the features for different AUs. We also design a classifier
that predicts AU presence by considering all AUs' features, to explicitly
capture label dependencies. Finally, we make the attempt of adapting online
knowledge distillation in the training stage for this task, further improving
the model's performance. Experiments on the BP4D and DISFA datasets
demonstrating the effectiveness of proposed method.
- Abstract(参考訳): 顔行動分析の重要性から、顔行動単位(au)の検出は研究コミュニティから注目を集めている。
オンライン知識蒸留フレームワークを活用し,AU検出のための「FANTrans」手法を提案する。
我々のモデルは、AU毎の特徴を学習し、AU共起をモデル化するための、畳み込みと変圧器ブロックのハイブリッドネットワークで構成されている。
モデルは、特徴抽出器として、事前訓練された顔アライメントネットワークを使用する。
小さな学習可能なアドオン畳み込みサブネットによるさらなる変換の後、AU単位の機能はトランスフォーマーブロックに入力され、表現が強化される。
複数のAUが一緒に現れると、異なるAUの特徴間の相関を学習するための学習可能なアテンションドロップ機構をトランスフォーマーブロックに提案する。
また, ausの機能をすべて考慮してauの存在を予測し, ラベル依存を明示的に把握する分類器を設計した。
最後に,本課題のトレーニング段階において,オンライン知識蒸留を適応させる試みを行い,モデルの性能をさらに向上させる。
提案手法の有効性を示すBP4DおよびdisFAデータセットの実験。
関連論文リスト
- AUFormer: Vision Transformers are Parameter-Efficient Facial Action Unit Detectors [31.547624650827395]
既存の手法は、多くの学習可能なパラメータの利用によって過度に適合する問題に悩まされる。
PETLはこれらの課題に対処するための有望なパラダイムを提供する。
そこで我々は,Mixture-of-Knowledge Expert (MoKE) のコラボレーション機構を提案する。
論文 参考訳(メタデータ) (2024-03-07T17:46:50Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Local Region Perception and Relationship Learning Combined with Feature
Fusion for Facial Action Unit Detection [12.677143408225167]
ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
具体的には、AU検出に関連する顔の局所的特徴を効果的に抽出するために、局所的知覚モジュールを用いる。
また、グラフニューラルネットワークに基づくリレーショナル学習モジュールを使用して、AU間の関係をキャプチャする。
論文 参考訳(メタデータ) (2023-03-15T11:59:24Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Federated Adversarial Training with Transformers [16.149924042225106]
フェデレーテッド・ラーニング(FL)は、プライバシを保ちながら、分散クライアントのデータ上でグローバルモデルトレーニングを可能にするために登場した。
本稿では,異なるトークン化と分類ヘッド技術を用いた異なるフェデレーションモデルアグリゲーション手法と異なるビジョントランスフォーマーモデルによる実現可能性について検討する。
論文 参考訳(メタデータ) (2022-06-05T09:07:09Z) - Cross-subject Action Unit Detection with Meta Learning and
Transformer-based Relation Modeling [7.395396464857193]
メタラーニングに基づくクロスオブジェクトAU検出モデルを提案する。
複数のAUの潜伏関係を学習するために、トランスフォーマーに基づく関係学習モジュールを導入する。
提案手法は,2つの公開データセットBP4DとdisFAにおいて,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T08:17:59Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。