論文の概要: Vision Transformer for Action Units Detection
- arxiv url: http://arxiv.org/abs/2303.09917v2
- Date: Mon, 20 Mar 2023 14:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 11:21:46.726673
- Title: Vision Transformer for Action Units Detection
- Title(参考訳): アクションユニット検出のための視覚変換器
- Authors: Tu Vu, Van Thong Huynh, Soo Hyung Kim
- Abstract要約: 本稿では,行動単位検出(AU)の課題に対処するためのビジョントランスフォーマーに基づくアプローチを提案する。
我々はビデオビジョン変換器(ViViT)ネットワークを用いて、映像の時間的顔の変化を捉える。
我々のモデルはABAW 2023チャレンジのベースラインモデルよりも優れており、結果として顕著な14%の違いがある。
- 参考スコア(独自算出の注目度): 11.479653866646762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Action Units detection (FAUs) represents a fine-grained classification
problem that involves identifying different units on the human face, as defined
by the Facial Action Coding System. In this paper, we present a simple yet
efficient Vision Transformer-based approach for addressing the task of Action
Units (AU) detection in the context of Affective Behavior Analysis in-the-wild
(ABAW) competition. We employ the Video Vision Transformer(ViViT) Network to
capture the temporal facial change in the video. Besides, to reduce massive
size of the Vision Transformers model, we replace the ViViT feature extraction
layers with the CNN backbone (Regnet). Our model outperform the baseline model
of ABAW 2023 challenge, with a notable 14% difference in result. Furthermore,
the achieved results are comparable to those of the top three teams in the
previous ABAW 2022 challenge.
- Abstract(参考訳): 顔行動単位検出(英: Facial Action Units Detection, FAUs)は、顔上の異なるユニットを特定することを含む、きめ細かい分類問題である。
本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティションの文脈において,AU(Action Units)検出のタスクに対処するための,シンプルだが効率的なビジョントランスフォーマーに基づくアプローチを提案する。
我々はビデオビジョン変換器(ViViT)ネットワークを用いて、映像の時間的顔の変化を捉える。
さらに、vision transformersモデルの大規模なサイズを削減するために、vivitの機能抽出層をcnn backbone(regnet)に置き換えます。
我々のモデルはABAW 2023チャレンジのベースラインモデルよりも優れており、結果として顕著な14%の違いがある。
さらに、達成された結果は、以前のABAW 2022チャレンジの上位3チームと比較される。
関連論文リスト
- ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Multi-modal Multi-label Facial Action Unit Detection with Transformer [7.30287060715476]
本稿では,第3回ABAW(Affective Behavior Analysis)2022コンペティションについて述べる。
映像中の顔行動単位(FAU)を検出するためのトランスフォーマーモデルを提案した。
論文 参考訳(メタデータ) (2022-03-24T18:59:31Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Actor-Transformers for Group Activity Recognition [43.60866347282833]
本稿では,ビデオから個人行動やグループ活動を認識することを目的とする。
本稿では,グループ活動認識に関連する情報を学習し,選択的に抽出できるアクター・トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2020-03-28T07:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。