Fugu-MT 論文翻訳(概要): PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging Facial Expression Recognition

論文の概要: PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging Facial Expression Recognition

arxiv url: http://arxiv.org/abs/2306.09626v2
Date: Tue, 13 Aug 2024 06:17:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 23:38:51.682126
Title: PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging Facial Expression Recognition
Title（参考訳）: PAtt-Lite:顔表情認識のための軽量パッチと注意移動ネット
Authors: Jia Le Ngwe, Kian Ming Lim, Chin Poo Lee, Thian Song Ong,
Abstract要約: 顔表情認識(英: Facial Expression Recognition, FER)は、人間の表情を認識する機械学習問題である。 MobileNetV1に基づく軽量パッチとアテンションネットワークが提案され、課題のある条件下でFER性能を改善する。 Patt-LiteはCK+、RAF-DB、FER2013、FERPlus、そしてRAF-DBとFERPlusの挑戦的な条件サブセットで最先端の結果を得た。
参考スコア（独自算出の注目度）: 8.680928529451249
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Facial Expression Recognition (FER) is a machine learning problem that deals with recognizing human facial expressions. While existing work has achieved performance improvements in recent years, FER in the wild and under challenging conditions remains a challenge. In this paper, a lightweight patch and attention network based on MobileNetV1, referred to as PAtt-Lite, is proposed to improve FER performance under challenging conditions. A truncated ImageNet-pre-trained MobileNetV1 is utilized as the backbone feature extractor of the proposed method. In place of the truncated layers is a patch extraction block that is proposed for extracting significant local facial features to enhance the representation from MobileNetV1, especially under challenging conditions. An attention classifier is also proposed to improve the learning of these patched feature maps from the extremely lightweight feature extractor. The experimental results on public benchmark databases proved the effectiveness of the proposed method. PAtt-Lite achieved state-of-the-art results on CK+, RAF-DB, FER2013, FERPlus, and the challenging conditions subsets for RAF-DB and FERPlus.
Abstract（参考訳）: 顔表情認識(英: Facial Expression Recognition, FER)は、人間の表情を認識する機械学習問題である。既存の作業は近年、パフォーマンスの改善を達成していますが、荒々しく、困難な状況下では、FERは依然として課題です。本稿では,Platt-Liteと呼ばれるMobileNetV1に基づく軽量パッチ・アテンションネットワークを提案する。提案手法のバックボーン特徴抽出器として,Truncated ImageNet-pre-trained MobileNetV1を利用する。切り捨てられたレイヤの代わりに、特に困難な条件下で、MobileNetV1からの表現を強化するために、重要な局所的な顔の特徴を抽出するパッチ抽出ブロックが提案されている。極めて軽量な特徴抽出器からこれらのパッチされた特徴写像の学習を改善するために注意分類器も提案されている。評価実験の結果,提案手法の有効性が確認された。 PAtt-LiteはCK+、RAF-DB、FER2013、FERPlus、RAF-DB、FERPlusの挑戦的な条件サブセットで最先端の結果を得た。

関連論文リスト

ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
An Evaluation of a Visual Question Answering Strategy for Zero-shot Facial Expression Recognition in Still Images [4.620715958859347]
顔表情認識(FER)は、コンピュータビジョンと人間とコンピュータの相互作用において重要な研究領域である。近年のディープラーニングの進歩にもかかわらず、特に新しいシナリオへの一般化には課題が続いている。この問題に対処するため、コミュニティは最近、視覚的なタスクのためのLarge Language Modelsからの知識の統合を探り始めた。
論文参考訳（メタデータ） (2025-04-30T04:38:05Z)
A Visual Self-attention Mechanism Facial Expression Recognition Network beyond Convnext [5.651484411686618]
本稿では,truncated ConvNeXtアプローチに基づく視覚表情信号処理ネットワークを提案する(Conv-cut)。ネットワークは,特徴抽出器としてトラッピングされたConvNeXt-Baseを使用し,詳細特徴抽出のための詳細抽出ブロックを設計した。提案手法を評価するために,RAF-DBおよびFERPlusデータセットの実験を行った。
論文参考訳（メタデータ） (2025-04-12T04:35:37Z)
Hallucination Elimination and Semantic Enhancement Framework for Vision-Language Models in Traffic Scenarios [4.5427386723985155]
大型視覚言語モデル(LVLM)は時折幻覚テキストを生成する。この現象は、自動運転システムの誤った運転判断につながる可能性がある。本稿では,プラグアンドプレイの連鎖補正手法であるHNetを提案する。
論文参考訳（メタデータ） (2024-12-10T13:56:49Z)
Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
Segment Anything Model (SAM) は、その顕著な一般化能力により、異常セグメンテーションタスクにおいて大きな進歩を遂げている。 SAMを直接適用する既存のメソッドは、しばしばドメインシフトの問題を見落としている。本稿では, SAMの異常セグメンテーションに対する知覚能力を高めることを目的とした, 自己パーセプティノンチューニング(SPT)手法を提案する。
論文参考訳（メタデータ） (2024-11-26T08:33:25Z)
LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文参考訳（メタデータ） (2024-07-09T10:15:31Z)
MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。 ViT法はトランスの表現性を生かし,優れた検出性能を実現する。この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文参考訳（メタデータ） (2024-04-12T13:02:08Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization [89.52943129132217]
本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
論文参考訳（メタデータ） (2023-07-17T14:08:17Z)
Vision Transformer with Attentive Pooling for Robust Facial Expression Recognition [35.46476994042832]
ノイズをプールする2つのモジュール(APモジュール)を直接提示する。彼らはモデルをガイドし、最も差別的な特徴を強調しながら、あまり関係のない特徴の影響を減らすことを目指している。簡単に実装でき、学習可能なパラメータがなければ、APPとATPは直感的に計算コストを削減し、性能を向上する。
論文参考訳（メタデータ） (2022-12-11T10:33:19Z)
A Faster, Lighter and Stronger Deep Learning-Based Approach for Place Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文参考訳（メタデータ） (2022-11-27T15:46:53Z)
More comprehensive facial inversion for more effective expression recognition [8.102564078640274]
IFER(Inversion FER)と呼ばれるFERタスクの画像反転機構に基づく新しい生成手法を提案する。 ASITは、分布アライメント損失に制約された、ソースと生成された画像間のセマンティック特徴のコサイン類似度を測定する画像反転判別器を備えている。 FFHQやCelebA-HQなどの顔データセット上でASITを広範囲に評価し,現状の顔インバージョン性能を実現する方法を示した。
論文参考訳（メタデータ） (2022-11-24T12:31:46Z)
Good Visual Guidance Makes A Better Extractor: Hierarchical Visual Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。 3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文参考訳（メタデータ） (2022-05-07T02:10:55Z)
Robust Facial Expression Recognition with Convolutional Visual Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文参考訳（メタデータ） (2021-03-31T07:07:56Z)
Interpretable Detail-Fidelity Attention Network for Single Image Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文参考訳（メタデータ） (2020-09-28T08:31:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。