Fugu-MT 論文翻訳(概要): Shuffle Vision Transformer: Lightweight, Fast and Efficient Recognition of Driver Facial Expression

論文の概要: Shuffle Vision Transformer: Lightweight, Fast and Efficient Recognition of Driver Facial Expression

arxiv url: http://arxiv.org/abs/2409.03438v1
Date: Thu, 5 Sep 2024 11:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 21:00:20.703390
Title: Shuffle Vision Transformer: Lightweight, Fast and Efficient Recognition of Driver Facial Expression
Title（参考訳）: Shuffle Vision Transformer: ドライバ顔表情の軽量・高速・高能率認識
Authors: Ibtissam Saadi, Douglas W. Cunningham, Taleb-ahmed Abdelmalik, Abdenour Hadid, Yassin El Hillali,
Abstract要約: 運転者表情認識(DFER)の既存の手法は、しばしば計算集約的であり、リアルタイムアプリケーションには適さない。本稿では、計算効率と精度をエレガントに組み合わせたShuffViT-DFERという、トランスファー学習に基づく新しいデュアルアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 4.034679618136641
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing methods for driver facial expression recognition (DFER) are often computationally intensive, rendering them unsuitable for real-time applications. In this work, we introduce a novel transfer learning-based dual architecture, named ShuffViT-DFER, which elegantly combines computational efficiency and accuracy. This is achieved by harnessing the strengths of two lightweight and efficient models using convolutional neural network (CNN) and vision transformers (ViT). We efficiently fuse the extracted features to enhance the performance of the model in accurately recognizing the facial expressions of the driver. Our experimental results on two benchmarking and public datasets, KMU-FED and KDEF, highlight the validity of our proposed method for real-time application with superior performance when compared to state-of-the-art methods.
Abstract（参考訳）: 運転者表情認識(DFER)の既存の手法は、しばしば計算集約的であり、リアルタイムアプリケーションには適さない。そこで本研究では,ShuffViT-DFERというトランスファー学習に基づく新しいデュアルアーキテクチャを導入し,計算効率と精度を優雅に組み合わせた。これは、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を使用して、2つの軽量で効率的なモデルの強度を利用する。抽出した特徴を効率よく融合させ,ドライバの表情を正確に認識するモデルの性能を向上させる。 KMU-FED と KDEF という2つのベンチマークおよび公開データセットに対する実験結果から,提案手法が最先端の手法と比較して優れた性能を持つリアルタイムアプリケーションに対して有効であることを示す。

関連論文リスト

Driving on Registers [95.27138642798472]
DrivoRは、エンドツーエンドの自動運転のためのシンプルで効率的なトランスフォーマーベースのアーキテクチャである。提案手法は、事前訓練された視覚変換器(ViT)上に構築され、マルチカメラ機能をコンパクトなシーン表現に圧縮するカメラ対応レジスタトークンを導入している。この結果から,純変圧器アーキテクチャと目標トークン圧縮を組み合わせることで,高精度で適応的なエンド・ツー・エンド・ドライブを実現するのに十分であることが示唆された。
論文参考訳（メタデータ） (2026-01-08T16:28:24Z)
Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文参考訳（メタデータ） (2025-11-13T13:29:38Z)
Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文参考訳（メタデータ） (2025-03-26T04:16:48Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
big.LITTLE Vision Transformer for Efficient Visual Recognition [34.015778625984055]
big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
論文参考訳（メタデータ） (2024-10-14T08:21:00Z)
TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning [6.329214318116305]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文参考訳（メタデータ） (2024-08-20T09:40:08Z)
LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。 LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文参考訳（メタデータ） (2024-07-13T16:09:45Z)
TransAxx: Efficient Transformers with Approximate Computing [4.347898144642257]
Vision Transformer (ViT) モデルは非常に競争力があり、畳み込みニューラルネットワーク (CNN) の代替として人気がある。本稿では,PyTorchライブラリをベースとしたフレームワークであるTransAxxを提案する。提案手法では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,構成可能な空間を効率的に探索する。
論文参考訳（メタデータ） (2024-02-12T10:16:05Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
ParaFormer: Parallel Attention Transformer for Efficient Feature Matching [8.552303361149612]
本稿ではParaFormerという新しい並列アテンションモデルを提案する。振幅と位相という概念を通じて特徴とキーポイントの位置を融合させ、平行して自己と横断性を統合する。ホモグラフィー推定、ポーズ推定、画像マッチングなど様々な応用実験により、ParaFormerが最先端の性能を達成することを示す。効率のよいParaFormer-Uは、既存のアテンションベースモデルの50%未満のFLOPで同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-03-02T03:29:16Z)
RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。 CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文参考訳（メタデータ） (2022-10-13T16:03:53Z)
AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文参考訳（メタデータ） (2021-11-30T18:57:02Z)
An Efficient and Scalable Collection of Fly-inspired Voting Units for Visual Place Recognition in Changing Environments [20.485491385050615]
ローオーバーヘッドのVPR技術は、ローエンドの安価なハードウェアを搭載したプラットフォームを可能にする。我々のゴールは、外観変化と小さな視点変化に対する最先端のロバスト性を達成しつつ、極端なコンパクト性と効率のアルゴリズムを提供することである。
論文参考訳（メタデータ） (2021-09-22T19:01:20Z)
Dynamic Network Quantization for Efficient Video Inference [60.109250720206425]
本稿では,入力に条件付けされたフレーム毎に最適な精度を選択し,効率的な映像認識を実現する動的ネットワーク量子化フレームワークを提案する。我々は、競争性能と資源効率の両方を達成するために、標準的なバックプロパゲーションと損失を使って、両方のネットワークを効果的に訓練する。
論文参考訳（メタデータ） (2021-08-23T20:23:57Z)
AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-31T01:36:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。