論文の概要: Towards Unified Facial Action Unit Recognition Framework by Large Language Models
- arxiv url: http://arxiv.org/abs/2409.08444v1
- Date: Fri, 13 Sep 2024 00:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:17:42.939089
- Title: Towards Unified Facial Action Unit Recognition Framework by Large Language Models
- Title(参考訳): 大規模言語モデルによる顔行動単位認識フレームワークの実現に向けて
- Authors: Guohong Hu, Xing Lan, Hanyu Jiang, Jiayi Lyu, Jian Xue,
- Abstract要約: 我々は,Large Language Model (LLM)に基づく最初の統一AU認識フレームワークであるAU-LLaVAを提案する。
AU-LLaVAは、ビジュアルエンコーダ、線形プロジェクタ層、および事前訓練されたLCMから構成される。
BP4DとDisFAデータセットでは、AU-LLaVAがAUのほぼ半分に対して最も正確な認識結果を提供する。
- 参考スコア(独自算出の注目度): 10.752099675130276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Action Units (AUs) are of great significance in the realm of affective computing. In this paper, we propose AU-LLaVA, the first unified AU recognition framework based on the Large Language Model (LLM). AU-LLaVA consists of a visual encoder, a linear projector layer, and a pre-trained LLM. We meticulously craft the text descriptions and fine-tune the model on various AU datasets, allowing it to generate different formats of AU recognition results for the same input image. On the BP4D and DISFA datasets, AU-LLaVA delivers the most accurate recognition results for nearly half of the AUs. Our model achieves improvements of F1-score up to 11.4% in specific AU recognition compared to previous benchmark results. On the FEAFA dataset, our method achieves significant improvements over all 24 AUs compared to previous benchmark results. AU-LLaVA demonstrates exceptional performance and versatility in AU recognition.
- Abstract(参考訳): AU(Facial Action Units)は、感情コンピューティングの領域において非常に重要である。
本稿では,Large Language Model (LLM)に基づく最初の統一AU認識フレームワークであるAU-LLaVAを提案する。
AU-LLaVAは、ビジュアルエンコーダ、線形プロジェクタ層、および事前訓練されたLCMから構成される。
我々は、テキスト記述を巧みに作成し、様々なAUデータセット上でモデルを微調整し、同じ入力画像に対して異なるフォーマットのAU認識結果を生成する。
BP4DとDisFAデータセットでは、AU-LLaVAがAUのほぼ半分に対して最も正確な認識結果を提供する。
本モデルでは,従来のベンチマーク結果と比較して,特定のAU認識において最大11.4%のF1スコア向上を実現している。
FEAFAデータセットでは,従来のベンチマーク結果と比較して,24AUに対して大幅な改善が得られた。
AU-LLaVAは、AU認識における例外的な性能と汎用性を示す。
関連論文リスト
- Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Towards End-to-End Explainable Facial Action Unit Recognition via Vision-Language Joint Learning [48.70249675019288]
本稿では,AU認識のためのエンドツーエンドのビジョン・ランゲージ共同学習ネットワークを提案する。
提案手法は,ほとんどのメトリクスにおける最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-08-01T15:35:44Z) - Representation Learning and Identity Adversarial Training for Facial Behavior Understanding [3.350769246260559]
主観的同一性はモデルに対するショートカット学習を提供し、AU予測に対する準最適解をもたらすことを示す。
我々はIAT(Identity Adrial Training)を提案し、アイデンティティ不変の特徴を学習するために強力なIAT正規化が必要であることを実証する。
提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。
論文 参考訳(メタデータ) (2024-07-15T21:13:28Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - AU-Supervised Convolutional Vision Transformers for Synthetic Facial
Expression Recognition [12.661683851729679]
本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティション2022の6つの基本的表現分類法について述べる。
合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を活用して性能向上を図る。
論文 参考訳(メタデータ) (2022-07-20T09:33:39Z) - Learning Multi-dimensional Edge Feature-based AU Relation Graph for
Facial Action Unit Recognition [27.34564955127377]
顔行動ユニット(AU)の活性化は相互に影響を及ぼす。
既存のアプローチでは、顔ディスプレイの各ペアのAUに対して、明確にかつ明示的にそのようなキューを表現できない。
本稿では,AU間の関係を明確に記述するために,一意のグラフを深く学習するAU関係モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-05-02T03:38:00Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - AU-Guided Unsupervised Domain Adaptive Facial Expression Recognition [21.126514122636966]
本稿では、異なるFERデータセット間のアノテーションバイアスを軽減するためのAUガイド付き非監視ドメイン適応FERフレームワークを提案する。
ドメイン不変のコンパクトな機能を実現するために、AUを用いた両ドメインのアンカー正負の三つ子をランダムに収集するAUガイドトリプルトトレーニングを利用します。
論文 参考訳(メタデータ) (2020-12-18T07:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。