論文の概要: Zero-shot Compound Expression Recognition with Visual Language Model at the 6th ABAW Challenge
- arxiv url: http://arxiv.org/abs/2403.11450v1
- Date: Mon, 18 Mar 2024 03:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:47:44.195908
- Title: Zero-shot Compound Expression Recognition with Visual Language Model at the 6th ABAW Challenge
- Title(参考訳): 第6回ABAWチャレンジにおける視覚言語モデルを用いたゼロショット複合表現認識
- Authors: Jiahe Wang, Jiale Huang, Bingzhao Cai, Yifan Cao, Xin Yun, Shangfei Wang,
- Abstract要約: 従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現の認識のためのゼロショットアプローチを提案する。
本研究では,従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現認識のためのゼロショットアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.49671335206114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional approaches to facial expression recognition primarily focus on the classification of six basic facial expressions. Nevertheless, real-world situations present a wider range of complex compound expressions that consist of combinations of these basics ones due to limited availability of comprehensive training datasets. The 6th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) offered unlabeled datasets containing compound expressions. In this study, we propose a zero-shot approach for recognizing compound expressions by leveraging a pretrained visual language model integrated with some traditional CNN networks.
- Abstract(参考訳): 表情認識に対する従来のアプローチは、主に6つの基本的な表情の分類に焦点を当てている。
それにもかかわらず、現実世界の状況は、包括的なトレーニングデータセットの可用性が限られているため、これらの基本的な表現の組み合わせからなる、より広範な複雑な複合表現が存在する。
The 6th Workshop and Competition on Affective Behavior Analysis in-the-Wild (ABAW)は、複合表現を含むラベルなしデータセットを提供している。
本研究では,従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現の認識のためのゼロショットアプローチを提案する。
関連論文リスト
- Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition [0.3277163122167433]
本稿では,MAE-Face self-supervised learning (SSL) 法とFusion Attention Mechanismを併用した表現分類手法を提案する。
そこで本研究では,顔の特徴を強調する前処理手法を提案し,トレーニングと検証の双方におけるモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-03-19T16:21:47Z) - Compound Expression Recognition via Multi Model Ensemble [8.529105068848828]
複合表現認識は対人相互作用において重要な役割を果たす。
本稿では,複合表現認識のためのアンサンブル学習手法に基づく解を提案する。
提案手法はRAF-DBの精度が高く,C-EXPR-DBの一部部分でゼロショットで表現を認識できる。
論文 参考訳(メタデータ) (2024-03-19T09:30:56Z) - Exploring Facial Expression Recognition through Semi-Supervised Pretraining and Temporal Modeling [8.809586885539002]
本稿では,第6回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションについて述べる。
第6回ABAWコンペティションでは,オフィシャル検証セットにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-03-18T16:36:54Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Rethinking the Learning Paradigm for Facial Expression Recognition [66.25012917019376]
既存のトレーニングパラダイムを再考し、弱い教師付き戦略を用いて、オリジナルの曖昧なアノテーションでFERモデルをトレーニングする方がよいと提案する。
本稿では、弱教師付き戦略を用いて、オリジナルの曖昧なアノテーションでFERモデルを訓練した方がよいと論じる。
論文 参考訳(メタデータ) (2022-09-30T12:00:54Z) - Learning from Synthetic Data: Facial Expression Classification based on
Ensemble of Multi-task Networks [3.736069053271373]
表情認識タスクにおいて,「合成データからの学習」 (LSD) は重要なトピックである。
マルチタスク学習に基づく顔認識手法を提案する。
平均F1スコアは0.71。
論文 参考訳(メタデータ) (2022-07-20T16:41:37Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文 参考訳(メタデータ) (2021-10-19T15:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。