論文の概要: Zero-shot Compound Expression Recognition with Visual Language Model at the 6th ABAW Challenge
- arxiv url: http://arxiv.org/abs/2403.11450v1
- Date: Mon, 18 Mar 2024 03:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:47:44.195908
- Title: Zero-shot Compound Expression Recognition with Visual Language Model at the 6th ABAW Challenge
- Title(参考訳): 第6回ABAWチャレンジにおける視覚言語モデルを用いたゼロショット複合表現認識
- Authors: Jiahe Wang, Jiale Huang, Bingzhao Cai, Yifan Cao, Xin Yun, Shangfei Wang,
- Abstract要約: 従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現の認識のためのゼロショットアプローチを提案する。
本研究では,従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現認識のためのゼロショットアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.49671335206114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional approaches to facial expression recognition primarily focus on the classification of six basic facial expressions. Nevertheless, real-world situations present a wider range of complex compound expressions that consist of combinations of these basics ones due to limited availability of comprehensive training datasets. The 6th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) offered unlabeled datasets containing compound expressions. In this study, we propose a zero-shot approach for recognizing compound expressions by leveraging a pretrained visual language model integrated with some traditional CNN networks.
- Abstract(参考訳): 表情認識に対する従来のアプローチは、主に6つの基本的な表情の分類に焦点を当てている。
それにもかかわらず、現実世界の状況は、包括的なトレーニングデータセットの可用性が限られているため、これらの基本的な表現の組み合わせからなる、より広範な複雑な複合表現が存在する。
The 6th Workshop and Competition on Affective Behavior Analysis in-the-Wild (ABAW)は、複合表現を含むラベルなしデータセットを提供している。
本研究では,従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現の認識のためのゼロショットアプローチを提案する。
関連論文リスト
- Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Compound Expression Recognition via Multi Model Ensemble for the ABAW7 Challenge [6.26485278174662]
複合表現認識(CER)は、効果的な対人相互作用に不可欠である。
本稿では,この複雑さに対処するアンサンブル学習に基づくソリューションを提案する。
提案手法はRAF-DBデータセット上で高い精度を示し,ゼロショット学習によりC-EXPR-DBの一部の表現を認識できる。
論文 参考訳(メタデータ) (2024-07-17T01:59:34Z) - The Solution for the 5th GCAIAC Zero-shot Referring Expression Comprehension Challenge [3.92894296845466]
本稿では,ゼロショット参照表現理解タスクの解法を提案する。
提案手法は,Aリーダーボードで84.825,Bリーダーボードで71.460,第1位を確保した。
論文 参考訳(メタデータ) (2024-07-06T08:31:33Z) - 7th ABAW Competition: Multi-Task Learning and Compound Expression Recognition [46.730335566738006]
本稿では,第7回ABAWコンペティションについて述べる。
ABAWコンペティションは、人間の表現と行動を理解するための新しい課題に対処する。
論文 参考訳(メタデータ) (2024-07-04T11:04:29Z) - Compound Expression Recognition via Multi Model Ensemble [8.529105068848828]
複合表現認識は対人相互作用において重要な役割を果たす。
本稿では,複合表現認識のためのアンサンブル学習手法に基づく解を提案する。
提案手法はRAF-DBの精度が高く,C-EXPR-DBの一部部分でゼロショットで表現を認識できる。
論文 参考訳(メタデータ) (2024-03-19T09:30:56Z) - Exploring Facial Expression Recognition through Semi-Supervised Pretraining and Temporal Modeling [8.809586885539002]
本稿では,第6回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションについて述べる。
第6回ABAWコンペティションでは,オフィシャル検証セットにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-03-18T16:36:54Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文 参考訳(メタデータ) (2021-10-19T15:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。