Fugu-MT 論文翻訳(概要): Zero-shot Compound Expression Recognition with Visual Language Model at the 6th ABAW Challenge

論文の概要: Zero-shot Compound Expression Recognition with Visual Language Model at the 6th ABAW Challenge

arxiv url: http://arxiv.org/abs/2403.11450v1
Date: Mon, 18 Mar 2024 03:59:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 16:47:44.195908
Title: Zero-shot Compound Expression Recognition with Visual Language Model at the 6th ABAW Challenge
Title（参考訳）: 第6回ABAWチャレンジにおける視覚言語モデルを用いたゼロショット複合表現認識
Authors: Jiahe Wang, Jiale Huang, Bingzhao Cai, Yifan Cao, Xin Yun, Shangfei Wang,
Abstract要約: 従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現の認識のためのゼロショットアプローチを提案する。本研究では,従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現認識のためのゼロショットアプローチを提案する。
参考スコア（独自算出の注目度）: 11.49671335206114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conventional approaches to facial expression recognition primarily focus on the classification of six basic facial expressions. Nevertheless, real-world situations present a wider range of complex compound expressions that consist of combinations of these basics ones due to limited availability of comprehensive training datasets. The 6th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) offered unlabeled datasets containing compound expressions. In this study, we propose a zero-shot approach for recognizing compound expressions by leveraging a pretrained visual language model integrated with some traditional CNN networks.
Abstract（参考訳）: 表情認識に対する従来のアプローチは、主に6つの基本的な表情の分類に焦点を当てている。それにもかかわらず、現実世界の状況は、包括的なトレーニングデータセットの可用性が限られているため、これらの基本的な表現の組み合わせからなる、より広範な複雑な複合表現が存在する。 The 6th Workshop and Competition on Affective Behavior Analysis in-the-Wild (ABAW)は、複合表現を含むラベルなしデータセットを提供している。本研究では,従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現の認識のためのゼロショットアプローチを提案する。

関連論文リスト

Team RAS in 9th ABAW Competition: Multimodal Compound Expression Recognition Approach [44.40745123728199]
複合表現認識(CER)は、基本的な感情の組み合わせによって形成される複雑な感情状態を検出することを目的としている。 6つの不均一なモーダルを1つのパイプラインに結合する新しいゼロショットマルチモーダルアプローチを提案する。提案手法では、AffWild2ではF1スコアが46.95%、AFEWでは49.02%、ゼロショットテストでC-EXPR-DBでは34.85%である。
論文参考訳（メタデータ） (2025-07-02T23:51:40Z)
7ABAW-Compound Expression Recognition via Curriculum Learning [25.64304473149263]
本稿では,1つの表現タスクでモデルをトレーニングするカリキュラムベースのフレームワークを提案する。本手法は,Fスコア0.6063の競合トラックにおいて,テキストfbbの最高性能を実現する。
論文参考訳（メタデータ） (2025-03-11T01:53:34Z)
Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文参考訳（メタデータ） (2024-07-21T13:26:30Z)
Compound Expression Recognition via Multi Model Ensemble for the ABAW7 Challenge [6.26485278174662]
複合表現認識(CER)は、効果的な対人相互作用に不可欠である。本稿では,この複雑さに対処するアンサンブル学習に基づくソリューションを提案する。提案手法はRAF-DBデータセット上で高い精度を示し,ゼロショット学習によりC-EXPR-DBの一部の表現を認識できる。
論文参考訳（メタデータ） (2024-07-17T01:59:34Z)
The Solution for the 5th GCAIAC Zero-shot Referring Expression Comprehension Challenge [3.92894296845466]
本稿では,ゼロショット参照表現理解タスクの解法を提案する。提案手法は,Aリーダーボードで84.825,Bリーダーボードで71.460,第1位を確保した。
論文参考訳（メタデータ） (2024-07-06T08:31:33Z)
7th ABAW Competition: Multi-Task Learning and Compound Expression Recognition [46.730335566738006]
本稿では,第7回ABAWコンペティションについて述べる。 ABAWコンペティションは、人間の表現と行動を理解するための新しい課題に対処する。
論文参考訳（メタデータ） (2024-07-04T11:04:29Z)
Compound Expression Recognition via Multi Model Ensemble [8.529105068848828]
複合表現認識は対人相互作用において重要な役割を果たす。本稿では,複合表現認識のためのアンサンブル学習手法に基づく解を提案する。提案手法はRAF-DBの精度が高く,C-EXPR-DBの一部部分でゼロショットで表現を認識できる。
論文参考訳（メタデータ） (2024-03-19T09:30:56Z)
Exploring Facial Expression Recognition through Semi-Supervised Pretraining and Temporal Modeling [8.809586885539002]
本稿では,第6回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションについて述べる。第6回ABAWコンペティションでは,オフィシャル検証セットにおいて優れた結果を得た。
論文参考訳（メタデータ） (2024-03-18T16:36:54Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文参考訳（メタデータ） (2024-02-18T12:43:38Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Retrieval-based Disentangled Representation Learning with Natural Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文参考訳（メタデータ） (2022-12-15T10:20:42Z)
Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文参考訳（メタデータ） (2021-10-19T15:44:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。