論文の概要: Compound Expression Recognition via Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.11241v1
- Date: Fri, 14 Mar 2025 09:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:59.818542
- Title: Compound Expression Recognition via Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルによる複合表現認識
- Authors: Jun Yu, Xilong Lu,
- Abstract要約: 複合表現認識(CER)は、人間の感情を理解し、人間とコンピュータの相互作用を改善するために重要である。
これらの問題に対処するため、我々はLVLM(Large Vision-Language Models)を利用した新しいアプローチを提案する。
提案手法は,2段階の微調整プロセスを用いており,第1に,事前学習したLVLMは基本的表情に基づいて微調整を行い,基礎的パターンを確立する。
- 参考スコア(独自算出の注目度): 9.401699207785015
- License:
- Abstract: Compound Expression Recognition (CER) is crucial for understanding human emotions and improving human-computer interaction. However, CER faces challenges due to the complexity of facial expressions and the difficulty of capturing subtle emotional cues. To address these issues, we propose a novel approach leveraging Large Vision-Language Models (LVLMs). Our method employs a two-stage fine-tuning process: first, pre-trained LVLMs are fine-tuned on basic facial expressions to establish foundational patterns; second, the model is further optimized on a compound-expression dataset to refine visual-language feature interactions. Our approach achieves advanced accuracy on the RAF-DB dataset and demonstrates strong zero-shot generalization on the C-EXPR-DB dataset, showcasing its potential for real-world applications in emotion analysis and human-computer interaction.
- Abstract(参考訳): 複合表現認識(CER)は、人間の感情を理解し、人間とコンピュータの相互作用を改善するために重要である。
しかし、CERは表情の複雑さや微妙な感情的な手がかりを捉えるのが難しいため、課題に直面している。
これらの問題に対処するために,LVLM(Large Vision-Language Models)を利用した新しいアプローチを提案する。
提案手法は,2段階の微調整プロセスを用いており,第1に,事前学習したLVLMは基本的表情に基づいて微調整を行い,基礎的パターンを確立する。
提案手法は,RAF-DBデータセットの高精度化を実現し,C-EXPR-DBデータセット上でのゼロショットの強い一般化を実証し,感情分析や人間-コンピュータインタラクションにおける実世界の応用の可能性を示す。
関連論文リスト
- Beyond Vision: How Large Language Models Interpret Facial Expressions from Valence-Arousal Values [6.987852837732702]
大規模言語モデルは、主にテキストベースの入力と出力によって操作されるが、人間の感情は、表情を含む言語的および非言語的な手がかりによって伝達される。
本研究では,LLMが生の視覚的入力を使わずに,表情の次元から感情的意味を推定できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-02-08T09:54:03Z) - Compound Expression Recognition via Multi Model Ensemble for the ABAW7 Challenge [6.26485278174662]
複合表現認識(CER)は、効果的な対人相互作用に不可欠である。
本稿では,この複雑さに対処するアンサンブル学習に基づくソリューションを提案する。
提案手法はRAF-DBデータセット上で高い精度を示し,ゼロショット学習によりC-EXPR-DBの一部の表現を認識できる。
論文 参考訳(メタデータ) (2024-07-17T01:59:34Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Data Augmentation and Transfer Learning Approaches Applied to Facial
Expressions Recognition [0.3481985817302898]
本稿では,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。
我々は、感情タイプごとに新しい合成画像を生成することができるGANモデルをスクラッチから構築する。
拡張データセットでは、異なるアーキテクチャで事前訓練された畳み込みニューラルネットワークを微調整します。
論文 参考訳(メタデータ) (2024-02-15T14:46:03Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Exploring Large-scale Unlabeled Faces to Enhance Facial Expression
Recognition [12.677143408225167]
本研究では、ラベルのない顔データを用いて表現認識モデルを効果的に訓練する半教師付き学習フレームワークを提案する。
本手法では,顔認識データを完全に活用するために,信頼度を適応的に調整できる動的しきい値モジュールを用いる。
ABAW5 EXPRタスクでは,オフィシャル検証セットにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2023-03-15T13:43:06Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。