論文の概要: Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision
- arxiv url: http://arxiv.org/abs/2403.12687v1
- Date: Tue, 19 Mar 2024 12:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:23:34.319180
- Title: Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision
- Title(参考訳): 遅いモーダリティ融合とルールベース決定に基づく音声・視覚複合表現認識法
- Authors: Elena Ryumina, Maxim Markitantov, Dmitry Ryumin, Heysem Kaya, Alexey Karpov,
- Abstract要約: 本稿では,第6回ABAWコンペティションの複合表現認識チャレンジにおけるSUNチームの結果について述べる。
本稿では,複合表現認識のための新しい音声視覚手法を提案する。
- 参考スコア(独自算出の注目度): 9.436107335675473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the results of the SUN team for the Compound Expressions Recognition Challenge of the 6th ABAW Competition. We propose a novel audio-visual method for compound expression recognition. Our method relies on emotion recognition models that fuse modalities at the emotion probability level, while decisions regarding the prediction of compound expressions are based on predefined rules. Notably, our method does not use any training data specific to the target task. The method is evaluated in multi-corpus training and cross-corpus validation setups. Our findings from the challenge demonstrate that the proposed method can potentially form a basis for development of intelligent tools for annotating audio-visual data in the context of human's basic and compound emotions. The source code is publicly available.
- Abstract(参考訳): 本稿では,第6回ABAWコンペティションの複合表現認識チャレンジにおけるSUNチームの結果について述べる。
本稿では,複合表現認識のための新しい音声視覚手法を提案する。
本手法は,感情の確率レベルでのモダリティを融合する感情認識モデルに依存し,複合表現の予測に関する決定は予め定義されたルールに基づいている。
特に,本手法では,対象タスクに特有のトレーニングデータを一切使用していない。
マルチコーパス・トレーニングとクロスコーパス・バリデーション・セットアップで評価を行う。
この課題から得られた知見は,人間の基本的な感情と複合感情の文脈において,音声・視覚データをアノテートするための知的なツールの開発の基礎となる可能性が示唆された。
ソースコードは公開されている。
関連論文リスト
- OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Compound Expression Recognition via Multi Model Ensemble [8.529105068848828]
複合表現認識は対人相互作用において重要な役割を果たす。
本稿では,複合表現認識のためのアンサンブル学習手法に基づく解を提案する。
提案手法はRAF-DBの精度が高く,C-EXPR-DBの一部部分でゼロショットで表現を認識できる。
論文 参考訳(メタデータ) (2024-03-19T09:30:56Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - A Change of Heart: Improving Speech Emotion Recognition through
Speech-to-Text Modality Conversion [0.6767885381740951]
本稿では,MELDデータセット上での感情認識性能の向上を目的としたモダリティ変換の概念を提案する。
まず、自動音声認識(ASR)システムを用いたModality-Conversion法と、テキスト分類器を用いた2つの実験を行った。
以上の結果から,第1の手法は有意な結果が得られ,第2の手法はMELDデータセット上でのSER重み付きF1(WF1)スコアにおいて,SOTA(State-of-the-art)音声に基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-07-21T13:48:11Z) - Multi-modal Expression Recognition with Ensemble Method [9.880739481276835]
複数の事前訓練されたモデルによって抽出されたマルチモーダル特徴の組み合わせは、より効果的な感情情報を取得するために適用される。
このような視覚的・音声的モーダルな特徴の組み合わせに対して,2つの時間的エンコーダを用いて時間的文脈情報を探索する。
本システムでは,検証セットの平均F1スコアが0.45774である。
論文 参考訳(メタデータ) (2023-03-17T15:03:58Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Phrase break prediction with bidirectional encoder representations in
Japanese text-to-speech synthesis [8.391631335854457]
本稿では,事前学習した大言語モデルであるBERTから抽出した暗黙的特徴と,BiLSTMから抽出した明示的特徴とを言語的特徴とを組み合わせ,句分割予測手法を提案する。
提案手法は,従来の手法では捕捉できない潜在意味論を抽出するために,両表現を考慮に入れている。
論文 参考訳(メタデータ) (2021-04-26T08:29:29Z) - Expression Recognition Analysis in the Wild [9.878384185493623]
最先端手法に基づく表情認識法の詳細と実験結果について報告する。
よく知られているvggface2データセットで事前トレーニングされたsenetディープラーニングアーキテクチャを微調整した。
また,本手法の有効性を評価するためには,ABAW(Affective Behavior Analysis in-the-wild)コンペティションも必要である。
論文 参考訳(メタデータ) (2021-01-22T17:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。