論文の概要: Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023
- arxiv url: http://arxiv.org/abs/2309.07925v1
- Date: Mon, 11 Sep 2023 03:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-09-24 04:22:58.438308
- Title: Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023
- Title(参考訳): mer 2023用マルチラベルジョイントデコードによる階層型視聴覚情報融合
- Authors: Haotian Wang, Yuxuan Xi, Hang Chen, Jun Du, Yan Song, Qing Wang,
Hengshun Zhou, Chenxi Wang, Jiefeng Ma, Pengfei Hu, Ya Jiang, Shi Cheng, Jie
Zhang and Yuzhe Weng
- Abstract要約: 本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
- 参考スコア(独自算出の注目度): 51.95161901441527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel framework for recognizing both discrete and
dimensional emotions. In our framework, deep features extracted from foundation
models are used as robust acoustic and visual representations of raw video.
Three different structures based on attention-guided feature gathering (AFG)
are designed for deep feature fusion. Then, we introduce a joint decoding
structure for emotion classification and valence regression in the decoding
stage. A multi-task loss based on uncertainty is also designed to optimize the
whole process. Finally, by combining three different structures on the
posterior probability level, we obtain the final predictions of discrete and
dimensional emotions. When tested on the dataset of multimodal emotion
recognition challenge (MER 2023), the proposed framework yields consistent
improvements in both emotion classification and valence regression. Our final
system achieves state-of-the-art performance and ranks third on the leaderboard
on MER-MULTI sub-challenge.
- Abstract(参考訳): 本稿では,離散感情と次元感情の両方を認識する新しい枠組みを提案する。
本フレームワークでは,基盤モデルから抽出した深い特徴を生映像のロバストな音響的・視覚的表現として利用する。
注意誘導型特徴収集(AFG)に基づく3つの異なる構造は、深い特徴融合のために設計されている。
次に,感情分類と有価回帰のための共同復号構造をデコード段階で導入する。
不確実性に基づくマルチタスク損失も、プロセス全体を最適化するために設計されている。
最後に、後確率レベルで3つの異なる構造を組み合わせることで、離散的および次元的な感情の最終予測を得る。
マルチモーダル感情認識チャレンジ(MER 2023)のデータセットでテストすると、提案フレームワークは感情分類と原子価回帰の両方において一貫した改善をもたらす。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
関連論文リスト
- HierCon: Hierarchical Contrastive Attention for Audio Deepfake Detection [21.083747008336175]
現代のTSや音声変換システムが生み出すオーディオディープフェイクは、実際の音声と区別することがますます難しくなり、セキュリティとオンライン信頼の深刻なリスクが高まる。
階層的な階層型アテンションフレームワークであるHierConを提案する。これは,時間的フレーム,隣接するレイヤ,レイヤグループ間の依存性をモデル化し,ドメイン不変な埋め込みを奨励する,マージンベースのコントラスト学習と組み合わせたものだ。
論文 参考訳(メタデータ) (2026-02-01T05:36:32Z) - Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion [73.11061598576798]
カメラによる占有予測は、自動運転における3D知覚の主流のアプローチである。
textbfCIGOccはマルチレベル表現融合に基づく2段階の占有予測フレームワークである。
textbfCIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、変形可能なマルチレベル融合機構を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:37:33Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - ECMF: Enhanced Cross-Modal Fusion for Multimodal Emotion Recognition in MER-SEMI Challenge [5.217410271468519]
我々は,MER2025コンペティションにおけるMER-SEMI課題に,新しいマルチモーダル感情認識フレームワークを提案する。
大規模事前学習モデルを用いて視覚、音声、テキストのモダリティから情報的特徴を抽出する。
提案手法は,MER2025-SEMIデータセットのオフィシャルベースラインに対して,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-08-08T03:55:25Z) - Grounding Emotion Recognition with Visual Prototypes: VEGA -- Revisiting CLIP in MERC [28.0227032445724]
会話におけるマルチ感情認識は、テキスト、音響、視覚信号の複雑な相互作用のため、依然として困難な課題である。
本稿では,統合と分類プロセスにクラスレベルの視覚的意味論を導入する新しいビジュアル感情ガイドアンコリング(VEGA)機構を提案する。
論文 参考訳(メタデータ) (2025-08-06T19:43:58Z) - Hierarchical Fusion and Joint Aggregation: A Multi-Level Feature Representation Method for AIGC Image Quality Assessment [0.9821874476902972]
AIGCの品質評価は、低レベルの視覚知覚から高レベルの意味理解まで多次元的な課題に直面している。
この制限に対処するため、多段階の視覚表現パラダイムとして、多段階の特徴抽出、階層的融合、共同集約の3段階が提案されている。
ベンチマーク実験では、両タスクにおいて優れた性能を示し、提案したマルチレベル視覚評価パラダイムの有効性を検証した。
論文 参考訳(メタデータ) (2025-07-23T04:12:32Z) - Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。
我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文 参考訳(メタデータ) (2025-05-05T02:31:11Z) - Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis [9.240806100782718]
DASCOは、感情分析のためのきめ細かいスコープ指向のフレームワークである。
依存性解析ツリーを活用することで、アスペクトレベルの感情推論を強化する。
2つのベンチマークデータセットの実験は、DASCOがMABSAで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-15T16:05:09Z) - Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples [18.29910296652917]
MER2024-SEMI(Semi-Supervised Learning Sub-Challenge)に対する提案手法を提案する。
この課題は、感情認識における限られた注釈付きデータの問題に対処する。
提案手法はMER2024-SEMIチャレンジで有効であることが確認され, 平均Fスコア88.25%, リーダーボード6位となった。
論文 参考訳(メタデータ) (2024-08-23T11:33:54Z) - DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction [26.164120380820307]
マルチモーダル・ダイナミックディビジョン(MDD)とアダプティブ・アライメント・アンド・コレクション(AAC)を組み合わせたディバイド・アンド・コンカー2D-3Dクロスモーダル・アライメント・アンド・コレクション・フレームワークを提案する。
AACでは、異なるサブセットのサンプルを異なるアライメント戦略で利用し、セマンティックなコンパクト性を完全に強化し、一方、ノイズの多いラベルに過度に適合させる。
実世界のシナリオにおける有効性を評価するため,我々は,挑戦的なノイズベンチマークを導入する。
N200は200kレベルのサンプルを1156個の現実的なノイズラベルでアノテートした。
論文 参考訳(メタデータ) (2024-07-25T05:18:18Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Three Steps to Multimodal Trajectory Prediction: Modality Clustering,
Classification and Synthesis [54.249502356251085]
我々は新しい予測フレームワークと共に新しい洞察を示す。
提案手法は、社会情報や地図情報を導入することなく、最先端の作品を超える。
論文 参考訳(メタデータ) (2021-03-14T06:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。