論文の概要: Ordering Matters: Rank-Aware Selective Fusion for Blended Emotion Recognition
- arxiv url: http://arxiv.org/abs/2605.21417v2
- Date: Sun, 24 May 2026 12:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.93966
- Title: Ordering Matters: Rank-Aware Selective Fusion for Blended Emotion Recognition
- Title(参考訳): 注文事項:Blended Emotion Recognitionのためのランクアウェア選択融合
- Authors: Junghyun Lee, Hyunseo Kim, Hanna Jang, Junhyug Noh,
- Abstract要約: 本稿では,多様なビデオおよびオーディオエンコーダの相補的表現を選択的に組み合わせたランク認識型マルチエンコーダフレームワークを提案する。
提案手法は,異種エンコーダの特徴を共有潜在空間に投影し,アテンションベースのゲーティングモジュールを通じてサンプルワイドエンコーダの重要性を推定し,トップnの最も情報性の高いエンコーダのみを融合する。
BlEmoREチャレンジの実験では、提案したフレームワークは強い個々のエンコーダやナブマルチエンコーダ融合ベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 10.810766324356402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blended emotion recognition is challenging because emotions are often expressed as mixtures of subtle and overlapping multimodal cues rather than a single dominant signal. We propose a rank-aware multi-encoder framework that selectively combines complementary representations from diverse pre-extracted video and audio encoders. Our method projects heterogeneous encoder features into a shared latent space, estimates sample-wise encoder importance through an attention-based gating module, and fuses only the top-n most informative encoders. To better model blended emotions, we decouple prediction into presence and salience heads and align them through probability-level fusion. We further incorporate feature-level unsupervised domain adaptation without pseudo-labeling to improve robustness under distribution shift. Experiments on the BlEmoRE challenge show that the proposed framework outperforms strong individual encoders and naïve multi-encoder fusion baselines. Our final system ranked 2nd in the competition, supporting the effectiveness of rank-aware selective fusion for fine-grained blended emotion recognition.
- Abstract(参考訳): ブレンド感情認識は、感情が単一の支配的な信号ではなく、微妙で重なり合うマルチモーダルな手がかりの混合として表現されることがしばしばあるため、難しい。
種々の事前抽出ビデオとオーディオエンコーダの相補表現を選択的に組み合わせたランク認識型マルチエンコーダフレームワークを提案する。
提案手法は,異種エンコーダの特徴を共有潜在空間に投影し,アテンションベースのゲーティングモジュールを通じてサンプルワイドエンコーダの重要性を推定し,トップnの最も情報性の高いエンコーダのみを融合する。
混合感情をより良くモデル化するために、予測をプレゼンスとサリエンスヘッドに分離し、確率レベルの融合によって調整する。
さらに,分散シフト時のロバスト性を改善するために,擬似ラベルを使わずに,機能レベルの非教師なし領域適応を取り入れた。
BlEmoREチャレンジの実験では、提案されたフレームワークは強い個々のエンコーダやナビブのマルチエンコーダ融合ベースラインよりも優れていた。
最終システムは第2位にランクインし,微粒な混合感情認識におけるランクアウェア選択融合の有効性を実証した。
関連論文リスト
- Disentangled Dual-Branch Graph Learning for Conversational Emotion Recognition [37.30058027224552]
会話におけるマルチモーダル感情認識は、コンテキスト内のテキスト、音響、視覚的手がかりを共同でモデル化することにより、発話レベルの感情を推測することを目的としている。
本稿では,二重空間特徴の絡み合いと二重分岐グラフ学習を組み合わせたフレームワークを提案する。
IEMOCAPとMELDの実験により,提案手法は強いベースラインよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2026-04-03T14:47:26Z) - Improving Multimodal Brain Encoding Model with Dynamic Subject-awareness Routing [8.942649901923332]
AFIRE(Agnostic Framework for Multimodal fMRI Response)は、様々なエンコーダからの時間整合後トークンを標準化する。
MINDはトークン依存のTop-Kスパースルーティングと、専門家の使用をパーソナライズする前の課題を組み合わせたものだ。
論文 参考訳(メタデータ) (2025-10-06T10:24:28Z) - METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for
Uncertainty-Aware Multimodal Emotion Recognition [14.963637194500029]
本稿では、感情予測に対するモダリティワイドな不確実性を定量化する不確実性認識型オーディオ視覚融合手法を提案する。
音声視覚潜在分布の分散ベクトルに正規ランク付け制約を課す。
AVEC 2019 CESとIEMOCAPの2つの感情認識コーパスについて評価したところ、音声視覚的感情認識は、よく校正され、よくランク付けされた潜伏不確実性対策の恩恵を受ける可能性が示唆された。
論文 参考訳(メタデータ) (2022-06-12T20:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。