Fugu-MT 論文翻訳(概要): Anchoring Emotions in Text: Robust Multimodal Fusion for Mimicry Intensity Estimation

論文の概要: Anchoring Emotions in Text: Robust Multimodal Fusion for Mimicry Intensity Estimation

arxiv url: http://arxiv.org/abs/2603.14976v1
Date: Mon, 16 Mar 2026 08:37:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:57.879572
Title: Anchoring Emotions in Text: Robust Multimodal Fusion for Mimicry Intensity Estimation
Title（参考訳）: テキスト中の感情のアンコリング:ミミリー強度推定のためのロバストなマルチモーダルフュージョン
Authors: Lingsi Zhu, Yuefeng Zou, Yunxiang Zhang, Naixiang Zheng, Guoyuan Wang, Jun Yu, Jiaen Liang, Wei Huang, Shengping Liu, Ximin Zheng,
Abstract要約: 第10回ABAWコンペティション用に設計された新しいマルチモーダルフレームワークTAEMI(Text-Anchored Emotional Mimicry Intensity Estimation)を提案する。連続的な視覚信号と音響信号が過渡的環境騒音の影響を受けやすいという観察により,従来の対称核融合パラダイムを破ることができた。本フレームワークは,6つの連続的感情次元におけるピアソン相関係数の最先端化を実現し,既存のベースライン法を著しく上回っている。
参考スコア（独自算出の注目度）: 19.86687369529118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating Emotional Mimicry Intensity (EMI) in naturalistic environments is a critical yet challenging task in affective computing. The primary difficulty lies in effectively modeling the complex, nonlinear temporal dynamics across highly heterogeneous modalities, especially when physical signals are corrupted or missing. To tackle this, we propose TAEMI (Text-Anchored Emotional Mimicry Intensity estimation), a novel multimodal framework designed for the 10th ABAW Competition. Motivated by the observation that continuous visual and acoustic signals are highly susceptible to transient environmental noise, we break the traditional symmetric fusion paradigm. Instead, we leverage textual transcript--which inherently encode a stable, time-independent semantic prior--as central anchors. Specifically, we introduce a Text-Anchored Dual Cross-Attention mechanism that utilizes these robust textual queries to actively filter out frame-level redundancies and align the noisy physical streams. Furthermore, to prevent catastrophic performance degradation caused by inevitably missing data in unconstrained real-world scenarios, we integrate Learnable Missing-Modality Tokens and a Modality Dropout strategy during training. Extensive experiments on the Hume-Vidmimic2 dataset demonstrate that TAEMI effectively captures fine-grained emotional variations and maintains robust predictive resilience under imperfect conditions. Our framework achieves a state-of-the-art mean Pearson correlation coefficient across six continuous emotional dimensions, significantly outperforming existing baseline methods.
Abstract（参考訳）: 自然環境における情緒的ミミリーインテンシティ(EMI)の推定は、感情コンピューティングにおいて重要な課題である。主な困難は、特に物理信号が破損または欠落した場合に、非常に不均一なモーダルの複雑な非線形時間力学を効果的にモデル化することである。これを解決するために,第10回ABAWコンペティション用に設計された新しいマルチモーダルフレームワークTAEMI(Text-Anchored Emotional Mimicry Intensity Estimation)を提案する。連続的な視覚信号と音響信号が過渡的環境騒音の影響を受けやすいという観察により,従来の対称核融合パラダイムを破ることができた。代わりに、テキストの書き起こし-本質的には、安定的で時間に依存しないセマンティックなプリミティブをエンコードする--を中央アンカーとして利用します。具体的には、これらの頑健なテキストクエリを利用してフレームレベルの冗長性を積極的にフィルタリングし、ノイズの多い物理ストリームを整列させる、テキストアンカレートデュアル・クロス・アテンション機構を導入する。さらに,制約のない実世界のシナリオにおいて必然的に欠落したデータによる破滅的なパフォーマンス劣化を防止するため,学習可能なミス・モダリティトークンとトレーニング中のモダリティ・ドロップアウト戦略を統合した。 Hume-Vidmimic2データセットの大規模な実験により、TAEMIはきめ細かな感情の変化を効果的に捉え、不完全条件下では堅牢な予測レジリエンスを維持することが示されている。本フレームワークは,6つの連続的感情次元におけるピアソン相関係数の最先端化を実現し,既存のベースライン法を著しく上回っている。

関連論文リスト

Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval [39.603000380180774]
Debiased Evidential Learning for Moment Retrieval (DEMR)は、クロスモーダルアライメントのための反射Flipped Fusion(RFF)ブロックを組み込んだ新しいフレームワークである。我々は,不確実性予測を洗練し,困難なモーメントと適応的なアライメントを実現し,精度を向上するGeom-regularizerを提案する。
論文参考訳（メタデータ） (2025-11-30T16:13:20Z)
Cross-Modal Consistency-Guided Active Learning for Affective BCI Systems [1.9556470931534158]
ラベルノイズに対するロバスト性を高める不確実性を考慮したアクティブラーニングフレームワークを提案する。脳波に基づく不確実性推定のみに頼るのではなく、クロスモーダルアライメントを評価する。このフィードバック駆動プロセスは、ネットワークを信頼性のある情報的サンプルへと誘導し、ノイズラベルの影響を低減する。
論文参考訳（メタデータ） (2025-11-19T05:33:48Z)
Disentangling Emotional Bases and Transient Fluctuations: A Low-Rank Sparse Decomposition Approach for Video Affective Analysis [28.120677578256366]
ビデオベースのAffective Computing(VAC)は、複雑な感情力学によるモデル不安定性と表現的劣化に悩まされている。本稿では,LowRank Sparse Emotion Understanding Framework (LSEF)を提案する。 LSEFは3つのプラグ・アンド・プレイモジュールを用いており、このモジュールは階層的な低ランクスパース構成過程として感情力学を歪めている。
論文参考訳（メタデータ） (2025-11-14T15:35:11Z)
Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition [49.41688891301643]
動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。 DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
論文参考訳（メタデータ） (2025-11-14T04:49:58Z)
Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations [94.62792643569567]
この研究は、話者の感情の役割を体系的に調査する。複数の感情や強度にまたがって表現される悪意のある音声命令のデータセットを構築し、いくつかの最先端のLALMを評価する。異なる感情は、様々なレベルの安全でない反応を誘発し、強度の影響は非単調であり、中性表現は最大のリスクを伴うことが多い。
論文参考訳（メタデータ） (2025-10-19T15:41:25Z)
DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。 DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文参考訳（メタデータ） (2025-10-17T10:14:26Z)
Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文参考訳（メタデータ） (2025-10-09T04:48:49Z)
Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition [10.741278852581646]
Emotional Mimicry Intensity (EMI)の推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用を促進する上で重要な役割を担っている。本稿では,既存手法の限界に対処する2段階のクロスモーダルアライメントフレームワークを提案する。 Hume-Vidmimic2データセットの実験では、6つの感情次元の平均ピアソン係数相関が0.51であるのに対し、優れた性能を示した。
論文参考訳（メタデータ） (2025-03-13T17:46:16Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。