Fugu-MT 論文翻訳(概要): Multimodal Emotion Recognition via Causal-Diffusion Bridge (Affect-Diff)

論文の概要: Multimodal Emotion Recognition via Causal-Diffusion Bridge (Affect-Diff)

arxiv url: http://arxiv.org/abs/2605.08252v1
Date: Thu, 07 May 2026 18:29:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:49.500812
Title: Multimodal Emotion Recognition via Causal-Diffusion Bridge (Affect-Diff)
Title（参考訳）: 因果拡散ブリッジ(Affect-Diff)によるマルチモーダル感情認識
Authors: Ankit Sanjyal,
Abstract要約: ハッピーは65.9%であり、3つのエクマンカテゴリーは7%以下である。 Affect-Diff, a Causal-Diffusion Bridge that address this through three jointly trained mechanism。 3,292個のCMU-MOSEIサンプルにおいて,Affect-Diffは最強基線に対する18%の相対的改善である精度0.384の検証を達成した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multimodal emotion recognition on CMU-MOSEI faces an extreme imbalance as Happy accounts for 65.9% of samples while three Ekman categories collectively represent under 7%, causing standard fusion models to maximize accuracy by ignoring minority emotions entirely. We present Affect-Diff, a Causal-Diffusion Bridge that addresses this through three jointly trained mechanisms: a NOTEARS-learned causal graph that re-weights modality contributions before fusion, a beta-VAE bottleneck for regularized latent compression, and a stop-gradiented 1D DDPM prior that structures the latent space against majority-class collapse. On 3,292 aligned CMU-MOSEI samples, Affect-Diff achieves validation balanced accuracy 0.384, an 18% relative improvement over the strongest baseline (TETFN: 0.324), while all evaluated baselines produce zero F1 on Fear, Disgust, and Surprise. Ablation studies confirm independent, non-redundant contributions from the diffusion prior (-24% without it) and causal graph (-13%). Notably, only the deterministic-encoder variant detects all six emotion classes, revealing KL regularization strength as a direct lever for minority-class sensitivity.
Abstract（参考訳）: CMU-MOSEIにおけるマルチモーダル感情認識は、Happyが65.9%のサンプルを報告しているのに対して、Ekmanの3つのカテゴリは全体の7%以下であり、通常の融合モデルは少数派の感情を完全に無視することで精度を最大化する。本稿では,これらを,NOTEARSで学習した因果グラフで,融合前のモダリティ寄与を再重み付けする,Affect-Diff,正規化潜伏圧縮のためのβ-VAEボトルネック,多数クラス崩壊に対する潜伏空間を構造化する1D DDPMという,3つの共同で訓練されたメカニズムで対処する。 3,292個のCMU-MOSEIサンプルにおいて、Affect-Diffは最強ベースライン(TETFN:0.324)に対する18%の相対的な改善である精度0.384を達成し、評価されたベースラインはすべてFear, Disgust, Surprise上でゼロF1を生成する。アブレーション研究は、拡散前の(24%)と因果グラフ(13%)から独立した非冗長な寄与を確認している。特に、決定論的エンコーダ変種のみが6つの感情クラスすべてを検出し、KL正規化強度をマイノリティクラス感受性の直接レバーとして明らかにしている。

関連論文リスト

Architecture-Agnostic Modality-Isolated Gated Fusion for Robust Multi-Modal Prostate MRI Segmentation [0.0]
多重化前立腺MRIは、T2パラメトリック(T2W)、見かけ拡散係数(ADC)、高b値拡散強調(HBV)配列を組み合わせる。実際には、拡散配列は、T2Wよりも、取得のばらつき、動き、アーティファクトの影響を受けることが多い。我々は、学習ゲーティングステージの前に、個別のモダリティ固有の符号化ストリームを維持するために、Modality-Isolated Gated Fusion (MIGF)を提案する。
論文参考訳（メタデータ） (2026-04-12T15:54:21Z)
Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus [0.0]
マルチエージェントLDM委員会は、異なるロールプロンプトの下で同じモデルを複製し、多数決によってアウトプットを集約する。それぞれのエージェントのチェーン・オブ・シークレットの論理を組み込んで、100 GSM8Kの質問に3つのQwen2.5-14Bのエージェントでペアの類似度を測る。 DALCは、埋め込み幾何学から多様性重量を計算するトレーニングフリーコンセンサスプロトコルであり、GSM8Kでは87%、トークンコストでは84%に達する。
論文参考訳（メタデータ） (2026-04-04T17:30:23Z)
Shower-Aware Dual-Stream Voxel Networks for Structural Defect Detection in Cosmic-Ray Muon Tomography [3.8929279518915862]
鉄筋コンクリート中の構造欠陥のボクセルレベルセグメンテーションのための3次元畳み込み構造であるSA-DSVNを提案する。散乱キネマティクス (9チャンネル) と二次電磁シャワー (40チャンネル) を, クロスアテンションにより融合した独立エンコーダストリームにより処理する。 60の独立にシミュレーションされた検証ボリュームでは、このモデルは96.3%のボクセル精度、欠陥ごとのDiceスコア0.59-0.81、ボリュームあたり10msの推論で100%のボリュームレベルの検出感度を達成している。
論文参考訳（メタデータ） (2026-04-04T14:04:39Z)
Fragile Reasoning: A Mechanistic Analysis of LLM Sensitivity to Meaning-Preserving Perturbations [2.7946918847372277]
大規模言語モデルは、数学的推論ベンチマークにおいて強い性能を示すが、意味を保存する表面摂動に対して驚くほど脆弱である。我々は677 GSM8K問題に対して,3つのオープンウェイトLLM(Mistral-7B,Llama-3-8B,Qwen2.5-7B)を意味論的に等価な変種と組み合わせて評価した。 3つのモデルはいずれも相当な解答フリップ率(28.8%-45.1%)を示し、数字のパラフレーズは名前スワップよりも一貫して破壊的である。
論文参考訳（メタデータ） (2026-04-02T05:30:20Z)
CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文参考訳（メタデータ） (2024-10-30T15:06:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。