論文の概要: Edu-EmotionNet: Cross-Modality Attention Alignment with Temporal Feedback Loops
- arxiv url: http://arxiv.org/abs/2510.08802v1
- Date: Thu, 09 Oct 2025 20:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.709992
- Title: Edu-EmotionNet: Cross-Modality Attention Alignment with Temporal Feedback Loops
- Title(参考訳): Edu-EmotionNet: 時間フィードバックループによるモーダルアテンションアライメント
- Authors: S M Rafiuddin,
- Abstract要約: Edu-EmotionNetは、時間的感情の進化と、ロバストな感情認識のためのモダリティ信頼性を共同でモデル化する新しいフレームワークである。
EmotionNetは最先端のパフォーマンスを実現し、欠落や騒々しいモダリティに対して強い堅牢性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding learner emotions in online education is critical for improving engagement and personalized instruction. While prior work in emotion recognition has explored multimodal fusion and temporal modeling, existing methods often rely on static fusion strategies and assume that modality inputs are consistently reliable, which is rarely the case in real-world learning environments. We introduce Edu-EmotionNet, a novel framework that jointly models temporal emotion evolution and modality reliability for robust affect recognition. Our model incorporates three key components: a Cross-Modality Attention Alignment (CMAA) module for dynamic cross-modal context sharing, a Modality Importance Estimator (MIE) that assigns confidence-based weights to each modality at every time step, and a Temporal Feedback Loop (TFL) that leverages previous predictions to enforce temporal consistency. Evaluated on educational subsets of IEMOCAP and MOSEI, re-annotated for confusion, curiosity, boredom, and frustration, Edu-EmotionNet achieves state-of-the-art performance and demonstrates strong robustness to missing or noisy modalities. Visualizations confirm its ability to capture emotional transitions and adaptively prioritize reliable signals, making it well suited for deployment in real-time learning systems
- Abstract(参考訳): オンライン教育における学習者の感情を理解することは、エンゲージメントとパーソナライズされた指導を改善するために重要である。
感情認識における先行研究は、マルチモーダル融合と時間的モデリングを探求してきたが、既存の手法は静的融合戦略に頼り、モダリティ入力が一貫した信頼性を持つと仮定することが多い。
Edu-EmotionNetは、時間的感情の進化と、ロバストな感情認識のためのモダリティ信頼性を共同でモデル化する新しいフレームワークである。
本モデルでは,動的クロスモーダルコンテキスト共有のためのCMAAモジュール,各時間ステップ毎に信頼度に基づく重み付けを割り当てるMIE(Modality Importance Estimator),時間的一貫性を強制する時間的フィードバックループ(TFL)の3つの重要なコンポーネントを組み込んでいる。
IEMOCAPとMOSEIの教育的サブセットを評価し、混乱、好奇心、退屈、フラストレーションのために再注釈されたEdu-EmotionNetは最先端のパフォーマンスを達成し、欠落や騒々しいモダリティに対して強い堅牢性を示す。
可視化は、感情の変化を捉え、信頼できる信号を適応的に優先順位付けする能力を確認し、リアルタイム学習システムへの展開に適している。
関連論文リスト
- Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - Sync-TVA: A Graph-Attention Framework for Multimodal Emotion Recognition with Cross-Modal Fusion [7.977094562068075]
そこで我々は,モダリティ特異的な動的拡張と構造的クロスモーダル融合を特徴とする,エンドツーエンドのグラフアテンションフレームワークSync-TVAを提案する。
本設計では,モダリティごとに動的拡張モジュールを組み込んで,テキスト,音声,視覚的特徴間の意味関係をモデル化する異質なクロスモーダルグラフを構築している。
MELDとIEMOCAPの実験では、特にクラス不均衡条件下では、精度と重み付けされたF1スコアの両方において、最先端モデルに対する一貫した改善が示されている。
論文 参考訳(メタデータ) (2025-07-29T00:03:28Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Test-Time Adaptation for Combating Missing Modalities in Egocentric Videos [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。