論文の概要: Context-Aware Academic Emotion Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2507.00586v1
- Date: Tue, 01 Jul 2025 09:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.551754
- Title: Context-Aware Academic Emotion Dataset and Benchmark
- Title(参考訳): 文脈認識型学術感情データセットとベンチマーク
- Authors: Luming Zhao, Jingwen Xuan, Jiamin Lou, Yonghui Yu, Wenwu Yang,
- Abstract要約: 学術的感情分析は、学習過程における学生のエンゲージメントと認知状態を評価する上で重要な役割を担っている。
RAERは、多様な自然言語学習シナリオをキャプチャする最初のデータセットである。
CLIP-CAER (CLIP-based Context-aware Academic Emotion Recognition) を提案する。
- 参考スコア(独自算出の注目度): 0.41942958779358663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Academic emotion analysis plays a crucial role in evaluating students' engagement and cognitive states during the learning process. This paper addresses the challenge of automatically recognizing academic emotions through facial expressions in real-world learning environments. While significant progress has been made in facial expression recognition for basic emotions, academic emotion recognition remains underexplored, largely due to the scarcity of publicly available datasets. To bridge this gap, we introduce RAER, a novel dataset comprising approximately 2,700 video clips collected from around 140 students in diverse, natural learning contexts such as classrooms, libraries, laboratories, and dormitories, covering both classroom sessions and individual study. Each clip was annotated independently by approximately ten annotators using two distinct sets of academic emotion labels with varying granularity, enhancing annotation consistency and reliability. To our knowledge, RAER is the first dataset capturing diverse natural learning scenarios. Observing that annotators naturally consider context cues-such as whether a student is looking at a phone or reading a book-alongside facial expressions, we propose CLIP-CAER (CLIP-based Context-aware Academic Emotion Recognition). Our method utilizes learnable text prompts within the vision-language model CLIP to effectively integrate facial expression and context cues from videos. Experimental results demonstrate that CLIP-CAER substantially outperforms state-of-the-art video-based facial expression recognition methods, which are primarily designed for basic emotions, emphasizing the crucial role of context in accurately recognizing academic emotions. Project page: https://zgsfer.github.io/CAER
- Abstract(参考訳): 学術的感情分析は、学習過程における学生のエンゲージメントと認知状態を評価する上で重要な役割を担っている。
本稿では,実世界の学習環境における表情を通して,学術的感情を自動的に認識する課題について論じる。
基本的な感情に対する表情認識には大きな進歩があるが、学術的感情認識は、一般に利用可能なデータセットが不足しているため、未発見のままである。
このギャップを埋めるために,教室,図書館,研究室,寮などの自然学習環境において,約140人の学生から収集された約2,700本のビデオクリップからなる新しいデータセットであるRAERを紹介した。
各クリップは,2つの異なる学術的感情ラベルを用いて,約10のアノテータによって独立に注釈付けされ,アノテーションの一貫性と信頼性が向上した。
私たちの知る限り、RAERは多様な自然言語学習シナリオをキャプチャする最初のデータセットです。
そこで本研究では,携帯電話を観ているか,あるいは手話の表情を読んでいるかなど,アノテータが文脈的手がかりを自然に考慮していることから,CLIP-CAER(CLIPをベースとしたコンテキスト認識学術感情認識)を提案する。
本手法は,視覚言語モデルCLIP内の学習可能なテキストプロンプトを利用して,映像の表情と文脈を効果的に統合する。
実験結果から,CLIP-CAERは,基礎的感情に主眼を置き,学術的感情を正確に認識する上での文脈の重要性を強調し,最先端の映像ベースの表情認識法を著しく上回っていることが示された。
プロジェクトページ: https://zgsfer.github.io/CAER
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。
参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。
コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文 参考訳(メタデータ) (2025-04-08T04:34:38Z) - How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations [5.895694050664867]
本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。
本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。
本研究では,人間の心的表現の近似を効果的に生成することを示す。
論文 参考訳(メタデータ) (2024-09-04T09:32:40Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Exploring Emotion Expression Recognition in Older Adults Interacting
with a Virtual Coach [22.00225071959289]
EMPATHICプロジェクトは、健康な高齢者が健康を改善し、自立した高齢化を促進することができる感情表現型バーチャルコーチを設計することを目的としている。
本稿では,仮想コーチの感情表現認識モジュールの開発について概説し,データ収集,アノテーション設計,第1の方法論的アプローチについて述べる。
論文 参考訳(メタデータ) (2023-11-09T18:22:32Z) - A comparative study of emotion recognition methods using facial
expressions [0.4874780144224056]
本研究の目的は、3つのFERデータセット上で、FERタスクを改善するためのそれぞれ独自のアプローチを持つ3つの最先端ネットワークの性能を比較することである。
論文 参考訳(メタデータ) (2022-12-05T10:34:35Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - Language Models as Emotional Classifiers for Textual Conversations [3.04585143845864]
本稿では,会話中の感情を分類する新しい手法を提案する。
提案手法のバックボーンには,事前学習型言語モデル (LM) がある。
提案手法をIEMOCAPとFriendsデータセットに適用する。
論文 参考訳(メタデータ) (2020-08-27T20:04:30Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。