論文の概要: Facial-Expression-Aware Prompting for Empathetic LLM Tutoring
- arxiv url: http://arxiv.org/abs/2604.15336v1
- Date: Tue, 10 Mar 2026 08:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.840123
- Title: Facial-Expression-Aware Prompting for Empathetic LLM Tutoring
- Title(参考訳): 共感型LPMチューニングのための表情認識プロンプト
- Authors: Shuangquan Feng, Laura Fleig, Ruisen Tu, Philip Chi, Edmund Bu, Melinda Ozel, Junhua Ma, Teng Fei, Virginia R. de Sa,
- Abstract要約: 本研究では, 表情認識信号が, 即時統合による共感的学習反応を改善できるかどうかを考察する。
学生エージェントが、大規模な未ラベルの表情ビデオデータセットから多様な顔行動を示す、スケーラブルなシミュレートされた学習環境を構築する。
教師のバックボーンにまたがる960件のマルチターン会話において,5人のレイパーと全AI評価器の対対比較を行った。
- 参考スコア(独自算出の注目度): 1.4789832988674319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) enable increasingly capable tutoring-style conversational agents, yet effective tutoring requires sensitivity to learners' affective and cognitive states beyond text alone. Facial expressions provide immediate and practical cues of confusion, frustration, or engagement, but remain underexplored in LLM-driven tutoring. We investigate whether facial-expression-aware signals can improve empathetic tutoring responses through prompt-level integration, without end-to-end retraining. We build a scalable simulated tutoring environment where a student agent exhibits diverse facial behaviors from a large unlabeled facial expression video dataset, and compare four tutor variants: a text-only LLM baseline, a multimodal baseline using a random facial frame, and two Action Unit estimation model (AUM)-based methods that either inject textual AU descriptions or select a peak-expression frame for visual grounding. Across 960 multi-turn conversations spanning three tutor backbones (GPT-5.1, Claude Ops 4.5, and Gemini 2.5 Pro), we evaluate targeted pairwise comparisons with five human raters and an exhaustive AI evaluator. AU-based conditioning consistently improves empathetic responsiveness to facial expressions across all tutor backbones, while AUM-guided peak-frame selection outperforms random-frame visual input. Textual AU abstraction and peak-frame visual injection show model-dependent advantages. Control analyses show that this improvement does not come at the expense of worse pedagogical clarity or responsiveness to textual cues. Finally, AI-human agreement is highest on facial-expression-grounded empathy, supporting scalable AI evaluation for this dimension. Overall, our results show that lightweight, structured facial expression representations can meaningfully enhance empathy in LLM-based tutoring systems with minimal overhead.
- Abstract(参考訳): 大規模言語モデル(LLM)は、より有能な学習スタイルの会話エージェントを可能にするが、効果的な学習には、テキスト以外の学習者の感情的および認知的状態に対して感受性が必要である。
表情は、混乱、フラストレーション、エンゲージメントの即時的で実践的な手がかりを提供するが、LLM駆動のチュータリングでは未発見のままである。
本研究では, 表情認識信号が, 終末のトレーニングを伴わずに, 即時統合による共感的学習反応を改善することができるかどうかを検討する。
本研究では,テキストのみのLLMベースライン,ランダムな顔フレームを用いたマルチモーダルベースライン,およびテキストAU記述をインジェクトする2つのアクションユニット推定モデル(AUM)に基づく2つの方法,あるいは視覚的グラウンドのためのピーク表現フレームを選択する4つのチューターモデルを比較する。
教師のバックボーン3つ(GPT-5.1,Claude Ops 4.5,Gemini 2.5 Pro)にまたがる960件の多ターン会話において,5人のラッカーとAI評価器の対対比較を行った。
AUベースの条件付けは、すべての教師バックボーンにおける表情に対する共感応答性を一貫して改善する一方、AUM誘導のピークフレーム選択はランダムフレームの視覚入力よりも優れる。
テキストAU抽象化とピークフレームビジュアルインジェクションはモデルに依存した利点を示している。
制御分析により、この改善は教育的明確さの悪化やテキスト的手がかりに対する応答性の低下を犠牲にしないことが示された。
最後に、AIと人間の合意は、顔の表情に基づく共感が最も高く、この次元のスケーラブルなAI評価をサポートする。
以上の結果から,軽量で構造化された表情表現は,LLMベースの学習システムにおいて,最小限のオーバーヘッドで共感を高めることが示唆された。
関連論文リスト
- Personalized Cross-Modal Emotional Correlation Learning for Speech-Preserving Facial Expression Manipulation [63.90351637818903]
音声保存表情操作は、本来の音声に結びついた口の動きを変えることなく、人間の表現力を高めることを目的としている。
現在のVisual-Language Models (VLM)は、整列した視覚的特徴と意味的特徴を抽出し、将来的な監視の源となる。
VLMをベースとしたパーソナライズされたクロスモーダル感情相関学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-04-28T06:02:23Z) - Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling [2.8037951156321377]
本稿では,第10回ABAWチャレンジにおける表現課題に対するマルチモーダル感情認識フレームワークを提案する。
本フレームワークは,視覚および音声表現学習のための大規模事前学習モデルを構築し,それらを統合マルチモーダルアーキテクチャに統合する。
ABAW 10th EXPRベンチマークの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-12T14:20:29Z) - Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval [15.126709823382539]
本研究は、人物表現学習のためのコントラスト言語画像事前学習(CLIP)を推進している。
MLLMのコンテキスト内学習機能を活用した耐雑音性データ構築パイプラインを開発した。
我々はGA-DMSフレームワークを導入し、ノイズの多いテキストトークンを適応的にマスキングすることで、クロスモーダルアライメントを改善する。
論文 参考訳(メタデータ) (2025-09-11T03:06:22Z) - Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。
我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-06-26T05:28:57Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - FaceInsight: A Multimodal Large Language Model for Face Perception [69.06084304620026]
本研究では,顔の詳細な情報を提供する多目的顔認識大言語モデル (MLLM) を提案する。
本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化するために, 顔知識の視覚的・テキスト的アライメントを導入する。
3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはMLLMと比較した9つの性能を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-22T06:31:57Z) - Compound Expression Recognition via Large Vision-Language Models [9.401699207785015]
複合表現認識(CER)は、人間の感情を理解し、人間とコンピュータの相互作用を改善するために重要である。
これらの問題に対処するため、我々はLVLM(Large Vision-Language Models)を利用した新しいアプローチを提案する。
提案手法は,2段階の微調整プロセスを用いており,第1に,事前学習したLVLMは基本的表情に基づいて微調整を行い,基礎的パターンを確立する。
論文 参考訳(メタデータ) (2025-03-14T09:46:05Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - AU-Expression Knowledge Constrained Representation Learning for Facial
Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。
課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-12-29T03:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。