論文の概要: Encoding Emotion Through Self-Supervised Eye Movement Reconstruction
- arxiv url: http://arxiv.org/abs/2601.12534v1
- Date: Sun, 18 Jan 2026 18:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.668458
- Title: Encoding Emotion Through Self-Supervised Eye Movement Reconstruction
- Title(参考訳): 自己監督眼球運動再構成による感情の符号化
- Authors: Marcus Ma, Jordan Prescott, Emily Zhou, Tiantian Feng, Kleanthis Avramidis, Gabor Mihaly Toth, Shrikanth Narayanan,
- Abstract要約: 自然主義的低解像度ビデオから感情表現のマルチモーダルマーカーを予測するために、眼球運動をどのように利用できるかを検討する。
言語モデルの事前学習法に着想を得て,自己監督型眼球運動再構成を用いた新しい視線検出モデルを開発した。
- 参考スコア(独自算出の注目度): 42.766380931240995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The relationship between emotional expression and eye movement is well-documented, with literature establishing gaze patterns are reliable indicators of emotion. However, most studies utilize specialized, high-resolution eye-tracking equipment, limiting the potential reach of findings. We investigate how eye movement can be used to predict multimodal markers of emotional expression from naturalistic, low-resolution videos. We utilize a collection of video interviews from the USC Shoah Foundation's Visual History Archive with Holocaust survivors as they recount their experiences in the Auschwitz concentration camp. Inspired by pretraining methods on language models, we develop a novel gaze detection model that uses self-supervised eye movement reconstruction that can effectively leverage unlabeled video. We use this model's encoder embeddings to fine-tune models on two downstream tasks related to emotional expression. The first is aligning eye movement with directional emotion estimates from speech. The second task is using eye gaze as a predictor of three momentary manifestations of emotional behaviors: laughing, crying/sobbing, and sighing. We find our new model is predictive of emotion outcomes and observe a positive correlation between pretraining performance and emotion processing performance for both experiments. We conclude self-supervised eye movement reconstruction is an effective method for encoding the affective signal they carry.
- Abstract(参考訳): 感情表現と眼球運動の関係はよく文書化されており、視線パターンを確立する文献は感情の信頼できる指標である。
しかし、ほとんどの研究は特殊で高解像度の視線追跡装置を利用しており、発見の潜在的な到達範囲を制限している。
自然主義的低解像度ビデオから感情表現のマルチモーダルマーカーを予測するために、眼球運動をどのように利用できるかを検討する。
我々は、アウシュヴィッツ強制収容所での経験を振り返り、ホロコーストの生存者と共に、USC Shoah FoundationのVisual History Archiveからの一連のビデオインタビューを利用する。
言語モデルにおける事前学習法に着想を得て,ラベルなし映像を効果的に活用できる自己監督型眼球運動再構成を用いた新しい視線検出モデルを開発した。
このモデルのエンコーダ埋め込みを用いて感情表現に関連する2つの下流タスクのモデルを微調整する。
1つ目は、音声からの方向感情推定と眼球運動を一致させることである。
第二の課題は、目視を3つの瞬間的な感情行動(笑う、泣く、笑う、笑う)の予測として使うことである。
我々の新しいモデルは感情の結果を予測し、両方の実験において事前学習性能と感情処理性能の正の相関を観察する。
自己監督型眼球運動再建は、それらが持つ感情信号の符号化に有効な方法であると結論付けている。
関連論文リスト
- Anatomy of a Feeling: Narrating Embodied Emotions via Large Vision-Language Models [1.8349570933241344]
身体的LVLM感情ナラティブ(ELENA)を生成するための枠組みを提案する。
これらは、感情的な反応に関与する健康な身体の部分に焦点を当てた、明確に定義された多層テキスト出力である。
我々は,我々の採用したフレームワークが,顔に写った画像の感情を効果的に認識し,微調整をせずにベースラインを上回り得ることを観察した。
論文 参考訳(メタデータ) (2025-09-23T21:34:57Z) - Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation [7.362433184546492]
コンピュータビジョンとマルチモーダル人工知能の交差点における重要な研究領域として、感情的トーキー生成が出現している。
本研究では,2つの課題に対処するThink-Before-Drawフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:33:46Z) - Saliency-guided Emotion Modeling: Predicting Viewer Reactions from Video Stimuli [0.0]
本稿では,2つの重要な特徴を抽出し,感情予測のための新しい唾液量に基づくアプローチを提案する。
HD2SサリエンシモデルとOpenFace顔動作単位分析を用いて,映像のサリエンシと視聴者の感情の関係について検討した。
論文 参考訳(メタデータ) (2025-05-25T14:52:36Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Dual-path Collaborative Generation Network for Emotional Video Captioning [33.230028098522254]
感情的ビデオキャプション(Emotional Video Captioning)は、ビデオで表現される本質的な感情で事実的コンテンツを記述することを目的とした、新たなタスクである。
既存の感情的ビデオキャプション手法は、最初は世界的視覚的感情的手がかりを認識し、ビデオ機能と組み合わせて感情的キャプション生成を導く。
本稿では、感情的なキャプションを生成しながら、動的に視覚的な感情的手がかりを知覚するデュアルパス協調生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-06T07:30:53Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Emotion Recognition From Gait Analyses: Current Research and Future
Directions [48.93172413752614]
歩行はウォーカーの感情に関する情報を伝える
様々な感情と歩行パターンのマッピングは、感情の自動認識のための新しい情報源を提供する。
歩行は遠隔観察可能で 模倣が困難で 被験者との協力も少ない
論文 参考訳(メタデータ) (2020-03-13T08:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。