論文の概要: Watching Movies Like a Human: Egocentric Emotion Understanding for Embodied Companions
- arxiv url: http://arxiv.org/abs/2604.15823v1
- Date: Fri, 17 Apr 2026 08:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.818695
- Title: Watching Movies Like a Human: Egocentric Emotion Understanding for Embodied Companions
- Title(参考訳): 映画を人間のように見る:エンボディード・コンパニオンのためのエゴセントリックな感情理解
- Authors: Ze Dong, Hao Shi, Zejia Gao, Zhonghua Yi, Kaiwei Wang, Lin Wang,
- Abstract要約: エンボディード・ロボティクス・エージェントは、ネイティブ・シネマティック・フィルムではなく、エゴセントリックなスクリーン・ビュー・インタフェースを通じて映画を知覚することが多い。
EgoScreen-Emotion (ESE) は、画面中心の映画感情理解のための最初のベンチマークデータセットである。
ESEには、コントロールされたエゴセントリックなスクリーンビュー条件下で撮影された224本の映画トレーラーが含まれており、複数のラッカーがアノテートした28,667個のキーフレームを生成する。
- 参考スコア(独自算出の注目度): 22.0870402542635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied robotic agents often perceive movies through an egocentric screen-view interface rather than native cinematic footage, introducing domain shifts such as viewpoint distortion, scale variation, illumination changes, and environmental interference. However, existing research on movie emotion understanding is almost exclusively conducted on cinematic footage, limiting cross-domain generalization to real-world viewing scenarios. To bridge this gap, we introduce EgoScreen-Emotion (ESE), the first benchmark dataset for egocentric screen-view movie emotion understanding. ESE contains 224 movie trailers captured under controlled egocentric screen-view conditions, producing 28,667 temporally aligned key-frames annotated by multiple raters with a confidence-aware multi-label protocol to address emotional ambiguity. We further build a multimodal long-context emotion reasoning framework that models temporal visual evidence, narrative summaries, compressed historical context, and audio cues. Cross-domain experiments reveal a severe domain gap: models trained on cinematic footage drop from 27.99 to 16.69 Macro-F1 when evaluated on realistic egocentric screen-view observations. Training on ESE substantially improves robustness under realistic viewing conditions. Our approach achieves competitive performance compared with strong closed-source multimodal models, highlighting the importance of domain-specific data and long-context multimodal reasoning.
- Abstract(参考訳): ロボットエージェントは、視点の歪み、スケールの変化、照明の変化、環境干渉といったドメインシフトを導入し、ネイティブな映像ではなく、エゴセントリックなスクリーンビューインターフェースを通じて映画を知覚することが多い。
しかし、映画感情理解に関する既存の研究はほとんどが撮影映像で行われており、クロスドメインの一般化は現実の視聴シナリオに限られている。
このギャップを埋めるために、EgoScreen-Emotion (ESE)を導入した。
ESEには、コントロールされたエゴセントリックなスクリーンビュー条件下で撮影された224の映画トレーラーが含まれており、感情のあいまいさに対処する自信に敏感なマルチラベルプロトコルを備えた複数のラッカーによって、時間的にアタッチメントされたキーフレームが28,667個作成されている。
さらに、時間的視覚的エビデンス、物語要約、圧縮された歴史的文脈、オーディオキューをモデル化するマルチモーダルな長文感情推論フレームワークを構築した。
27.99 から 16.69 のマクロ-F1 の撮影映像で訓練されたモデルは、現実的なエゴセントリックなスクリーンビューの観察で評価される。
ESEのトレーニングは、現実的な視聴条件下でのロバスト性を大幅に改善する。
提案手法は,強力なクローズドソースマルチモーダルモデルと競合する性能を示し,ドメイン固有データと長文マルチモーダル推論の重要性を強調した。
関連論文リスト
- Learning Situated Awareness in the Real World [63.75211123289058]
SAW-Benchは、実世界のビデオを用いて自我中心的な位置認識を評価するための新しいベンチマークである。
6つの異なる認識タスクでモデルのオブザーバ中心の理解を探索する。
我々の総合評価では、最高のMFMであるGemini 3 Flashでさえ、人間モデルのパフォーマンスギャップは37.66%である。
論文 参考訳(メタデータ) (2026-02-18T18:22:52Z) - Know-Show: Benchmarking Video-Language Models on Spatio-Temporal Grounded Reasoning [18.15310805625469]
マルチモーダルビデオ言語モデル(Video-LMs)を評価するための新しいベンチマークであるKnow-Showを提案する。
Know-Showは、空間的(人、物、人、物)と時間的次元の5つのシナリオからなる単一の評価枠組み内での推論と局所化を統一する。
Charades、Action Genome、Ego4Dから2.5万の人間の言語質問で作られたこのベンチマークは、現在のビデオ-LMと人間の推論の間に大きなギャップを露呈している。
このギャップを埋めるために、我々は、きめ細かい接地でビデオ-LMを増強するトレーニング不要なプラグインであるGRAMを提案する。
論文 参考訳(メタデータ) (2025-12-05T08:15:49Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - DIV-FF: Dynamic Image-Video Feature Fields For Environment Understanding in Egocentric Videos [3.2771631221674333]
我々は、エゴセントリックシーンを永続的、動的、アクターベースのコンポーネントに分解するフレームワークであるDynamic Image-Video Feature Fields (DIV FF)を紹介する。
我々のモデルは、詳細なセグメンテーションを可能にし、余裕を捉え、周囲を理解し、時間とともに一貫した理解を維持する。
論文 参考訳(メタデータ) (2025-03-11T11:55:04Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z) - AttendAffectNet: Self-Attention based Networks for Predicting Affective
Responses from Movies [16.45955178108593]
本研究では、映画から感情予測のための自己注意型ネットワークの様々なバリエーションを提案し、これをAttendAffectNetと呼ぶ。
音声とビデオの両方を考慮し、感情予測のための抽出特徴に自己認識機構を新しい方法で適用することにより、複数のモーダル間の関係を取り入れる。
以上の結果から,時間領域よりも視覚的特徴に自己注意機構を適用する方が感情予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-10-21T05:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。