論文の概要: Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos
- arxiv url: http://arxiv.org/abs/2208.01954v1
- Date: Wed, 3 Aug 2022 10:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:48:07.564621
- Title: Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos
- Title(参考訳): ビデオにおける時間的感情定位のためのクロスモーダルコンセンサス付き拡張コンテキスト統合ネットワーク
- Authors: Juncheng Li, Junlin Xie, Linchao Zhu, Long Qian, Siliang Tang, Wenqiao
Zhang, Haochen Shi, Shengyu Zhang, Longhui Wei, Qi Tian, Yueting Zhuang
- Abstract要約: TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
- 参考スコア(独自算出の注目度): 128.70585652795637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding human emotions is a crucial ability for intelligent robots to
provide better human-robot interactions. The existing works are limited to
trimmed video-level emotion classification, failing to locate the temporal
window corresponding to the emotion. In this paper, we introduce a new task,
named Temporal Emotion Localization in videos~(TEL), which aims to detect human
emotions and localize their corresponding temporal boundaries in untrimmed
videos with aligned subtitles. TEL presents three unique challenges compared to
temporal action localization: 1) The emotions have extremely varied temporal
dynamics; 2) The emotion cues are embedded in both appearances and complex
plots; 3) The fine-grained temporal annotations are complicated and
labor-intensive. To address the first two challenges, we propose a novel
dilated context integrated network with a coarse-fine two-stream architecture.
The coarse stream captures varied temporal dynamics by modeling
multi-granularity temporal contexts. The fine stream achieves complex plots
understanding by reasoning the dependency between the multi-granularity
temporal contexts from the coarse stream and adaptively integrates them into
fine-grained video segment features. To address the third challenge, we
introduce a cross-modal consensus learning paradigm, which leverages the
inherent semantic consensus between the aligned video and subtitle to achieve
weakly-supervised learning. We contribute a new testing set with 3,000
manually-annotated temporal boundaries so that future research on the TEL
problem can be quantitatively evaluated. Extensive experiments show the
effectiveness of our approach on temporal emotion localization. The repository
of this work is at
https://github.com/YYJMJC/Temporal-Emotion-Localization-in-Videos.
- Abstract(参考訳): 人間の感情を理解することは、知的なロボットがより良い人間とロボットの相互作用を提供する重要な能力である。
既存の作品はトリミングされたビデオレベルの感情分類に限られており、感情に対応する時間的ウィンドウの特定に失敗している。
本稿では,人間の感情を検知し,それに対応する時間的境界をアライメントされた字幕付きビデオに局在化することを目的とした,ビデオ中の時間的感情局在(tel)という新しいタスクを提案する。
TELは、時間的行動局在と比較して3つのユニークな課題を提示する。
1)感情は時間的ダイナミクスが極めて多様である。
2) 感情の手がかりは,外観及び複雑なプロットの両方に埋め込まれている。
3) きめ細かい時間的アノテーションは複雑かつ労働集約的である。
最初の2つの課題に対処するために、粗い2ストリームアーキテクチャを持つ新しい拡張コンテキスト統合ネットワークを提案する。
粗い流れは、多面的な時間的文脈をモデル化することで、様々な時間的ダイナミクスをキャプチャする。
微細ストリームは、粗いストリームから多粒度時間文脈間の依存性を推論して複雑なプロット理解を行い、それらを微粒なビデオセグメントに適応的に統合する。
第3の課題に対処するために,ビデオとサブタイトル間のセマンティックコンセンサスを利用して,弱教師付き学習を実現するクロスモーダルコンセンサス学習パラダイムを導入する。
我々は,TEL問題に関する今後の研究を定量的に評価できるように,3000個の手動アノテート時間境界を持つ新しいテストセットを寄贈する。
広範囲な実験により,時間的感情の定位に対するアプローチの有効性が示された。
この研究のリポジトリはhttps://github.com/YYJMJC/Temporal-Emotion-Localization-in-Videosにある。
関連論文リスト
- Dual-path Collaborative Generation Network for Emotional Video Captioning [33.230028098522254]
感情的ビデオキャプション(Emotional Video Captioning)は、ビデオで表現される本質的な感情で事実的コンテンツを記述することを目的とした、新たなタスクである。
既存の感情的ビデオキャプション手法は、最初は世界的視覚的感情的手がかりを認識し、ビデオ機能と組み合わせて感情的キャプション生成を導く。
本稿では、感情的なキャプションを生成しながら、動的に視覚的な感情的手がかりを知覚するデュアルパス協調生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-06T07:30:53Z) - MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。
本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文 参考訳(メタデータ) (2024-07-23T15:05:55Z) - HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。