論文の概要: Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos
- arxiv url: http://arxiv.org/abs/2208.01954v1
- Date: Wed, 3 Aug 2022 10:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:48:07.564621
- Title: Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos
- Title(参考訳): ビデオにおける時間的感情定位のためのクロスモーダルコンセンサス付き拡張コンテキスト統合ネットワーク
- Authors: Juncheng Li, Junlin Xie, Linchao Zhu, Long Qian, Siliang Tang, Wenqiao
Zhang, Haochen Shi, Shengyu Zhang, Longhui Wei, Qi Tian, Yueting Zhuang
- Abstract要約: TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
- 参考スコア(独自算出の注目度): 128.70585652795637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding human emotions is a crucial ability for intelligent robots to
provide better human-robot interactions. The existing works are limited to
trimmed video-level emotion classification, failing to locate the temporal
window corresponding to the emotion. In this paper, we introduce a new task,
named Temporal Emotion Localization in videos~(TEL), which aims to detect human
emotions and localize their corresponding temporal boundaries in untrimmed
videos with aligned subtitles. TEL presents three unique challenges compared to
temporal action localization: 1) The emotions have extremely varied temporal
dynamics; 2) The emotion cues are embedded in both appearances and complex
plots; 3) The fine-grained temporal annotations are complicated and
labor-intensive. To address the first two challenges, we propose a novel
dilated context integrated network with a coarse-fine two-stream architecture.
The coarse stream captures varied temporal dynamics by modeling
multi-granularity temporal contexts. The fine stream achieves complex plots
understanding by reasoning the dependency between the multi-granularity
temporal contexts from the coarse stream and adaptively integrates them into
fine-grained video segment features. To address the third challenge, we
introduce a cross-modal consensus learning paradigm, which leverages the
inherent semantic consensus between the aligned video and subtitle to achieve
weakly-supervised learning. We contribute a new testing set with 3,000
manually-annotated temporal boundaries so that future research on the TEL
problem can be quantitatively evaluated. Extensive experiments show the
effectiveness of our approach on temporal emotion localization. The repository
of this work is at
https://github.com/YYJMJC/Temporal-Emotion-Localization-in-Videos.
- Abstract(参考訳): 人間の感情を理解することは、知的なロボットがより良い人間とロボットの相互作用を提供する重要な能力である。
既存の作品はトリミングされたビデオレベルの感情分類に限られており、感情に対応する時間的ウィンドウの特定に失敗している。
本稿では,人間の感情を検知し,それに対応する時間的境界をアライメントされた字幕付きビデオに局在化することを目的とした,ビデオ中の時間的感情局在(tel)という新しいタスクを提案する。
TELは、時間的行動局在と比較して3つのユニークな課題を提示する。
1)感情は時間的ダイナミクスが極めて多様である。
2) 感情の手がかりは,外観及び複雑なプロットの両方に埋め込まれている。
3) きめ細かい時間的アノテーションは複雑かつ労働集約的である。
最初の2つの課題に対処するために、粗い2ストリームアーキテクチャを持つ新しい拡張コンテキスト統合ネットワークを提案する。
粗い流れは、多面的な時間的文脈をモデル化することで、様々な時間的ダイナミクスをキャプチャする。
微細ストリームは、粗いストリームから多粒度時間文脈間の依存性を推論して複雑なプロット理解を行い、それらを微粒なビデオセグメントに適応的に統合する。
第3の課題に対処するために,ビデオとサブタイトル間のセマンティックコンセンサスを利用して,弱教師付き学習を実現するクロスモーダルコンセンサス学習パラダイムを導入する。
我々は,TEL問題に関する今後の研究を定量的に評価できるように,3000個の手動アノテート時間境界を持つ新しいテストセットを寄贈する。
広範囲な実験により,時間的感情の定位に対するアプローチの有効性が示された。
この研究のリポジトリはhttps://github.com/YYJMJC/Temporal-Emotion-Localization-in-Videosにある。
関連論文リスト
- Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach
for Speech Emotion Recognition [23.13759265661777]
音声感情認識(SER)は、人間と機械の相互作用を改善する上で重要な役割を果たす。
テンポラル・アウェア bI- Multi-scale Network (TIM-Net) と呼ばれるSERのための新しい時間的感情モデル手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T13:35:01Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。