論文の概要: Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and
Benchmark
- arxiv url: http://arxiv.org/abs/2109.11243v1
- Date: Thu, 23 Sep 2021 09:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:01:41.949216
- Title: Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and
Benchmark
- Title(参考訳): ドラマ映像における感情的関係認識:データセットとベンチマーク
- Authors: Xun Gao, Yin Zhao, Jie Zhang, Longjun Cai
- Abstract要約: Pairwise Emotional Relationship Recognition (PERR)タスクは、与えられたビデオクリップ内の2つの対話的キャラクター間の感情的関係を認識することを目的としている。
InTeractiOn (ERATO) というドラマや映画に基づく新たなデータセットを開発した。
そこで本研究では,Synchronous Modal-Temporal Attention (SMTA) ユニットで構成されるベースラインモデルを提案する。
- 参考スコア(独自算出の注目度): 10.257166535491113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing the emotional state of people is a basic but challenging task in
video understanding. In this paper, we propose a new task in this field, named
Pairwise Emotional Relationship Recognition (PERR). This task aims to recognize
the emotional relationship between the two interactive characters in a given
video clip. It is different from the traditional emotion and social relation
recognition task. Varieties of information, consisting of character appearance,
behaviors, facial emotions, dialogues, background music as well as subtitles
contribute differently to the final results, which makes the task more
challenging but meaningful in developing more advanced multi-modal models. To
facilitate the task, we develop a new dataset called Emotional RelAtionship of
inTeractiOn (ERATO) based on dramas and movies. ERATO is a large-scale
multi-modal dataset for PERR task, which has 31,182 video clips, lasting about
203 video hours. Different from the existing datasets, ERATO contains
interaction-centric videos with multi-shots, varied video length, and multiple
modalities including visual, audio and text. As a minor contribution, we
propose a baseline model composed of Synchronous Modal-Temporal Attention
(SMTA) unit to fuse the multi-modal information for the PERR task. In contrast
to other prevailing attention mechanisms, our proposed SMTA can steadily
improve the performance by about 1\%. We expect the ERATO as well as our
proposed SMTA to open up a new way for PERR task in video understanding and
further improve the research of multi-modal fusion methodology.
- Abstract(参考訳): 人々の感情状態を認識することは、ビデオ理解においてベーシックだが挑戦的なタスクである。
本稿では,この分野における新しい課題として,ペアワイズ感情関係認識(perr)を提案する。
本課題は,ビデオクリップ中の2つの対話的キャラクタ間の感情的関係を認識することである。
これは伝統的な感情や社会的関係認識タスクとは異なる。
キャラクターの外観、行動、顔の感情、対話、背景音楽、およびサブタイトルからなる様々な情報が最終結果に異なる形で寄与するので、より困難だがより高度なマルチモーダルモデルを開発する上で有意義なタスクとなる。
そこで本研究では,演劇や映画に基づく対話の感情的関係(erato)と呼ばれる新しいデータセットを開発した。
ERATOは、PERRタスク用の大規模マルチモーダルデータセットで、31,182本のビデオクリップを持ち、約203時間持続する。
既存のデータセットとは異なり、eratoにはマルチショット、さまざまなビデオ長、ビジュアル、オーディオ、テキストを含む複数のモダリティを備えたインタラクション中心のビデオが含まれている。
そこで本研究では,Synchronous Modal-Temporal Attention (SMTA) ユニットで構成されるベースラインモデルを提案する。
他の一般的な注意機構とは対照的に,提案するSMTAでは,約1倍の性能向上が期待できる。
ERATOと提案したSMTAは,映像理解におけるPERRタスクの新しい手法を開拓し,マルチモーダル融合手法の研究をさらに改善することを期待している。
関連論文リスト
- Mamba-Enhanced Text-Audio-Video Alignment Network for Emotion Recognition in Conversations [15.748798247815298]
本稿では,会話における感情認識のための新しいマンバエンハンステキスト・ビデオアライメントネットワーク(MaTAV)を提案する。
MaTAVは、異なるモダリティ間の整合性を確保するためにユニモーダル機能を整列させ、コンテキストのマルチモーダル情報をよりよくキャプチャするために長い入力シーケンスを処理するという利点がある。
論文 参考訳(メタデータ) (2024-09-08T23:09:22Z) - VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。
実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。
我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文 参考訳(メタデータ) (2024-07-11T03:00:26Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。