論文の概要: A Multimodal Sentiment Dataset for Video Recommendation
- arxiv url: http://arxiv.org/abs/2109.08333v1
- Date: Fri, 17 Sep 2021 03:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 23:47:33.206502
- Title: A Multimodal Sentiment Dataset for Video Recommendation
- Title(参考訳): ビデオレコメンデーションのためのマルチモーダル感性データセット
- Authors: Hongxuan Tang, Hao Liu, Xinyan Xiao, Hua Wu
- Abstract要約: バイドゥビデオセンティメントデータセット(DuVideoSenti)というマルチモーダル感情分析データセットを提案する。
DuVideoSentiはBaiduに表示される5,630本のビデオで構成されている。
各ビデオには感傷的なスタイルのラベルが手動でアノテートされ、ビデオの実際の感覚が記述される。
- 参考スコア(独自算出の注目度): 21.44500591776281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, multimodal sentiment analysis has seen remarkable advance and a lot
of datasets are proposed for its development. In general, current multimodal
sentiment analysis datasets usually follow the traditional system of
sentiment/emotion, such as positive, negative and so on. However, when applied
in the scenario of video recommendation, the traditional sentiment/emotion
system is hard to be leveraged to represent different contents of videos in the
perspective of visual senses and language understanding. Based on this, we
propose a multimodal sentiment analysis dataset, named baiDu Video Sentiment
dataset (DuVideoSenti), and introduce a new sentiment system which is designed
to describe the sentimental style of a video on recommendation scenery.
Specifically, DuVideoSenti consists of 5,630 videos which displayed on Baidu,
each video is manually annotated with a sentimental style label which describes
the user's real feeling of a video. Furthermore, we propose UNIMO as our
baseline for DuVideoSenti. Experimental results show that DuVideoSenti brings
new challenges to multimodal sentiment analysis, and could be used as a new
benchmark for evaluating approaches designed for video understanding and
multimodal fusion. We also expect our proposed DuVideoSenti could further
improve the development of multimodal sentiment analysis and its application to
video recommendations.
- Abstract(参考訳): 近年,マルチモーダル感情分析が目覚ましい進歩を遂げており,その開発に多くのデータセットが提案されている。
一般に、現在のマルチモーダル感情分析データセットは、通常、ポジティブ、ネガティブなど、伝統的な感情/感情のシステムに従う。
しかし,映像レコメンデーションのシナリオに適用した場合,視覚感覚や言語理解の観点から映像の異なるコンテンツを表現するために,従来の感情・感情システムを活用することは困難である。
そこで本稿では,DuVideoSenti と呼ばれるマルチモーダル感情分析データセットを提案するとともに,レコメンデーションシーンにおける映像の感情スタイルを記述した新たな感情システムを提案する。
具体的には、duvideosentiはbaiduに表示された5,630本のビデオからなり、各ビデオにはユーザのリアルなビデオ感覚を記述した感傷的なスタイルラベルが手作業で注釈付けされる。
さらに,UNIMOをDuVideoSentiのベースラインとして提案する。
実験の結果、duvideosentiはマルチモーダル感情分析に新たな課題をもたらし、ビデオ理解とマルチモーダル融合のためのアプローチを評価するための新しいベンチマークとして使用できることが示された。
また,提案するduvideosentiは,マルチモーダル感情分析の開発とビデオレコメンデーションへの応用をさらに改善することを期待している。
関連論文リスト
- Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。
VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。
提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文 参考訳(メタデータ) (2024-11-05T22:14:35Z) - Infer Induced Sentiment of Comment Response to Video: A New Task, Dataset and Baseline [30.379212611361893]
既存のビデオマルチモーダル感情分析は、主にビデオ内の人々の感情表現に焦点を当てているが、ビデオを見ながら視聴者の感情を無視することが多い。
マイクロビデオに対するコメント応答に応じて、意見や感情を推測するためのマルチモーダル感性分析(MSA-CRVI)を提案する。
107,267のコメントと8,210のマイクロビデオを含み、68.83時間である。
論文 参考訳(メタデータ) (2024-05-15T10:24:54Z) - Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。
本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文 参考訳(メタデータ) (2024-01-03T16:38:56Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - ChatVideo: A Tracklet-centric Multimodal and Versatile Video
Understanding System [119.51012668709502]
マルチモーダル・多目的ビデオ理解のためのビジョンを提示し,プロトタイプシステム,システムを提案する。
本システムは,トラックレットを基本映像単位として扱う,トラックレット中心のパラダイムに基づいて構築されている。
検出されたすべてのトラックレットはデータベースに格納され、データベースマネージャを介してユーザと対話する。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - 3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social
Media Short Videos [72.69052180249598]
ソーシャルメディアプラットフォームであるMojから抽出した多言語・多言語・多言語・多言語・多言語・多言語・専門的な短いビデオのデータセットである3MASSIVを提示する。
3MASSIVは、11言語で50Kのショートビデオ(平均20秒)と100Kの未ラベルビデオで構成されている。
本稿では,3MASSIVにおけるソーシャルメディアの内容がどのように動的かつ時間的であり,意味理解タスクや言語間分析に利用することができるかを示す。
論文 参考訳(メタデータ) (2022-03-28T02:47:01Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。