論文の概要: Infer Induced Sentiment of Comment Response to Video: A New Task, Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2407.06115v1
- Date: Wed, 15 May 2024 10:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 14:19:18.445328
- Title: Infer Induced Sentiment of Comment Response to Video: A New Task, Dataset and Baseline
- Title(参考訳): ビデオに対するコメント応答の推論による知覚:新しいタスク,データセット,ベースライン
- Authors: Qi Jia, Baoyu Fan, Cong Xu, Lu Liu, Liang Jin, Guoguang Du, Zhenhua Guo, Yaqian Zhao, Xuanjing Huang, Rengang Li,
- Abstract要約: 既存のビデオマルチモーダル感情分析は、主にビデオ内の人々の感情表現に焦点を当てているが、ビデオを見ながら視聴者の感情を無視することが多い。
マイクロビデオに対するコメント応答に応じて、意見や感情を推測するためのマルチモーダル感性分析(MSA-CRVI)を提案する。
107,267のコメントと8,210のマイクロビデオを含み、68.83時間である。
- 参考スコア(独自算出の注目度): 30.379212611361893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing video multi-modal sentiment analysis mainly focuses on the sentiment expression of people within the video, yet often neglects the induced sentiment of viewers while watching the videos. Induced sentiment of viewers is essential for inferring the public response to videos, has broad application in analyzing public societal sentiment, effectiveness of advertising and other areas. The micro videos and the related comments provide a rich application scenario for viewers induced sentiment analysis. In light of this, we introduces a novel research task, Multi-modal Sentiment Analysis for Comment Response of Video Induced(MSA-CRVI), aims to inferring opinions and emotions according to the comments response to micro video. Meanwhile, we manually annotate a dataset named Comment Sentiment toward to Micro Video (CSMV) to support this research. It is the largest video multi-modal sentiment dataset in terms of scale and video duration to our knowledge, containing 107,267 comments and 8,210 micro videos with a video duration of 68.83 hours. To infer the induced sentiment of comment should leverage the video content, so we propose the Video Content-aware Comment Sentiment Analysis (VC-CSA) method as baseline to address the challenges inherent in this new task. Extensive experiments demonstrate that our method is showing significant improvements over other established baselines.
- Abstract(参考訳): 既存のビデオマルチモーダル感情分析は、主にビデオ内の人々の感情表現に焦点を当てているが、ビデオを見ながら視聴者の感情を無視することが多い。
視聴者のインスパイアされた感情は、ビデオに対する公衆の反応を推測するために不可欠であり、公共の社会的感情、広告の効果などを分析するのに広く応用されている。
マイクロビデオとその関連コメントは、視聴者による感情分析のためのリッチなアプリケーションシナリオを提供する。
そこで我々は,ビデオのコメント応答に対するマルチモーダル感性分析(MSA-CRVI)という新たな研究課題を紹介し,マイクロビデオに対するコメント応答に応じて意見や感情を推測することを目的とした。
一方,この研究を支援するために,コメントセンティメントというデータセットをCSMV(Micro Video)に手動でアノテートする。
107,267のコメントと8,210のマイクロビデオを含み、68.83時間である。
そこで本研究では,ビデオコンテンツに内在する課題に対処するためのベースラインとして,ビデオコンテンツ認識コメントセンチメント分析(VC-CSA)手法を提案する。
大規模な実験により,本手法は他の確立されたベースラインよりも大幅に改善されていることが示された。
関連論文リスト
- YTCommentQA: Video Question Answerability in Instructional Videos [22.673000779017595]
本稿では,YouTubeから自然生成された質問を含むYTCommentQAデータセットを提案する。
データセットは、その回答可能性と、視覚的、スクリプト、あるいはその両方に答えるために必要なモダリティによって分類される。
論文 参考訳(メタデータ) (2024-01-30T14:18:37Z) - Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。
本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文 参考訳(メタデータ) (2024-01-03T16:38:56Z) - Video Summarization Overview [25.465707307283434]
ビデオ要約は、ビデオのコンパクトな要約を作成することにより、ビデオコンテンツを素早く把握することを容易にする。
本調査は, ディープラーニング技術を活用した最近のアプローチと同様に, 早期研究についても取り上げる。
論文 参考訳(メタデータ) (2022-10-21T03:29:31Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - NEWSKVQA: Knowledge-Aware News Video Question Answering [5.720640816755851]
我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。
我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。
本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
論文 参考訳(メタデータ) (2022-02-08T17:31:31Z) - A Multimodal Sentiment Dataset for Video Recommendation [21.44500591776281]
バイドゥビデオセンティメントデータセット(DuVideoSenti)というマルチモーダル感情分析データセットを提案する。
DuVideoSentiはBaiduに表示される5,630本のビデオで構成されている。
各ビデオには感傷的なスタイルのラベルが手動でアノテートされ、ビデオの実際の感覚が記述される。
論文 参考訳(メタデータ) (2021-09-17T03:10:42Z) - The Potential of Using Vision Videos for CrowdRE: Video Comments as a
Source of Feedback [0.8594140167290097]
我々は、CrowdREで視覚ビデオを使用する可能性を分析し、評価する。
ケーススタディでは、YouTubeのヴィジュアルビデオに対する4505のコメントを分析した。
CrowdREの視覚ビデオの利用は大きな可能性を秘めていると結論付けている。
論文 参考訳(メタデータ) (2021-08-04T14:18:27Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。