論文の概要: Enhancing Multimodal Affective Analysis with Learned Live Comment Features
- arxiv url: http://arxiv.org/abs/2410.16407v1
- Date: Mon, 21 Oct 2024 18:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:03.933725
- Title: Enhancing Multimodal Affective Analysis with Learned Live Comment Features
- Title(参考訳): 学習したライブコメント機能によるマルチモーダル感情分析の強化
- Authors: Zhaoyuan Deng, Amith Ananthram, Kathleen McKeown,
- Abstract要約: ライブコメント(ライブコメント、Danmaku)は、ビデオコンテンツと同期されたユーザー生成メッセージである。
まず、英語と中国語のビデオのライブコメントを含むLive Comment for Affective Analysisデータセットを構築した。
次に、コントラスト学習を用いてビデオエンコーダを訓練し、マルチモーダルな感情コンテンツ分析の強化のための合成ライブコメント機能を生成する。
- 参考スコア(独自算出の注目度): 12.437191675553423
- License:
- Abstract: Live comments, also known as Danmaku, are user-generated messages that are synchronized with video content. These comments overlay directly onto streaming videos, capturing viewer emotions and reactions in real-time. While prior work has leveraged live comments in affective analysis, its use has been limited due to the relative rarity of live comments across different video platforms. To address this, we first construct the Live Comment for Affective Analysis (LCAffect) dataset which contains live comments for English and Chinese videos spanning diverse genres that elicit a wide spectrum of emotions. Then, using this dataset, we use contrastive learning to train a video encoder to produce synthetic live comment features for enhanced multimodal affective content analysis. Through comprehensive experimentation on a wide range of affective analysis tasks (sentiment, emotion recognition, and sarcasm detection) in both English and Chinese, we demonstrate that these synthetic live comment features significantly improve performance over state-of-the-art methods.
- Abstract(参考訳): ライブコメント(ライブコメント、Danmaku)は、ビデオコンテンツと同期されたユーザー生成メッセージである。
これらのコメントはストリーミングビデオに直接オーバーレイされ、視聴者の感情や反応をリアルタイムでキャプチャする。
以前の作業ではライブコメントを感情分析に利用していたが、さまざまなビデオプラットフォームでライブコメントが比較的高いため、使用は制限されている。
そこで我々はまず,多種多様なジャンルにまたがる英語と中国語のビデオのライブコメントを含むLCAffectデータセットを構築した。
そして、このデータセットを用いて、コントラスト学習を用いてビデオエンコーダを訓練し、マルチモーダルな感情コンテンツ分析の強化のための合成ライブコメント機能を生成する。
英語と中国語の両方における感情分析タスク(感性、感情認識、皮肉検出)の包括的実験を通じて、これらの合成ライブコメント機能により、最先端の手法よりもパフォーマンスが著しく向上することが実証された。
関連論文リスト
- HOTVCOM: Generating Buzzworthy Comments for Videos [49.39846630199698]
この研究は、中国最大のビデオコンテンツデータセットであるtextscHotVComを紹介し、94万の多様なビデオと1億1700万のコメントからなる。
また、中国語のビデオデータセット上で、視覚的、聴覚的、テキスト的データを相乗的に統合し、影響力のあるホットコンテンツを生成するtexttComHeatフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T16:45:13Z) - NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting [30.96049241998733]
感性指向型トランスフォーマーベース変分自動符号化(So-TVAE)ネットワークを提案し,複数の感情と複数の意味を持つ多様なビデオコメントを生成する。
具体的には、感情指向の多様性エンコーダは、VAEとランダムマスク機構をエレガントに組み合わせて、感情指導の下で意味的な多様性を実現する。
本稿では,データ不均衡に起因する感情サンプルの欠落の問題を軽減するため,バッチアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-19T10:43:25Z) - LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts [8.070778830276275]
我々は,ライブコメント技術の開発を容易にするために,大規模音声・視覚多モーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
本稿では,映像中の時間的・空間的事象に対応するライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
論文 参考訳(メタデータ) (2023-10-01T02:35:58Z) - ViCo: Engaging Video Comment Generation with Human Preference Rewards [68.50351391812723]
ビデオコメント生成の課題に対処するために,3つの新しいデザインのViCoを提案する。
コメントのエンゲージメントを定量化するために、各コメントが受け取る「いいね!
コメントのエンゲージメントを自動的に評価するために、我々は報酬モデルをトレーニングし、その判断を上記のプロキシに合わせる。
論文 参考訳(メタデータ) (2023-08-22T04:01:01Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Knowledge Enhanced Model for Live Video Comment Generation [40.762720398152766]
本稿では,ライブビデオコメントの発散と情報的特性に着想を得た知識強化生成モデルを提案する。
本モデルは,事前学習型エンコーダデコーダフレームワークを採用し,外部知識を取り入れている。
MovieLCデータセットとコードがリリースされる。
論文 参考訳(メタデータ) (2023-04-28T07:03:50Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - LiveSeg: Unsupervised Multimodal Temporal Segmentation of Long
Livestream Videos [82.48910259277984]
ライブストリームのチュートリアルビデオは通常数時間、録画され、ライブセッションの直後に直接インターネットにアップロードされるため、他の人がすぐに追いつくのが難しくなる。
アウトラインは有益なソリューションであり、トピックに応じてビデオが時間的にセグメント化される必要がある。
我々は、異なるドメインのマルチモーダル機能を生かした、教師なしのLivestreamビデオテンポラルソリューションLiveSegを提案する。
論文 参考訳(メタデータ) (2022-10-12T00:08:17Z) - Response to LiveBot: Generating Live Video Comments Based on Visual and
Textual Contexts [7.8885775363362]
LiveBotは最近、ALVC(Automatic Live Video Commenting)アプリケーションとして導入された。
LiveBotは、既存のビデオストリームと既存の視聴者コメントの両方からライブビデオコメントを生成する。
本稿では,これらの相違点を詳細に検討し,代替のベースライン実装を提案する。
論文 参考訳(メタデータ) (2020-06-04T17:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。