論文の概要: Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting
- arxiv url: http://arxiv.org/abs/2404.12782v1
- Date: Fri, 19 Apr 2024 10:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:26:30.738234
- Title: Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting
- Title(参考訳): ライブビデオコメントのための感性指向トランスフォーマーに基づく変分オートエンコーダネットワーク
- Authors: Fengyi Fu, Shancheng Fang, Weidong Chen, Zhendong Mao,
- Abstract要約: 感性指向型トランスフォーマーベース変分自動符号化(So-TVAE)ネットワークを提案し,複数の感情と複数の意味を持つ多様なビデオコメントを生成する。
具体的には、感情指向の多様性エンコーダは、VAEとランダムマスク機構をエレガントに組み合わせて、感情指導の下で意味的な多様性を実現する。
本稿では,データ不均衡に起因する感情サンプルの欠落の問題を軽減するため,バッチアテンションモジュールを提案する。
- 参考スコア(独自算出の注目度): 30.96049241998733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic live video commenting is with increasing attention due to its significance in narration generation, topic explanation, etc. However, the diverse sentiment consideration of the generated comments is missing from the current methods. Sentimental factors are critical in interactive commenting, and lack of research so far. Thus, in this paper, we propose a Sentiment-oriented Transformer-based Variational Autoencoder (So-TVAE) network which consists of a sentiment-oriented diversity encoder module and a batch attention module, to achieve diverse video commenting with multiple sentiments and multiple semantics. Specifically, our sentiment-oriented diversity encoder elegantly combines VAE and random mask mechanism to achieve semantic diversity under sentiment guidance, which is then fused with cross-modal features to generate live video comments. Furthermore, a batch attention module is also proposed in this paper to alleviate the problem of missing sentimental samples, caused by the data imbalance, which is common in live videos as the popularity of videos varies. Extensive experiments on Livebot and VideoIC datasets demonstrate that the proposed So-TVAE outperforms the state-of-the-art methods in terms of the quality and diversity of generated comments. Related code is available at https://github.com/fufy1024/So-TVAE.
- Abstract(参考訳): ナレーション生成や話題説明などの重要さから,ライブビデオの自動コメントが注目を集めている。
しかしながら、生成されたコメントに対する多様な感情的考慮は、現在の方法からは欠落している。
感情的要因は、対話的なコメントや研究の欠如において重要である。
そこで本稿では,感性指向の多様性エンコーダモジュールとバッチアテンションモジュールからなる感性指向トランスフォーマーベースの変分自動エンコーダ(So-TVAE)ネットワークを提案する。
具体的には、感情指向の多様性エンコーダは、VAEとランダムマスク機構をエレガントに組み合わせ、感情誘導の下で意味的な多様性を達成する。
また,本論文では,ビデオの人気が変化するにつれてライブビデオに共通するデータ不均衡に起因する感情サンプルの欠落の問題を軽減するため,バッチアテンションモジュールも提案している。
LivebotとVideoICデータセットの大規模な実験により、提案されたSo-TVAEは、生成したコメントの品質と多様性の観点から最先端の手法より優れていることが示された。
関連コードはhttps://github.com/fufy1024/So-TVAEで入手できる。
関連論文リスト
- Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos [7.011656298079659]
短いビデオ(SV)が普及すると、SVにおける感情認識の必要性が生じる。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:24:30Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z) - A Transformer-based joint-encoding for Emotion Recognition and Sentiment
Analysis [8.927538538637783]
本稿では,感情認識・感情分析のための変換器を用いた共同符号化(TBJE)について述べる。
Transformerアーキテクチャを使用するのに加えて、モジュールのコアテンションと1つ以上のモダリティを共同でエンコードするスニース層に依存しています。
論文 参考訳(メタデータ) (2020-06-29T11:51:46Z) - SACT: Self-Aware Multi-Space Feature Composition Transformer for
Multinomial Attention for Video Captioning [9.89901717499058]
特徴長が長くなるにつれて、関連する内容の捕集を改善するための規定を含めることがますます重要になる。
本研究では,多項注意(MultAtt)を生成可能な自己認識型構成変換器(SACT)を新たに導入した。
本研究では,高密度映像キャプションのための自己認識合成変換器モデルを提案し,この手法をActivityNetやYouCookIIなどのベンチマークデータセットに適用する。
論文 参考訳(メタデータ) (2020-06-25T09:11:49Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - Multimodal Matching Transformer for Live Commenting [97.06576354830736]
自動的なライブコメントは、視聴者にリアルタイムでビデオに対するコメントを提供することを目的としている。
このタスクの最近の研究は、コメントを生成するエンコーダ-デコーダモデルを採用している。
本稿では,コメント,視覚,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。
論文 参考訳(メタデータ) (2020-02-07T07:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。