論文の概要: Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting
- arxiv url: http://arxiv.org/abs/2404.12782v1
- Date: Fri, 19 Apr 2024 10:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:26:30.738234
- Title: Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting
- Title(参考訳): ライブビデオコメントのための感性指向トランスフォーマーに基づく変分オートエンコーダネットワーク
- Authors: Fengyi Fu, Shancheng Fang, Weidong Chen, Zhendong Mao,
- Abstract要約: 感性指向型トランスフォーマーベース変分自動符号化(So-TVAE)ネットワークを提案し,複数の感情と複数の意味を持つ多様なビデオコメントを生成する。
具体的には、感情指向の多様性エンコーダは、VAEとランダムマスク機構をエレガントに組み合わせて、感情指導の下で意味的な多様性を実現する。
本稿では,データ不均衡に起因する感情サンプルの欠落の問題を軽減するため,バッチアテンションモジュールを提案する。
- 参考スコア(独自算出の注目度): 30.96049241998733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic live video commenting is with increasing attention due to its significance in narration generation, topic explanation, etc. However, the diverse sentiment consideration of the generated comments is missing from the current methods. Sentimental factors are critical in interactive commenting, and lack of research so far. Thus, in this paper, we propose a Sentiment-oriented Transformer-based Variational Autoencoder (So-TVAE) network which consists of a sentiment-oriented diversity encoder module and a batch attention module, to achieve diverse video commenting with multiple sentiments and multiple semantics. Specifically, our sentiment-oriented diversity encoder elegantly combines VAE and random mask mechanism to achieve semantic diversity under sentiment guidance, which is then fused with cross-modal features to generate live video comments. Furthermore, a batch attention module is also proposed in this paper to alleviate the problem of missing sentimental samples, caused by the data imbalance, which is common in live videos as the popularity of videos varies. Extensive experiments on Livebot and VideoIC datasets demonstrate that the proposed So-TVAE outperforms the state-of-the-art methods in terms of the quality and diversity of generated comments. Related code is available at https://github.com/fufy1024/So-TVAE.
- Abstract(参考訳): ナレーション生成や話題説明などの重要さから,ライブビデオの自動コメントが注目を集めている。
しかしながら、生成されたコメントに対する多様な感情的考慮は、現在の方法からは欠落している。
感情的要因は、対話的なコメントや研究の欠如において重要である。
そこで本稿では,感性指向の多様性エンコーダモジュールとバッチアテンションモジュールからなる感性指向トランスフォーマーベースの変分自動エンコーダ(So-TVAE)ネットワークを提案する。
具体的には、感情指向の多様性エンコーダは、VAEとランダムマスク機構をエレガントに組み合わせ、感情誘導の下で意味的な多様性を達成する。
また,本論文では,ビデオの人気が変化するにつれてライブビデオに共通するデータ不均衡に起因する感情サンプルの欠落の問題を軽減するため,バッチアテンションモジュールも提案している。
LivebotとVideoICデータセットの大規模な実験により、提案されたSo-TVAEは、生成したコメントの品質と多様性の観点から最先端の手法より優れていることが示された。
関連コードはhttps://github.com/fufy1024/So-TVAEで入手できる。
関連論文リスト
- VarGes: Improving Variation in Co-Speech 3D Gesture Generation via StyleCLIPS [4.996271098355553]
VarGesは、共同音声ジェスチャ生成を強化するために設計された、新しい変分駆動フレームワークである。
提案手法は,ジェスチャの多様性と自然性の観点から,既存の手法よりも優れるベンチマークデータセットで検証されている。
論文 参考訳(メタデータ) (2025-02-15T08:46:01Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。
我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文 参考訳(メタデータ) (2024-12-05T18:53:04Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Towards Emotion Analysis in Short-form Videos: A Large-Scale Dataset and Baseline [6.676841280436392]
ショートフォームビデオ(SV)が普及すると、SVに対してビデオ感情分析(VEA)を行う必要がある。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いた音声-視覚ベースラインAV-CANetを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:24:30Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - A Transformer-based joint-encoding for Emotion Recognition and Sentiment
Analysis [8.927538538637783]
本稿では,感情認識・感情分析のための変換器を用いた共同符号化(TBJE)について述べる。
Transformerアーキテクチャを使用するのに加えて、モジュールのコアテンションと1つ以上のモダリティを共同でエンコードするスニース層に依存しています。
論文 参考訳(メタデータ) (2020-06-29T11:51:46Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - Multimodal Matching Transformer for Live Commenting [97.06576354830736]
自動的なライブコメントは、視聴者にリアルタイムでビデオに対するコメントを提供することを目的としている。
このタスクの最近の研究は、コメントを生成するエンコーダ-デコーダモデルを採用している。
本稿では,コメント,視覚,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。
論文 参考訳(メタデータ) (2020-02-07T07:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。