論文の概要: Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
- arxiv url: http://arxiv.org/abs/2412.18748v2
- Date: Tue, 31 Dec 2024 07:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 14:33:36.139397
- Title: Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
- Title(参考訳): マルチスケールマルチモーダルコンテキストインタラクションによる映像ダビングの実現に向けて
- Authors: Yuan Zhao, Rui Liu, Gaoxiang Cong,
- Abstract要約: 自動ビデオダビング(AVD)は、スクリプトから唇の動きや顔の感情に合わせた音声を生成する。
最近の研究は、韻律表現性を高めるためのマルチモーダルコンテキストのモデリングに焦点を当てている。
AVDのためのマルチスケールマルチモーダルコンテキストインタラクションスキームであるM2CI-Dubberを提案する。
- 参考スコア(独自算出の注目度): 8.259073811611788
- License:
- Abstract: Automatic Video Dubbing (AVD) generates speech aligned with lip motion and facial emotion from scripts. Recent research focuses on modeling multimodal context to enhance prosody expressiveness but overlooks two key issues: 1) Multiscale prosody expression attributes in the context influence the current sentence's prosody. 2) Prosody cues in context interact with the current sentence, impacting the final prosody expressiveness. To tackle these challenges, we propose M2CI-Dubber, a Multiscale Multimodal Context Interaction scheme for AVD. This scheme includes two shared M2CI encoders to model the multiscale multimodal context and facilitate its deep interaction with the current sentence. By extracting global and local features for each modality in the context, utilizing attention-based mechanisms for aggregation and interaction, and employing an interaction-based graph attention network for fusion, the proposed approach enhances the prosody expressiveness of synthesized speech for the current sentence. Experiments on the Chem dataset show our model outperforms baselines in dubbing expressiveness. The code and demos are available at \textcolor[rgb]{0.93,0.0,0.47}{https://github.com/AI-S2-Lab/M2CI-Dubber}.
- Abstract(参考訳): 自動ビデオダビング(AVD)は、スクリプトから唇の動きや顔の感情に合わせた音声を生成する。
最近の研究は、韻律表現性を高めるためのマルチモーダルコンテキストのモデル化に焦点が当てられている。
1) 文脈におけるマルチスケール韻律表現特性は, 文の韻律に影響を及ぼす。
2) 文脈における韻律の手がかりは現行の文と相互作用し, 最終韻律表現性に影響を与える。
AVDのためのマルチスケールマルチモーダルコンテキストインタラクションスキームであるM2CI-Dubberを提案する。
このスキームは、2つの共有M2CIエンコーダを含み、マルチスケールのマルチモーダルコンテキストをモデル化し、現在の文との深い相互作用を促進する。
文脈における各モーダルのグローバルな特徴と局所的な特徴を抽出し、アグリゲーションと相互作用のためのアグリゲーションに基づくメカニズムを利用し、融合のための相互作用に基づくグラフアテンションネットワークを利用することにより、提案手法は、現在の文に対する合成音声の韻律表現性を高める。
Chemデータセットの実験では、モデルがダビング表現性においてベースラインを上回ります。
コードとデモは \textcolor[rgb]{0.93,0.0,0.47}{https://github.com/AI-S2-Lab/M2CI-Dubber} で公開されている。
関連論文リスト
- Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。
最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。
本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文 参考訳(メタデータ) (2024-12-21T02:22:06Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation [88.33780780220091]
CoDi-2は汎用的でインタラクティブなマルチモーダル言語モデル(MLLM)である
複雑なマルチモーダルなインターリーブ命令に従うことができ、ICL(In-context Learning)、理性、チャット、編集などを実行することができる。
論文 参考訳(メタデータ) (2023-11-30T18:21:25Z) - Dynamic Multi-Scale Context Aggregation for Conversational Aspect-Based
Sentiment Quadruple Analysis [4.768182075837568]
DiaASQは、対話の中で、ターゲット・アスペクト・オピニオン感覚の4倍を抽出することを目的としている。
既存の作業はそれぞれの発話を独立して符号化するので、長距離会話のコンテキストを捉えるのに苦労する。
本稿では,新しい動的マルチスケールコンテキストアグリゲーションネットワーク(DMCA)を提案する。
論文 参考訳(メタデータ) (2023-09-27T08:17:28Z) - Coreference-aware Double-channel Attention Network for Multi-party
Dialogue Reading Comprehension [7.353227696624305]
MDRC(Multi-party Dialogue Reading)に挑戦する
MDRCは、複数のインターロケータ間の対話に基づく抽出読解タスクの略である。
推論能力を高めるためのコア推論対応アテンションモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T05:01:29Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。