論文の概要: Sounding Video Generator: A Unified Framework for Text-guided Sounding
Video Generation
- arxiv url: http://arxiv.org/abs/2303.16541v1
- Date: Wed, 29 Mar 2023 09:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 15:28:49.032997
- Title: Sounding Video Generator: A Unified Framework for Text-guided Sounding
Video Generation
- Title(参考訳): sounding video generator: テキスト誘導型音声ビデオ生成のための統一フレームワーク
- Authors: Jiawei Liu, Weining Wang, Sihan Chen, Xinxin Zhu, Jing Liu
- Abstract要約: Sounding Video Generator (SVG) は、オーディオ信号とともにリアルな映像を生成するための統合されたフレームワークである。
VQGANは、視覚フレームとオーディオメロメログラムを離散トークンに変換する。
トランスフォーマーベースのデコーダは、テキスト、ビジュアルフレーム、オーディオ信号間の関連をモデル化するために使用される。
- 参考スコア(独自算出の注目度): 24.403772976932487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a combination of visual and audio signals, video is inherently
multi-modal. However, existing video generation methods are primarily intended
for the synthesis of visual frames, whereas audio signals in realistic videos
are disregarded. In this work, we concentrate on a rarely investigated problem
of text guided sounding video generation and propose the Sounding Video
Generator (SVG), a unified framework for generating realistic videos along with
audio signals. Specifically, we present the SVG-VQGAN to transform visual
frames and audio melspectrograms into discrete tokens. SVG-VQGAN applies a
novel hybrid contrastive learning method to model inter-modal and intra-modal
consistency and improve the quantized representations. A cross-modal attention
module is employed to extract associated features of visual frames and audio
signals for contrastive learning. Then, a Transformer-based decoder is used to
model associations between texts, visual frames, and audio signals at token
level for auto-regressive sounding video generation. AudioSetCap, a human
annotated text-video-audio paired dataset, is produced for training SVG.
Experimental results demonstrate the superiority of our method when compared
with existing textto-video generation methods as well as audio generation
methods on Kinetics and VAS datasets.
- Abstract(参考訳): 視覚信号と音声信号の組み合わせとして、ビデオは本質的にマルチモーダルである。
しかし,既存の映像生成手法は主に映像フレームの合成を目的としており,現実的な映像の音声信号は無視されている。
本研究では,テキスト誘導型映像生成の稀な問題に注目し,音声信号と共に現実的な映像を生成するための統一フレームワークであるsvg(sounding video generator)を提案する。
具体的には,SVG-VQGANを用いて,視覚フレームと音声メロメログラムを離散トークンに変換する。
svg-vqganは新しいハイブリッドコントラスト学習法を適用し、モーダル間一貫性とモーダル内一貫性をモデル化し、量子化表現を改善する。
コントラスト学習のための視覚フレームと音声信号の関連特徴を抽出するためにクロスモーダルアテンションモジュールを用いる。
次に、トランスフォーマーベースのデコーダを用いて、自動回帰音声生成のためのトークンレベルでテキスト、ビジュアルフレーム、音声信号の関連をモデル化する。
SVGをトレーニングするために、人間のアノテーション付きテキスト-ビデオ-オーディオペアデータセットであるAudioSetCapが生成される。
実験により,既存のテキスト・ビデオ生成手法や,KineticsおよびVASデータセットの音声生成手法と比較して,本手法が優れていることを示す。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Synthesizing Audio from Silent Video using Sequence to Sequence Modeling [0.0]
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,ビデオから音声を生成する新しい手法を提案する。
本手法では3次元ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて映像の空間的・時間的構造を捉える。
本モデルは,CCTV映像解析,サイレント映画復元,映像生成モデルなどの応用性の向上を目的としている。
論文 参考訳(メタデータ) (2024-04-25T22:19:42Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。