論文の概要: VarietySound: Timbre-Controllable Video to Sound Generation via
Unsupervised Information Disentanglement
- arxiv url: http://arxiv.org/abs/2211.10666v1
- Date: Sat, 19 Nov 2022 11:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 23:24:08.434420
- Title: VarietySound: Timbre-Controllable Video to Sound Generation via
Unsupervised Information Disentanglement
- Title(参考訳): varietysound: 音色制御可能なビデオ - 教師なし情報不連続による音声生成
- Authors: Chenye Cui, Yi Ren, Jinglin Liu, Rongjie Huang, Zhou Zhao
- Abstract要約: ビデオ入力と参照音声サンプルを与えられた特定の音色で発音する作業を行う。
この課題を解決するために,対象の音声を時間情報,音響情報,背景情報という3つの構成要素にまとめる。
提案手法は,ビデオ中のイベントと高音質の音声サンプルを生成し,参照音声と高音質の類似性を示す。
- 参考スコア(独自算出の注目度): 68.42632589736881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video to sound generation aims to generate realistic and natural sound given
a video input. However, previous video-to-sound generation methods can only
generate a random or average timbre without any controls or specializations of
the generated sound timbre, leading to the problem that people cannot obtain
the desired timbre under these methods sometimes. In this paper, we pose the
task of generating sound with a specific timbre given a video input and a
reference audio sample. To solve this task, we disentangle each target sound
audio into three components: temporal information, acoustic information, and
background information. We first use three encoders to encode these components
respectively: 1) a temporal encoder to encode temporal information, which is
fed with video frames since the input video shares the same temporal
information as the original audio; 2) an acoustic encoder to encode timbre
information, which takes the original audio as input and discards its temporal
information by a temporal-corrupting operation; and 3) a background encoder to
encode the residual or background sound, which uses the background part of the
original audio as input. To make the generated result achieve better quality
and temporal alignment, we also adopt a mel discriminator and a temporal
discriminator for the adversarial training. Our experimental results on the VAS
dataset demonstrate that our method can generate high-quality audio samples
with good synchronization with events in video and high timbre similarity with
the reference audio.
- Abstract(参考訳): 映像から音声への生成は、映像入力によってリアルで自然な音を生成することを目的としている。
しかし、従来のビデオ音声生成手法では、生成した音色を制御したり特殊化したりすることなく、ランダムあるいは平均的な音色しか生成できないため、これらの手法で所望の音色が得られないという問題がある。
本稿では,ビデオ入力と参照音声サンプルが与えられた特定の音色で音声を生成する作業を行う。
この課題を解決するために,対象の音声を時間情報,音響情報,背景情報という3つの構成要素にまとめる。
まず3つのエンコーダを使ってそれぞれをエンコードします。
1) 時間情報を符号化するテンポラリエンコーダであって,入力ビデオが原音と同じ時間情報を共有しているため,映像フレームが供給されるもの
2 音色情報を符号化する音響エンコーダであって、原音を入力として取り出し、時間的破損操作によりその時間的情報を破棄する。
3) 背景エンコーダは、元の音声の背景部を入力として、残音または背景音を符号化する。
得られた結果が品質と時間的アライメントを改善するために,メル判別器と時間的判別器を交戦訓練に採用する。
vasデータセットを用いた実験により,映像中のイベントとの同期性が良好で,参照音声との音色類似度も高い高品質な音声サンプルを生成できることを示した。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文 参考訳(メタデータ) (2024-07-01T17:35:56Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - The Power of Sound (TPoS): Audio Reactive Video Generation with Stable
Diffusion [23.398304611826642]
本稿では,音のパワー・オブ・サウンドモデルを提案する。
ビデオフレームを生成するために、TPoSはセマンティック情報を持つ潜在安定拡散モデルを使用し、シーケンシャルオーディオ埋め込みによってガイドされる。
様々なタスクにおけるTPoSの有効性を実証し、その結果をオーディオ・ビデオ生成分野における最先端技術と比較する。
論文 参考訳(メタデータ) (2023-09-08T12:21:01Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。