論文の概要: Soundify: Matching Sound Effects to Video
- arxiv url: http://arxiv.org/abs/2112.09726v1
- Date: Fri, 17 Dec 2021 19:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 18:23:27.958030
- Title: Soundify: Matching Sound Effects to Video
- Title(参考訳): soundify:ビデオと音響効果のマッチング
- Authors: David Chuan-En Lin, Anastasis Germanidis, Crist\'obal Valenzuela,
Yining Shi, Nikolas Martelaro
- Abstract要約: 熟練したビデオエディタは、エフェクトや環境などの音をオーバーレイして、オブジェクトにキャラクタを追加したり、空間内で視聴者を没入させる。
本稿では,映像に音響効果を対応させるシステムSoundifyを紹介する。
ラベル付き、スタジオ品質のサウンドエフェクトライブラリを活用し、印象的なゼロショット画像分類機能を備えたニューラルネットワークであるCLIPを拡張して、高品質な結果を得ることができる。
- 参考スコア(独自算出の注目度): 8.102199960821165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the art of video editing, sound is really half the story. A skilled video
editor overlays sounds, such as effects and ambients, over footage to add
character to an object or immerse the viewer within a space. However, through
formative interviews with professional video editors, we found that this
process can be extremely tedious and time-consuming. We introduce Soundify, a
system that matches sound effects to video. By leveraging labeled,
studio-quality sound effects libraries and extending CLIP, a neural network
with impressive zero-shot image classification capabilities, into a "zero-shot
detector", we are able to produce high-quality results without
resource-intensive correspondence learning or audio generation. We encourage
you to have a look at, or better yet, have a listen to the results at
https://chuanenlin.com/soundify.
- Abstract(参考訳): ビデオ編集の分野では、サウンドは物語の半分に過ぎません。
熟練したビデオエディタは、エフェクトや環境などの音をオーバーレイして、オブジェクトにキャラクタを追加したり、空間内で視聴者を没入させる。
しかし、プロのビデオ編集者との形式的インタビューを通じて、このプロセスは非常に退屈で時間がかかります。
soundifyは,映像と音響効果をマッチングするシステムである。
ラベル付き、スタジオ品質のサウンドエフェクトライブラリを活用し、印象的なゼロショット画像分類機能を持つニューラルネットワークであるCLIPを"ゼロショット検出器"に拡張することで、リソース集約型対応学習やオーディオ生成なしに高品質な結果を生成することができる。
私たちは、https://chuanenlin.com/soundify.comで結果を聴くことをお勧めします。
関連論文リスト
- SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis [9.118448725265669]
音を設計する際に最も時間がかかるステップの1つは、音声とビデオの同期です。
ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。
そこで本研究では,ビデオから繰り返し動作のオンセットを抽出し,新たな音効果音響トラックを生成するために訓練された拡散モデルの条件付けに用いるシステムを提案する。
論文 参考訳(メタデータ) (2023-10-23T18:01:36Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Conditional Generation of Audio from Video via Foley Analogies [19.681437827280757]
デザイナーがビデオに付加する音響効果は、特定の芸術効果を伝えるように設計されており、シーンの真の音とはかなり異なるかもしれない。
実音と異なる映像のサウンドトラックを作成するという課題に着想を得て,条件付きフォリーの問題を提案する。
人間の研究と自動評価指標を用いて,本モデルが映像から音声を生成できることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:59:45Z) - Soundini: Sound-Guided Diffusion for Natural Video Editing [29.231939578629785]
ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。
本研究は,音の特殊な特性を持つ様々な音源からの音声誘導自然な映像編集を初めて行ったものである。
論文 参考訳(メタデータ) (2023-04-13T20:56:53Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。