論文の概要: A Proposal for Foley Sound Synthesis Challenge
- arxiv url: http://arxiv.org/abs/2207.10760v1
- Date: Thu, 21 Jul 2022 21:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:37:01.832316
- Title: A Proposal for Foley Sound Synthesis Challenge
- Title(参考訳): フォリー音響合成チャレンジの提案
- Authors: Keunwoo Choi, Sangshin Oh, Minsung Kang, Brian McFee
- Abstract要約: フォーリー(Foley)とは、ポストプロダクション中にマルチメディアに付加される音響効果をいう。
本稿では,自動フォリー合成の課題を提案する。
- 参考スコア(独自算出の注目度): 7.469200949273274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Foley" refers to sound effects that are added to multimedia during
post-production to enhance its perceived acoustic properties, e.g., by
simulating the sounds of footsteps, ambient environmental sounds, or visible
objects on the screen. While foley is traditionally produced by foley artists,
there is increasing interest in automatic or machine-assisted techniques
building upon recent advances in sound synthesis and generative models. To
foster more participation in this growing research area, we propose a challenge
for automatic foley synthesis. Through case studies on successful previous
challenges in audio and machine learning, we set the goals of the proposed
challenge: rigorous, unified, and efficient evaluation of different foley
synthesis systems, with an overarching goal of drawing active participation
from the research community. We outline the details and design considerations
of a foley sound synthesis challenge, including task definition, dataset
requirements, and evaluation criteria.
- Abstract(参考訳): フォーリー(Foley)とは、ポストプロダクション中にマルチメディアに付加される音響効果で、例えば、足音、環境音、スクリーン上の可視物などの音をシミュレートすることで、知覚された音響特性を高めること。
フォリーは伝統的にフォリーアーティストによって生産されるが、近年の音声合成と生成モデルの発展により、自動または機械支援技術への関心が高まっている。
そこで本研究では, 研究領域へのさらなる参加を促進するため, 自動フォリー合成への挑戦を提案する。
音声と機械学習における先行課題の事例研究を通じて,提案課題のゴールを定式化し,異なるフォリー合成システムの厳密で統一的,効率的な評価を行い,研究コミュニティからの積極的な参加を目標とした。
本稿では,タスク定義,データセット要件,評価基準など,フォリー音声合成課題の詳細と設計について概説する。
関連論文リスト
- T-FOLEY: A Controllable Waveform-Domain Diffusion Model for
Temporal-Event-Guided Foley Sound Synthesis [7.529080653700932]
フォリー音声合成のための時間イベント誘導波形生成モデルであるT-Foleyについて述べる。
T-Foleyは音のクラスと時間イベントという2つの条件を用いて高品質な音声を生成する。
T-Foleyは客観的評価指標と主観評価指標の両方において優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-17T15:54:36Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - FoleyGAN: Visually Guided Generative Adversarial Network-Based
Synchronous Sound Generation in Silent Videos [0.0]
本稿では,ビデオ入力の時間的視覚情報を用いて,クラス条件付き生成対向ネットワークを案内する新しいタスクを提案する。
提案したFoleyGANモデルは、視覚的に整列したリアルなサウンドトラックを生成するために、視覚イベントのアクションシーケンスを条件付けることができる。
論文 参考訳(メタデータ) (2021-07-20T04:59:26Z) - Repetitive Activity Counting by Sight and Sound [110.36526333035907]
本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
論文 参考訳(メタデータ) (2021-03-24T11:15:33Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent
Videos with Deep Learning [5.33024001730262]
ビデオの代表的なオーディオトラックを合成するのに使用できる、完全に自動化されたディープラーニングツールであるAutoFoleyを紹介する。
AutoFoleyは、ビデオに関連付けられた対応するオーディオファイルがないアプリケーションや、重要なシナリオを特定する必要がある場合でも使用できる。
実験により, 合成した音は, 関連した視覚入力の正確な時間同期でリアルに表現されていることがわかった。
論文 参考訳(メタデータ) (2020-02-21T09:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。