論文の概要: A Proposal for Foley Sound Synthesis Challenge
- arxiv url: http://arxiv.org/abs/2207.10760v1
- Date: Thu, 21 Jul 2022 21:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:37:01.832316
- Title: A Proposal for Foley Sound Synthesis Challenge
- Title(参考訳): フォリー音響合成チャレンジの提案
- Authors: Keunwoo Choi, Sangshin Oh, Minsung Kang, Brian McFee
- Abstract要約: フォーリー(Foley)とは、ポストプロダクション中にマルチメディアに付加される音響効果をいう。
本稿では,自動フォリー合成の課題を提案する。
- 参考スコア(独自算出の注目度): 7.469200949273274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Foley" refers to sound effects that are added to multimedia during
post-production to enhance its perceived acoustic properties, e.g., by
simulating the sounds of footsteps, ambient environmental sounds, or visible
objects on the screen. While foley is traditionally produced by foley artists,
there is increasing interest in automatic or machine-assisted techniques
building upon recent advances in sound synthesis and generative models. To
foster more participation in this growing research area, we propose a challenge
for automatic foley synthesis. Through case studies on successful previous
challenges in audio and machine learning, we set the goals of the proposed
challenge: rigorous, unified, and efficient evaluation of different foley
synthesis systems, with an overarching goal of drawing active participation
from the research community. We outline the details and design considerations
of a foley sound synthesis challenge, including task definition, dataset
requirements, and evaluation criteria.
- Abstract(参考訳): フォーリー(Foley)とは、ポストプロダクション中にマルチメディアに付加される音響効果で、例えば、足音、環境音、スクリーン上の可視物などの音をシミュレートすることで、知覚された音響特性を高めること。
フォリーは伝統的にフォリーアーティストによって生産されるが、近年の音声合成と生成モデルの発展により、自動または機械支援技術への関心が高まっている。
そこで本研究では, 研究領域へのさらなる参加を促進するため, 自動フォリー合成への挑戦を提案する。
音声と機械学習における先行課題の事例研究を通じて,提案課題のゴールを定式化し,異なるフォリー合成システムの厳密で統一的,効率的な評価を行い,研究コミュニティからの積極的な参加を目標とした。
本稿では,タスク定義,データセット要件,評価基準など,フォリー音声合成課題の詳細と設計について概説する。
関連論文リスト
- Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:35:41Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - SpMis: An Investigation of Synthetic Spoken Misinformation Detection [26.233213807677934]
我々は,オープンソースのデータセットであるSpMisを導入して,合成音声誤情報検出の初期研究を行う。
SpMisには、5つの共通トピックにわたる1,000人以上の話者から合成された音声が含まれており、最先端のテキスト音声システムを利用している。
以上の結果から,有望な検出能力を示すとともに,実装上の課題も明らかにした。
論文 参考訳(メタデータ) (2024-09-17T16:05:09Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - T-FOLEY: A Controllable Waveform-Domain Diffusion Model for
Temporal-Event-Guided Foley Sound Synthesis [7.529080653700932]
フォリー音声合成のための時間イベント誘導波形生成モデルであるT-Foleyについて述べる。
T-Foleyは音のクラスと時間イベントという2つの条件を用いて高品質な音声を生成する。
T-Foleyは客観的評価指標と主観評価指標の両方において優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-17T15:54:36Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - FoleyGAN: Visually Guided Generative Adversarial Network-Based
Synchronous Sound Generation in Silent Videos [0.0]
本稿では,ビデオ入力の時間的視覚情報を用いて,クラス条件付き生成対向ネットワークを案内する新しいタスクを提案する。
提案したFoleyGANモデルは、視覚的に整列したリアルなサウンドトラックを生成するために、視覚イベントのアクションシーケンスを条件付けることができる。
論文 参考訳(メタデータ) (2021-07-20T04:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。