論文の概要: Sound Scene Synthesis at the DCASE 2024 Challenge
- arxiv url: http://arxiv.org/abs/2501.08587v1
- Date: Wed, 15 Jan 2025 05:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:36.676920
- Title: Sound Scene Synthesis at the DCASE 2024 Challenge
- Title(参考訳): DCASE 2024 チャレンジにおける音場合成
- Authors: Mathieu Lagrange, Junwon Lee, Modan Tailleur, Laurie M. Heller, Keunwoo Choi, Brian McFee, Keisuke Imoto, Yuki Okamoto,
- Abstract要約: 本稿では,DCASE 2024 Challenge: Sound scene synthesis のタスク7について述べる。
音声合成と生成モデルの最近の進歩は、現実的で多様なオーディオコンテンツの作成を可能にしている。
目的と主観の両方を取り入れた,異なる音場合成システムを比較するための標準化された評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.170174172545831
- License:
- Abstract: This paper presents Task 7 at the DCASE 2024 Challenge: sound scene synthesis. Recent advances in sound synthesis and generative models have enabled the creation of realistic and diverse audio content. We introduce a standardized evaluation framework for comparing different sound scene synthesis systems, incorporating both objective and subjective metrics. The challenge attracted four submissions, which are evaluated using the Fr\'echet Audio Distance (FAD) and human perceptual ratings. Our analysis reveals significant insights into the current capabilities and limitations of sound scene synthesis systems, while also highlighting areas for future improvement in this rapidly evolving field.
- Abstract(参考訳): 本稿では,DCASE 2024 Challenge: Sound scene synthesis のタスク7について述べる。
音声合成と生成モデルの最近の進歩は、現実的で多様なオーディオコンテンツの作成を可能にしている。
目的と主観の両方を取り入れた,異なる音場合成システムを比較するための標準化された評価フレームワークを提案する。
Fr'echet Audio Distance (FAD) と人間の知覚的評価を用いて評価される。
本分析は,音場合成システムの現在の能力と限界に関する重要な知見を明らかにし,この急速に発展する分野における将来的な改善の分野を強調した。
関連論文リスト
- Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:35:41Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - VIFS: An End-to-End Variational Inference for Foley Sound Synthesis [0.0]
「カテゴリ」は1つの指標で表され、対応する「音」は多種多様な音の例をカバーしている。
そこで本研究では,高品質な音を生み出すエンドツーエンドのフォリー音声合成のための変分推論であるVIFSを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:48:01Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - A Proposal for Foley Sound Synthesis Challenge [7.469200949273274]
フォーリー(Foley)とは、ポストプロダクション中にマルチメディアに付加される音響効果をいう。
本稿では,自動フォリー合成の課題を提案する。
論文 参考訳(メタデータ) (2022-07-21T21:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。