論文の概要: Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2410.17589v1
- Date: Wed, 23 Oct 2024 06:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:28.396236
- Title: Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation
- Title(参考訳): 音声シーン合成の課題:テキスト・ツー・オーディオ・ジェネレーションの評価
- Authors: Junwon Lee, Modan Tailleur, Laurie M. Heller, Keunwoo Choi, Mathieu Lagrange, Brian McFee, Keisuke Imoto, Yuki Okamoto,
- Abstract要約: 本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
- 参考スコア(独自算出の注目度): 8.170174172545831
- License:
- Abstract: Despite significant advancements in neural text-to-audio generation, challenges persist in controllability and evaluation. This paper addresses these issues through the Sound Scene Synthesis challenge held as part of the Detection and Classification of Acoustic Scenes and Events 2024. We present an evaluation protocol combining objective metric, namely Fr\'echet Audio Distance, with perceptual assessments, utilizing a structured prompt format to enable diverse captions and effective evaluation. Our analysis reveals varying performance across sound categories and model architectures, with larger models generally excelling but innovative lightweight approaches also showing promise. The strong correlation between objective metrics and human ratings validates our evaluation approach. We discuss outcomes in terms of audio quality, controllability, and architectural considerations for text-to-audio synthesizers, providing direction for future research.
- Abstract(参考訳): ニューラルテキスト・トゥ・オーディオ生成の大幅な進歩にもかかわらず、課題は制御性と評価に持続する。
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題を通じて,これらの課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせて,多種多様なキャプションと効果的な評価を実現するために,構造化されたプロンプト形式を利用する評価プロトコルを提案する。
我々の分析では、音のカテゴリやモデルアーキテクチャにまたがる様々な性能を明らかにしており、より大きなモデルは概して優れたが、革新的な軽量アプローチもまた有望である。
客観的指標と人的評価との間には強い相関関係がみられ,評価手法が検証された。
本稿では,音声合成装置の音質,可制御性,アーキテクチャ的考察などについて考察し,今後の研究の方向性について述べる。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - FALL-E: A Foley Sound Synthesis Model and Strategies [0.5599792629509229]
FALL-Eモデルは、低分解能スペクトログラム生成、スペクトル超解像、ボコーダからなるカスケード方式を採用している。
我々はデータセット固有のテキストでモデルを条件付けし、テキスト入力に基づいて音質と記録環境を学習できるようにした。
論文 参考訳(メタデータ) (2023-06-16T12:44:10Z) - What You Hear Is What You See: Audio Quality Metrics From Image Quality
Metrics [44.659718609385315]
そこで本研究では,音声信号の評価に最先端画像知覚メトリクスを応用し,スペクトログラムとして表現することの実現可能性について検討する。
我々は、音響信号の特異性を考慮するために、精神音響学的に妥当なアーキテクチャを持つメトリクスの1つをカスタマイズする。
提案手法の有効性を音楽データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-05-19T10:43:57Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。