論文の概要: 3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark
- arxiv url: http://arxiv.org/abs/2605.30469v1
- Date: Thu, 28 May 2026 18:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.179783
- Title: 3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark
- Title(参考訳): 3DAE:空間地図とベンチマークを用いたオーディオ新規ビュー合成のためのバイノーラル品質評価
- Authors: Jialu Xu, Yifan Zhou,
- Abstract要約: 3次元音響モデルとノベルビュー音響モデルは通常、グローバルメトリクスで評価される。
本稿では、時間周波数の音響誤差マップを用いて、時間、IDD、IDD、時間的アライメント、ラウドネス、高周波故障を診断するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.008821603892825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D audio and novel-view acoustic synthesis models are usually evaluated with global metrics.However, global metrics often hide where and why binaural prediction fails. We propose a full-reference diagnostic framework that uses time-frequency audio error maps for magnitude, ILD, IPD, temporal alignment, loudness, and high-frequency failures, forming a 3D Audio Error Map (3DAE Map) for visual inspection. We frame these diagnostics into a model-agnostic benchmark, Spatial Audio Error Bench (3DAE Bench), which takes arbitrary ground-truth and predicted binaural pairs and reports the prediction quality of audio novel-view synthesis models. Experiments on ViGAS outputs over Replay-NVAS and SoundSpaces show different dominant failure modes: temporal misalignment on Replay-NVAS and ILD mismatch on SoundSpaces. Overall, the framework provides interpretable failure-mode summaries and intuitive visual maps for audio Novel-view-synthesis model development optimization.
- Abstract(参考訳): 3Dオーディオとニュームビュー音響合成モデルは通常、グローバルなメトリクスで評価されるが、グローバルなメトリクスはしばしば、バイノーラルな予測が失敗する場所と理由を隠蔽する。
本稿では, 時間周波数の音響誤差マップを大きさ, ILD, IPD, 時間的アライメント, ラウドネス, 高周波の故障に用い, 視覚検査用の3Dオーディオ誤差マップ(3DAE Map)を作成する。
我々はこれらの診断をモデル非依存のベンチマークであるSpatial Audio Error Bench(3DAE Bench)に分類し、任意の基底構造と予測されたバイノーラルペアを取り、オーディオノベルビュー合成モデルの予測品質を報告する。
Replay-NVASとSoundSpacesのViGAS出力実験は、Replay-NVASの時間的ミスアライメントとSoundSpacesのIDDミスマッチの2つの主要な障害モードを示す。
全体として、このフレームワークは、解釈可能なフェールモードの要約と直感的な視覚マップをオーディオのノベルビュー合成モデル開発最適化のために提供する。
関連論文リスト
- When Vision Speaks for Sound [31.08404410801052]
ビデオ対応MLLMの急速な進歩にもかかわらず、ビデオにおける明らかな音声理解はビジョン駆動であることが多い。
この問題は、最先端のオープンソースオムニモデルと、GoogleやOpenAIといったプロバイダによるクローズドソースモデルの両方にまたがっている。
我々は、この障害モードを、モデルが(頻繁に)オーディオグラウンドに現れるが、実際にオーディオとビジュアルストリームが本当に一致しているかどうかを検証せずに、視覚-音響相関を利用する、オーディオ-ビジュアル・クリーバー・ハンス効果として特徴付けている。
論文 参考訳(メタデータ) (2026-05-13T05:00:19Z) - AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech [56.08149157180447]
本稿では,大規模マルチモーダルモデルの音声キャプション機能を評価するベンチマークであるAudioCapBenchを紹介する。
我々は、参照ベースのメトリクス(METEOR、BLEU、ROUGE-L)とLLM-as-Judgeフレームワークを使用して、2つのプロバイダ(OpenAI、Google Gemini)にわたる13のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-27T03:33:37Z) - SoundPlot: An Open-Source Framework for Birdsong Acoustic Analysis and Neural Synthesis with Interactive 3D Visualization [0.0]
本稿では,鳥の発声を解析するためのオープンソースのフレームワークSoundPlotを紹介する。
システムは音声信号を多次元音響特徴空間に変換する。
SoundPlotは、バイオ音響学、オーディオ信号処理、計算倫理学の研究を促進するためにMITライセンス下でリリースされた。
論文 参考訳(メタデータ) (2026-01-19T06:17:26Z) - BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models [62.38713281234756]
バイノーラルレンダリングパイプラインは、モノラルオーディオに基づいて自然な聴覚を模倣するオーディオを合成することを目的としている。
この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。
本稿では,BinauralFlow合成フレームワークという,フローマッチングに基づくストリーミング音声フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T20:59:15Z) - DAVE: Diagnostic benchmark for Audio Visual Evaluation [43.54781776394087]
DAVEは,聴覚・視覚モデルの評価を体系的に行うために設計された,新しいベンチマークデータセットである。
DAVEは、(i)両方のモダリティが正しく答えるのを確実にし、(ii)評価をアトミックなサブカテゴリに分離することで、既存の制限を緩和する。
最先端モデルの詳細な分析では、特定の障害モードを明らかにし、改善のための目標となる洞察を提供する。
論文 参考訳(メタデータ) (2025-03-12T12:12:46Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Novel-View Acoustic Synthesis from 3D Reconstructed Rooms [17.72902700567848]
そこで本研究では,視覚障害者のための視覚障害者向け音声録音と3Dシーン情報を組み合わせることの利点について検討する。
音源の定位, 分離, 残響として, 新規な音像合成の課題を明らかにした。
3次元再構成された部屋から引き起こされた室間インパルス応答(RIR)を組み込むことで、同じネットワークがこれらの課題に共同で取り組むことができることを示す。
論文 参考訳(メタデータ) (2023-10-23T17:34:31Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。