論文の概要: QASTAnet: A DNN-based Quality Metric for Spatial Audio
- arxiv url: http://arxiv.org/abs/2509.16715v1
- Date: Sat, 20 Sep 2025 14:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.939783
- Title: QASTAnet: A DNN-based Quality Metric for Spatial Audio
- Title(参考訳): QASTAnet:空間オーディオのためのDNNベースの品質指標
- Authors: Adrien Llave, Emma Granier, Grégory Pallone,
- Abstract要約: 本稿では,空間音響に特化したディープニューラルネットワークに基づく新しいメトリクスであるQASTAnet(Quality Assessment for SpaTial Audio Network)を提案する。
トレーニングデータが不足しているため、少量のデータでモデルをトレーニングできるようにすることを目標としています。
結果は、QASTAnetが既存のメソッドの制限を克服していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the development of spatial audio technologies, reliable and shared methods for evaluating audio quality are essential. Listening tests are currently the standard but remain costly in terms of time and resources. Several models predicting subjective scores have been proposed, but they do not generalize well to real-world signals. In this paper, we propose QASTAnet (Quality Assessment for SpaTial Audio network), a new metric based on a deep neural network, specialized on spatial audio (ambisonics and binaural). As training data is scarce, we aim for the model to be trainable with a small amount of data. To do so, we propose to rely on expert modeling of the low-level auditory system and use a neurnal network to model the high-level cognitive function of the quality judgement. We compare its performance to two reference metrics on a wide range of content types (speech, music, ambiance, anechoic, reverberated) and focusing on codec artifacts. Results demonstrate that QASTAnet overcomes the aforementioned limitations of the existing methods. The strong correlation between the proposed metric prediction and subjective scores makes it a good candidate for comparing codecs in their development.
- Abstract(参考訳): 空間オーディオ技術の発達において、音質を評価するための信頼性と共有の手法が不可欠である。
リスニングテストは現在標準ですが、時間とリソースの面ではコストがかかります。
主観的なスコアを予測するいくつかのモデルが提案されているが、それらは現実世界の信号にうまく当てはまらない。
本稿では,空間音響(アンビソニクスとバイノーラル)に特化したディープニューラルネットワークに基づく新しい指標であるQASTAnet(Quality Assessment for SpaTial Audio Network)を提案する。
トレーニングデータが不足しているため、少量のデータでモデルをトレーニングできるようにすることを目標としています。
そこで我々は,低レベル聴覚システムのエキスパート・モデリングに頼り,高品質判定の高レベル認知機能をモデル化するための神経ネットワークを提案する。
音声・音楽・アンビエンス・アネコニック・残響・残響)とコーデック・アーティファクト(コーデック・アーティファクト)を多岐にわたるコンテンツタイプ(音声・音楽・アンビエンス・アビエンス・アビエンス・アビエンス・アビエンス・アビエンス・アビエンス)で比較した。
その結果、QASTAnetは既存のメソッドの制限を克服していることがわかった。
提案したメトリック予測と主観的スコアとの強い相関は,コーデックの発達における比較によい候補となる。
関連論文リスト
- Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound [46.7144966835279]
本稿では,人間の介入なしに審美を予測できる自動システムの必要性に対処する。
人間の聴取視点を4つの異なる軸に分解する新しいガイドラインを提案する。
我々は、音声品質のより微妙な評価を提供する、ノン参照、イテムごとの予測モデルを開発し、訓練する。
論文 参考訳(メタデータ) (2025-02-07T18:15:57Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - How deep is your encoder: an analysis of features descriptors for an
autoencoder-based audio-visual quality metric [2.191505742658975]
No-Reference Audio-Visual Quality Metric Based on a Deep Autoencoder (NAViDAd)は、機械学習の観点からこの問題を扱う。
NAViDAdの基本的な実装は、様々なオーディオヴィジュアルデータベースでテストされた正確な予測を生成することができた。
論文 参考訳(メタデータ) (2020-03-24T20:15:12Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。