論文の概要: Improving Perceptual Audio Aesthetic Assessment via Triplet Loss and Self-Supervised Embeddings
- arxiv url: http://arxiv.org/abs/2509.03292v1
- Date: Wed, 03 Sep 2025 13:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.524622
- Title: Improving Perceptual Audio Aesthetic Assessment via Triplet Loss and Self-Supervised Embeddings
- Title(参考訳): Triplet Loss と Self-Supervised Embeddings による知覚的聴覚評価の改善
- Authors: Dyah A. M. G. Wisnu, Ryandhimas E. Zezario, Stefano Rini, Hsin-Min Wang, Yu Tsao,
- Abstract要約: 生成音声の自動多軸知覚品質予測システムを提案する。
この課題は、テキスト音声(TTS)、テキスト音声(TTA)、テキスト音声(TTM)システムによって生成された音声に対して、品質、生産複雑さ、コンテンツ満足度、コンテンツ有用性の4つの美的スコアを予測することである。
- 参考スコア(独自算出の注目度): 32.813673146878685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a system for automatic multi-axis perceptual quality prediction of generative audio, developed for Track 2 of the AudioMOS Challenge 2025. The task is to predict four Audio Aesthetic Scores--Production Quality, Production Complexity, Content Enjoyment, and Content Usefulness--for audio generated by text-to-speech (TTS), text-to-audio (TTA), and text-to-music (TTM) systems. A main challenge is the domain shift between natural training data and synthetic evaluation data. To address this, we combine BEATs, a pretrained transformer-based audio representation model, with a multi-branch long short-term memory (LSTM) predictor and use a triplet loss with buffer-based sampling to structure the embedding space by perceptual similarity. Our results show that this improves embedding discriminability and generalization, enabling domain-robust audio quality assessment without synthetic training data.
- Abstract(参考訳): 本稿では,AudioMOS Challenge 2025のトラック2向けに開発された生成音声の自動多軸知覚品質予測システムを提案する。
この課題は、テキスト音声(TTS)、テキスト音声(TTA)、テキスト音声(TTM)システムによって生成された音声に対して、品質、生産複雑さ、コンテンツ満足度、コンテンツ有用性の4つの美的スコアを予測することである。
主な課題は、自然学習データと総合評価データとのドメインシフトである。
これを解決するために,事前訓練されたトランスフォーマーベース音声表現モデルBEATと,マルチブランチ長短期メモリ(LSTM)予測器を併用し,バッファベースサンプリングによるトリプルトロスを用いて,組込み空間を知覚的類似性で構成する。
以上の結果から, 組込み識別性や一般化が向上し, 合成学習データなしで, ドメイン・ロバストな音質評価が可能となった。
関連論文リスト
- ETTA: Elucidating the Design Space of Text-to-Audio Models [33.831803213869605]
対象ベンチマークに対するデータ,モデルアーキテクチャ,目標関数のトレーニング,およびサンプリング戦略の効果について検討する。
Eucidated Text-To-Audio (ETTA) と呼ばれる最良のモデルを提案する。
ETTAは、公開データでトレーニングされたベースラインよりも改善され、プロプライエタリデータでトレーニングされたモデルと競合する。
論文 参考訳(メタデータ) (2024-12-26T21:13:12Z) - Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation [3.2472293599354596]
本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声イベントの定位と検出を行うシステムについて述べる。
本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。
このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
論文 参考訳(メタデータ) (2024-10-29T17:28:43Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - BATON: Aligning Text-to-Audio Model with Human Preference Feedback [21.369200033063752]
BATONフレームワークは、人間の好みのフィードバックを用いて生成された音声とテキストプロンプトのアライメントを強化するように設計されている。
実験の結果,BATONはオリジナルテキスト・オーディオ・モデルの生成品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-02-01T16:39:47Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。