論文の概要: SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation
- arxiv url: http://arxiv.org/abs/2601.19702v1
- Date: Tue, 27 Jan 2026 15:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.367031
- Title: SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation
- Title(参考訳): SAM Audio Judge: 音声分離の知覚評価のための統一型マルチモーダルフレームワーク
- Authors: Helin Wang, Bowen Shi, Andros Tjandra, John Hoffman, Yi-Chiao Wu, Apoorv Vyas, Najim Dehak, Ann Lee, Wei-Ning Hsu,
- Abstract要約: 本稿では,人間の介入なしに音声の分離を評価できる自動システムの必要性に対処する。
提案した評価指標であるSAM Audio Judge (SAJ) は, マルチモーダルな細粒度参照自由度尺度である。
SAJは3つのオーディオドメイン(音声、音楽、一般的な音声イベント)と3つのインプット(テキスト、視覚、スパン)をサポートし、4つの異なる評価次元をカバーする。
- 参考スコア(独自算出の注目度): 52.468945848774844
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The performance evaluation remains a complex challenge in audio separation, and existing evaluation metrics are often misaligned with human perception, course-grained, relying on ground truth signals. On the other hand, subjective listening tests remain the gold standard for real-world evaluation, but they are expensive, time-consuming, and difficult to scale. This paper addresses the growing need for automated systems capable of evaluating audio separation without human intervention. The proposed evaluation metric, SAM Audio Judge (SAJ), is a multimodal fine-grained reference-free objective metric, which shows highly alignment with human perceptions. SAJ supports three audio domains (speech, music and general sound events) and three prompt inputs (text, visual and span), covering four different dimensions of evaluation (recall, percision, faithfulness, and overall). SAM Audio Judge also shows potential applications in data filtering, pseudo-labeling large datasets and reranking in audio separation models. We release our code and pre-trained models at: https://github.com/facebookresearch/sam-audio.
- Abstract(参考訳): パフォーマンス評価は、音声分離において複雑な課題であり、既存の評価指標は、しばしば人間の知覚と不一致している。
一方、主観的聴力テストは実世界の評価においてゴールドスタンダードのままであるが、高価で時間を要するため、スケールが困難である。
本稿では、人間の介入なしに音声の分離を評価できる自動化システムの必要性の高まりについて述べる。
提案した評価指標であるSAM Audio Judge (SAJ) は,人間の知覚と高度に一致した,多モードの微細な参照自由客観評価指標である。
SAJは3つのオーディオドメイン(音声、音楽、一般的な音声イベント)と3つのインプット(テキスト、視覚、スパン)をサポートし、4つの異なる評価次元(リコール、パーシジョン、忠実さ、全体)をカバーする。
SAM Audio Judgeはまた、データフィルタリング、擬似ラベル付き大規模データセット、オーディオ分離モデルにおける潜在的な応用を示す。
コードと事前トレーニングされたモデルを、https://github.com/facebookresearch/sam-audio.comでリリースします。
関連論文リスト
- SAM Audio: Segment Anything in Audio [55.50609519820557]
一般的なオーディオソース分離は、マルチモーダルAIシステムにとって重要な機能である。
本稿では,一般的な音声分離のための基礎モデルであるSAM Audioを紹介する。
テキスト、ビジュアル、タイムスパンを単一のフレームワーク内で統合する。
論文 参考訳(メタデータ) (2025-12-19T22:14:23Z) - JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation [16.067014259345743]
我々は、データセット上で、視覚のみ、音声のみ、およびOmni-LLMを優先的に評価する。
最高性能のOmni-LLMでさえ平均精度は62.6%であり、ユニモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-14T17:23:21Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound [46.7144966835279]
本稿では,人間の介入なしに審美を予測できる自動システムの必要性に対処する。
人間の聴取視点を4つの異なる軸に分解する新しいガイドラインを提案する。
我々は、音声品質のより微妙な評価を提供する、ノン参照、イテムごとの予測モデルを開発し、訓練する。
論文 参考訳(メタデータ) (2025-02-07T18:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。