論文の概要: SAM Audio: Segment Anything in Audio
- arxiv url: http://arxiv.org/abs/2512.18099v1
- Date: Fri, 19 Dec 2025 22:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.573382
- Title: SAM Audio: Segment Anything in Audio
- Title(参考訳): SAM Audio: オーディオのセグメンテーション
- Authors: Bowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee,
- Abstract要約: 一般的なオーディオソース分離は、マルチモーダルAIシステムにとって重要な機能である。
本稿では,一般的な音声分離のための基礎モデルであるSAM Audioを紹介する。
テキスト、ビジュアル、タイムスパンを単一のフレームワーク内で統合する。
- 参考スコア(独自算出の注目度): 55.50609519820557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.
- Abstract(参考訳): 一般的な音源分離は、音を知覚し、推論できるマルチモーダルAIシステムにとって重要な機能である。
近年の進歩にもかかわらず、既存の分離モデルはドメイン固有であり、音声や音楽などの固定されたカテゴリ用に設計されているか、制御性に制限されている。
本研究では,1つのフレームワーク内でテキスト,視覚,時間的スパン処理を統一する一般音声分離基盤モデルであるSAM Audioを提案する。
SAM Audioは、拡散トランスフォーマーアーキテクチャに基づいて、音声、音楽、一般音にまたがる大規模オーディオデータのフローマッチングを訓練し、言語、視覚マスク、時間スパンによって記述されたターゲットソースを柔軟に分離することができる。
このモデルは、一般音、音声、音楽、楽器の分離など、様々なベンチマークで最先端のパフォーマンスを実現している。
さらに,人間ラベル付きマルチモーダルプロンプトを用いた実世界分離ベンチマークと,人間の判断と強く相関する基準自由評価モデルを導入する。
関連論文リスト
- USAD: Universal Speech and Audio Representation via Distillation [56.91647396619358]
Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。
USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
論文 参考訳(メタデータ) (2025-06-23T17:02:00Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。