Fugu-MT 論文翻訳(概要): Audio Mamba: Pretrained Audio State Space Model For Audio Tagging

論文の概要: Audio Mamba: Pretrained Audio State Space Model For Audio Tagging

arxiv url: http://arxiv.org/abs/2405.13636v1
Date: Wed, 22 May 2024 13:35:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 00:04:43.801505
Title: Audio Mamba: Pretrained Audio State Space Model For Audio Tagging
Title（参考訳）: オーディオ・マンバ:オーディオ・タグ付けのための事前訓練されたオーディオ・ステート・スペース・モデル
Authors: Jiaju Lin, Haoxuan Hu,
Abstract要約: 状態空間モデルとの長い音声スペクトログラム依存性をキャプチャする自己注意のないアプローチであるAudio Mambaを提案する。 2つのオーディオタグ付けデータセットの実験結果から,Audio Mambaのパラメータ効率を示すとともに,第3パラメータを持つSOTAオーディオスペクトログラム変換器に匹敵する結果を得た。
参考スコア（独自算出の注目度）: 1.2123876307427102
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio tagging is an important task of mapping audio samples to their corresponding categories. Recently endeavours that exploit transformer models in this field have achieved great success. However, the quadratic self-attention cost limits the scaling of audio transformer models and further constrains the development of more universal audio models. In this paper, we attempt to solve this problem by proposing Audio Mamba, a self-attention-free approach that captures long audio spectrogram dependency with state space models. Our experimental results on two audio-tagging datasets demonstrate the parameter efficiency of Audio Mamba, it achieves comparable results to SOTA audio spectrogram transformers with one third parameters.
Abstract（参考訳）: オーディオタグ付けは、オーディオサンプルを対応するカテゴリにマッピングする重要なタスクである。近年,この分野でのトランスフォーマーモデルを活用した取り組みは大きな成功を収めている。しかしながら、二次的な自己注意コストは、オーディオトランスフォーマーモデルのスケーリングを制限し、より普遍的なオーディオモデルの開発をさらに制限する。本稿では、状態空間モデルによる長い音声スペクトログラム依存性をキャプチャする自己注意のないアプローチであるAudio Mambaを提案する。 2つのオーディオタグ付けデータセットによる実験結果から,Audio Mambaのパラメータ効率を示すとともに,第3パラメータを持つSOTAオーディオスペクトログラム変換器に匹敵する結果を得た。

関連論文リスト

AudioX: Diffusion Transformer for Anything-to-Audio Generation [72.84633243365093]
AudioXはAnything-to-Audio and Music Generation用の統合拡散トランスフォーマーモデルである。オーディオと音楽の両方を高品質で生成でき、柔軟性のある自然言語コントロールを提供する。データ不足に対処するため、VGGSoundデータセットに基づく190Kの音声キャプションを持つvggsound-capと、V2Mデータセットから派生した600万の音楽キャプションを持つV2M-capの2つのデータセットをキュレートする。
論文参考訳（メタデータ） (2025-03-13T16:30:59Z)
YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。数ショット設定で高品質なオーディオ生成をサポートする。本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文参考訳（メタデータ） (2024-12-12T10:55:57Z)
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。 11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文参考訳（メタデータ） (2024-09-27T12:06:53Z)
Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。 GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。 57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文参考訳（メタデータ） (2024-06-27T17:58:54Z)
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.472819870523093]
本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-05T15:00:59Z)
Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations [16.269123889392343]
本研究は,汎用音声表現学習のための選択状態空間モデルであるAudio Mambaを提案する。 10種類の多様なオーディオ認識ダウンストリームタスクに対する実験結果から、提案したモデルは、同等の自己教師型オーディオスペクトログラム変換器のベースラインを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-06-04T10:19:14Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2023-08-14T15:47:25Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文参考訳（メタデータ） (2022-05-30T02:09:26Z)
Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文参考訳（メタデータ） (2020-05-29T01:30:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。