論文の概要: Furnishing Sound Event Detection with Language Model Abilities
- arxiv url: http://arxiv.org/abs/2308.11530v1
- Date: Tue, 22 Aug 2023 15:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:03:21.348856
- Title: Furnishing Sound Event Detection with Language Model Abilities
- Title(参考訳): 言語モデル能力を考慮した消音イベント検出
- Authors: Hualei Wang, Jianguo Mao, Zhifang Guo, Jiarui Wan, Hong Liu, Xiangdong
Wang
- Abstract要約: 本稿では,音のイベント分類と時間的位置を求めるために,音声特徴とテキスト特徴を整列させるエレガントな手法を提案する。
フレームワークは、アコースティックエンコーダと、テキストとオーディオの対応する表現を整列するコントラストモジュールと、分離された言語デコーダで構成される。
- 参考スコア(独自算出の注目度): 11.435984426303419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the ability of language models (LMs) has attracted increasing
attention in visual cross-modality. In this paper, we further explore the
generation capacity of LMs for sound event detection (SED), beyond the visual
domain. Specifically, we propose an elegant method that aligns audio features
and text features to accomplish sound event classification and temporal
location. The framework consists of an acoustic encoder, a contrastive module
that align the corresponding representations of the text and audio, and a
decoupled language decoder that generates temporal and event sequences from the
audio characteristic. Compared with conventional works that require complicated
processing and barely utilize limited audio features, our model is more concise
and comprehensive since language model directly leverage its semantic
capabilities to generate the sequences. We investigate different decoupling
modules to demonstrate the effectiveness for timestamps capture and event
classification. Evaluation results show that the proposed method achieves
accurate sequences of sound event detection.
- Abstract(参考訳): 近年,言語モデル(LM)の能力は視覚的横断性において注目を集めている。
本稿では,視覚領域を超えて,音イベント検出(sed)のためのlmsの生成能力について検討する。
具体的には,音声特徴とテキスト特徴を整合させ,音声イベントの分類と時間的位置を実現するエレガントな手法を提案する。
このフレームワークは、音響エンコーダと、対応するテキストと音声の表現を整合させるコントラストモジュールと、オーディオ特性から時間的および事象のシーケンスを生成する分離言語デコーダで構成されている。
複雑な処理を要し、限られた音声特徴をほとんど利用しない従来の手法と比較して、言語モデルは、その意味的能力を直接利用してシーケンスを生成するため、より簡潔で包括的である。
我々は,タイムスタンプキャプチャとイベント分類の有効性を示すために,異なるデカップリングモジュールを調査した。
評価の結果,提案手法は音響イベント検出の精度が向上した。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。
音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。
T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2024-04-27T07:05:48Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Enhance audio generation controllability through representation
similarity regularization [23.320569279485472]
本稿では,モデル学習における音声表現とテキスト表現のアライメントを強調することによって,音声生成の制御を強化する革新的なアプローチを提案する。
提案手法は、音声と音楽の両方の客観的な指標の改善と、音声生成における人間の知覚の向上につながる。
論文 参考訳(メタデータ) (2023-09-15T21:32:20Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Rethinking Audio-visual Synchronization for Active Speaker Detection [62.95962896690992]
アクティブ話者検出(ASD)に関する既存の研究は、アクティブ話者の定義に一致しない。
本稿では,アテンションモジュールに位置符号化を適用し,教師付きASDモデルに適用し,同期キューを活用することを提案する。
実験結果から,既存モデルの制限に対処して,非同期音声を発話しないものとして検出できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T14:19:06Z) - Automatic Audio Captioning using Attention weighted Event based
Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。
AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文 参考訳(メタデータ) (2022-01-28T05:54:19Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。