論文の概要: Furnishing Sound Event Detection with Language Model Abilities
- arxiv url: http://arxiv.org/abs/2308.11530v1
- Date: Tue, 22 Aug 2023 15:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:03:21.348856
- Title: Furnishing Sound Event Detection with Language Model Abilities
- Title(参考訳): 言語モデル能力を考慮した消音イベント検出
- Authors: Hualei Wang, Jianguo Mao, Zhifang Guo, Jiarui Wan, Hong Liu, Xiangdong
Wang
- Abstract要約: 本稿では,音のイベント分類と時間的位置を求めるために,音声特徴とテキスト特徴を整列させるエレガントな手法を提案する。
フレームワークは、アコースティックエンコーダと、テキストとオーディオの対応する表現を整列するコントラストモジュールと、分離された言語デコーダで構成される。
- 参考スコア(独自算出の注目度): 11.435984426303419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the ability of language models (LMs) has attracted increasing
attention in visual cross-modality. In this paper, we further explore the
generation capacity of LMs for sound event detection (SED), beyond the visual
domain. Specifically, we propose an elegant method that aligns audio features
and text features to accomplish sound event classification and temporal
location. The framework consists of an acoustic encoder, a contrastive module
that align the corresponding representations of the text and audio, and a
decoupled language decoder that generates temporal and event sequences from the
audio characteristic. Compared with conventional works that require complicated
processing and barely utilize limited audio features, our model is more concise
and comprehensive since language model directly leverage its semantic
capabilities to generate the sequences. We investigate different decoupling
modules to demonstrate the effectiveness for timestamps capture and event
classification. Evaluation results show that the proposed method achieves
accurate sequences of sound event detection.
- Abstract(参考訳): 近年,言語モデル(LM)の能力は視覚的横断性において注目を集めている。
本稿では,視覚領域を超えて,音イベント検出(sed)のためのlmsの生成能力について検討する。
具体的には,音声特徴とテキスト特徴を整合させ,音声イベントの分類と時間的位置を実現するエレガントな手法を提案する。
このフレームワークは、音響エンコーダと、対応するテキストと音声の表現を整合させるコントラストモジュールと、オーディオ特性から時間的および事象のシーケンスを生成する分離言語デコーダで構成されている。
複雑な処理を要し、限られた音声特徴をほとんど利用しない従来の手法と比較して、言語モデルは、その意味的能力を直接利用してシーケンスを生成するため、より簡潔で包括的である。
我々は,タイムスタンプキャプチャとイベント分類の有効性を示すために,異なるデカップリングモジュールを調査した。
評価の結果,提案手法は音響イベント検出の精度が向上した。
関連論文リスト
- Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - Enhance audio generation controllability through representation
similarity regularization [23.320569279485472]
本稿では,モデル学習における音声表現とテキスト表現のアライメントを強調することによって,音声生成の制御を強化する革新的なアプローチを提案する。
提案手法は、音声と音楽の両方の客観的な指標の改善と、音声生成における人間の知覚の向上につながる。
論文 参考訳(メタデータ) (2023-09-15T21:32:20Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Unsupervised Improvement of Audio-Text Cross-Modal Representations [19.960695758478153]
本研究では、教師なしのテキストと音声を用いて、そのような表現の学習フレームワークを改善するための教師なしのアプローチについて研究する。
ドメイン固有のキュレーションをソフトラベル付きコントラスト損失と併用することで、ゼロショット分類性能において大幅な改善が得られることを示す。
論文 参考訳(メタデータ) (2023-05-03T02:30:46Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。