論文の概要: Environmental Sound Extraction Using Onomatopoeia
- arxiv url: http://arxiv.org/abs/2112.00209v2
- Date: Thu, 2 Dec 2021 03:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 12:14:42.874988
- Title: Environmental Sound Extraction Using Onomatopoeia
- Title(参考訳): オノマトペを用いた環境音抽出
- Authors: Yuki Okamoto, Shota Horiguchi, Masaaki Yamamoto, Keisuke Imoto, Yohei
Kawaguchi
- Abstract要約: 本研究では,オノマトペを用いた環境音抽出手法を提案する。
実験結果から,オノマトピアに対応する対象音のみを抽出できることが示唆された。
- 参考スコア(独自算出の注目度): 16.331395218775846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Onomatopoeia, which is a character sequence that phonetically imitates a
sound, is effective in expressing characteristics of sound such as duration,
pitch, and timbre. We propose an environmental-sound-extraction method using
onomatopoeia to specify the target sound to be extracted. With this method, we
estimate a time-frequency mask from an input mixture spectrogram and
onomatopoeia by using U-Net architecture then extract the corresponding target
sound by masking the spectrogram. Experimental results indicate that the
proposed method can extract only the target sound corresponding to onomatopoeia
and performs better than conventional methods that use sound-event classes to
specify the target sound.
- Abstract(参考訳): 音を音響的に模倣する文字列であるオノマトペは、持続時間、ピッチ、音色などの音の特徴を表現するのに有効である。
本研究では,オノマトペを用いた環境音抽出手法を提案する。
本手法では,U-Netアーキテクチャを用いて入力混合分光図とオノマトペから時間周波数マスクを推定し,そのマスクにより対応するターゲット音を抽出する。
実験の結果,提案手法はオノマトペに対応する目標音のみを抽出でき,目標音の特定に音響イベントクラスを用いる従来の手法よりも優れた性能を示すことがわかった。
関連論文リスト
- Images that Sound: Composing Images and Sounds on a Single Canvas [22.653195012748927]
自然画像と自然音声とを併用した分光図の合成が可能であることを示す。
我々のアプローチは単純でゼロショットであり、事前訓練されたテキスト・ツー・イメージとテキスト・トゥ・スペクトログラム拡散モデルを利用する。
提案手法は,所望の音声プロンプトと一致したスペクトログラムを生成すると同時に,所望の映像プロンプトの視覚的外観を抽出する。
論文 参考訳(メタデータ) (2024-05-20T17:59:59Z) - Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。