論文の概要: Learning Audio Concepts from Counterfactual Natural Language
- arxiv url: http://arxiv.org/abs/2401.04935v1
- Date: Wed, 10 Jan 2024 05:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:30:42.248457
- Title: Learning Audio Concepts from Counterfactual Natural Language
- Title(参考訳): 対人自然言語から音声概念を学ぶ
- Authors: Ali Vosoughi, Luca Bondi, Ho-Hsiang Wu, Chenliang Xu
- Abstract要約: 本研究では,音声領域における因果推論と反事実解析を紹介する。
本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。
具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
- 参考スコア(独自算出の注目度): 34.118579918018725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional audio classification relied on predefined classes, lacking the
ability to learn from free-form text. Recent methods unlock learning joint
audio-text embeddings from raw audio-text pairs describing audio in natural
language. Despite recent advancements, there is little exploration of
systematic methods to train models for recognizing sound events and sources in
alternative scenarios, such as distinguishing fireworks from gunshots at
outdoor events in similar situations. This study introduces causal reasoning
and counterfactual analysis in the audio domain. We use counterfactual
instances and include them in our model across different aspects. Our model
considers acoustic characteristics and sound source information from
human-annotated reference texts. To validate the effectiveness of our model, we
conducted pre-training utilizing multiple audio captioning datasets. We then
evaluate with several common downstream tasks, demonstrating the merits of the
proposed method as one of the first works leveraging counterfactual information
in audio domain. Specifically, the top-1 accuracy in open-ended language-based
audio retrieval task increased by more than 43%.
- Abstract(参考訳): 従来の音声分類は定義済みのクラスに依存しており、自由形式のテキストから学習する能力に欠けていた。
最近の手法は、自然言語による音声を記述した生音声テキストペアから、共同音声テキスト埋め込みを学習する。
近年の進歩にもかかわらず、同様の状況で屋外での花火と銃声を区別するなど、別のシナリオで音響イベントや音源を認識するためのモデルを訓練するための体系的な方法の探求はほとんどない。
本研究は,音声領域における因果推論と反事実分析を導入する。
反事実インスタンスを使用して、さまざまな側面にわたるモデルにそれらを含めます。
本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。
本モデルの有効性を検証するために,複数の音声キャプションデータセットを用いた事前学習を行った。
そこで我々は,提案手法の利点を,音声領域における対実情報を活用した最初の研究の1つとして示す。
具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
関連論文リスト
- Multimodal Input Aids a Bayesian Model of Phonetic Learning [0.6827423171182154]
本稿では,既存の音声コーパスのための高品質な音声合成ビデオを作成する方法を提案する。
我々の学習モデルは、オーディオ視覚入力の訓練と試験の両方を行うと、音素識別電池の8.1%の相対的な改善が達成される。
視覚情報は特にノイズの多いオーディオ環境において有益である。
論文 参考訳(メタデータ) (2024-07-22T19:00:11Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval [28.57294189207084]
音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
提案手法は音声キャプションに事前学習した言語モデルを用いることに成功している。
事前訓練したモデルベースキャプションジェネレータのオラクル性能は,スクラッチから訓練した従来の方法よりも明らかに良好であった。
論文 参考訳(メタデータ) (2020-12-14T08:27:36Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。