論文の概要: Audio-text Retrieval in Context
- arxiv url: http://arxiv.org/abs/2203.13645v1
- Date: Fri, 25 Mar 2022 13:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 17:44:31.046215
- Title: Audio-text Retrieval in Context
- Title(参考訳): 文脈における音声テキスト検索
- Authors: Siyu Lou, Xuenan Xu, Mengyue Wu, Kai Yu
- Abstract要約: そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
- 参考スコア(独自算出の注目度): 24.38055340045366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-text retrieval based on natural language descriptions is a challenging
task. It involves learning cross-modality alignments between long sequences
under inadequate data conditions. In this work, we investigate several audio
features as well as sequence aggregation methods for better audio-text
alignment. Moreover, through a qualitative analysis we observe that semantic
mapping is more important than temporal relations in contextual retrieval.
Using pre-trained audio features and a descriptor-based aggregation method, we
build our contextual audio-text retrieval system. Specifically, we utilize
PANNs features pre-trained on a large sound event dataset and NetRVLAD pooling,
which directly works with averaged descriptors. Experiments are conducted on
the AudioCaps and CLOTHO datasets, and results are compared with the previous
state-of-the-art system. With our proposed system, a significant improvement
has been achieved on bidirectional audio-text retrieval, on all metrics
including recall, median and mean rank.
- Abstract(参考訳): 自然言語記述に基づく音声テキスト検索は難しい課題である。
不適切なデータ条件下で長いシーケンス間の相互モダリティアライメントを学ぶことを含む。
本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
さらに,質的分析を通じて,文脈検索において意味マッピングが時間的関係よりも重要であることを確認する。
事前学習された音声機能とディスクリプタに基づく集約手法を用いて,文脈音声テキスト検索システムを構築する。
具体的には,大規模な音響イベントデータセットとNetRVLADプーリングで事前トレーニングされたPANNの機能を利用する。
実験はAudioCapsとCLOTHOデータセットで行われ、その結果は以前の最先端システムと比較される。
提案システムでは,リコール,中央値,平均ランクなどすべての指標において,双方向音声テキスト検索において大きな改善が得られた。
関連論文リスト
- Audio Captioning via Generative Pair-to-Pair Retrieval with Refined Knowledge Base [0.0]
Retrieval-Augmented Generation (RAG)は、知識ベースから音声テキストペアを検索し、クエリオーディオで拡張し、正確なテキスト応答を生成する。
生成したキャプションをテキストクエリとして使用して,関連する音声テキストペアを正確に検索する生成ペア対検索を提案する。
提案手法は,AudioCaps,Clotho,Auto-ACDといったベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-10-14T04:57:32Z) - Dissecting Temporal Understanding in Text-to-Audio Retrieval [22.17493527005141]
テキスト・音声検索の文脈において,音の時間的順序付けは未検討の問題である。
特に,AudioCaps および Clotho データセット上でのテキスト音声検索のための最先端モデルの時間的理解能力について検討する。
本稿では,テキストオーディオモデルにイベントの時間的順序付けに焦点をあてるロス関数を提案する。
論文 参考訳(メタデータ) (2024-09-01T22:01:21Z) - Distance Sampling-based Paraphraser Leveraging ChatGPT for Text Data Manipulation [15.765495448426904]
本稿では,音声検索タスクにおけるデータ不均衡問題に対処する新しい手法を提案する。
ChatGPTを利用した距離サンプリングに基づくパラフレーズは、操作されたテキストデータの制御可能な分布を生成する。
提案手法は音声テキスト検索の性能を大幅に向上させ,従来のテキスト拡張手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-01T07:44:28Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。