論文の概要: Audio Retrieval with WavText5K and CLAP Training
- arxiv url: http://arxiv.org/abs/2209.14275v1
- Date: Wed, 28 Sep 2022 17:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:59:16.832622
- Title: Audio Retrieval with WavText5K and CLAP Training
- Title(参考訳): WavText5KとCLAPによる音声検索
- Authors: Soham Deshmukh, Benjamin Elizalde, Huaming Wang
- Abstract要約: 我々は、WavText5Kと呼ぶ約5万のWebオーディオテキストペアの新しいコレクションを提案する。
検索システムのトレーニングに使用すると、WavText5Kは他のオーディオキャプションデータセットよりもパフォーマンスが向上した。
本フレームワークは,テキストエンコーダと2つのオーディオエンコーダ,およびコントラスト学習目標を用いて,言語と音声コンテンツを接続することを学ぶ。
- 参考スコア(独自算出の注目度): 8.362098382773265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Text retrieval takes a natural language query to retrieve relevant
audio files in a database. Conversely, Text-Audio retrieval takes an audio file
as a query to retrieve relevant natural language descriptions. Most of the
literature train retrieval systems with one audio captioning dataset, but
evaluating the benefit of training with multiple datasets is underexplored.
Moreover, retrieval systems have to learn the alignment between elaborated
sentences describing audio content of variable length ranging from a few
seconds to several minutes. In this work, we propose a new collection of web
audio-text pairs and a new framework for retrieval. First, we provide a new
collection of about five thousand web audio-text pairs that we refer to as
WavText5K. When used to train our retrieval system, WavText5K improved
performance more than other audio captioning datasets. Second, our framework
learns to connect language and audio content by using a text encoder, two audio
encoders, and a contrastive learning objective. Combining both audio encoders
helps to process variable length audio. The two contributions beat state of the
art performance for AudioCaps and Clotho on Text-Audio retrieval by a relative
2% and 16%, and Audio-Text retrieval by 6% and 23%.
- Abstract(参考訳): 音声テキスト検索は自然言語クエリを受け取り、データベース内の関連するオーディオファイルを取得する。
逆に、テキスト音声検索は、音声ファイルをクエリとして、関連する自然言語記述を取得する。
1つの音声キャプションデータセットを用いた検索システムはほとんどが、複数のデータセットを用いたトレーニングのメリットの評価は未検討である。
さらに,検索システムは,数秒から数分間の可変長の音声内容を記述する精巧な文間のアライメントを学習する必要がある。
本研究では,Web音声テキストペアの新しいコレクションと検索のための新しいフレームワークを提案する。
まず、WavText5Kと呼ぶ約5万のWebオーディオテキストペアの新しいコレクションを提供する。
検索システムのトレーニングに使用すると、WavText5Kは他のオーディオキャプションデータセットよりもパフォーマンスが向上した。
第2に,テキストエンコーダと2つのオーディオエンコーダ,およびコントラスト学習目標を用いて,言語と音声コンテンツを接続することを学ぶ。
両オーディオエンコーダの組み合わせは、可変長オーディオの処理に役立つ。
この2つのコントリビューションは、Audio-Audio検索におけるAudioCapsとClothoのアートパフォーマンスを2%と16%、Audio-Text検索を6%と23%で上回った。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。
我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。
提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文 参考訳(メタデータ) (2024-06-11T07:12:12Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Introducing Auxiliary Text Query-modifier to Content-based Audio
Retrieval [37.02112904035811]
公開ウェブサイトで利用できる音声データの量は急速に増加している。
本稿では,問合せ音声と似ているが若干異なるターゲット音声を検索できるコンテンツベース音声検索手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T08:19:54Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Connecting the Dots between Audio and Text without Parallel Data through
Visual Knowledge Transfer [40.85506152074302]
VIP-ANTは、並列オーディオテキストデータを使用することなくtextbfAudio-textbfTextアライメントを誘導する。
本研究は,音声テキストデータの並列化をほとんど行わずに,音声テキスト接続を学習するための新たな道を開くものである。
論文 参考訳(メタデータ) (2021-12-16T16:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。