論文の概要: Killing two birds with one stone: Can an audio captioning system also be
used for audio-text retrieval?
- arxiv url: http://arxiv.org/abs/2308.15090v1
- Date: Tue, 29 Aug 2023 07:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 15:20:08.124788
- Title: Killing two birds with one stone: Can an audio captioning system also be
used for audio-text retrieval?
- Title(参考訳): 2羽の鳥を1石で殺す:音声キャプションシステムも音声テキスト検索に使えるのか?
- Authors: Etienne Labb\'e (IRIT-SAMoVA), Thomas Pellegrini (IRIT-SAMoVA), Julien
Pinquier (IRIT-SAMoVA)
- Abstract要約: 本研究は、音声テキスト検索(ATR)とAAC(Automated Audio Captioning)の関係について検討する。
ATRでは、任意のオーディオ/カプセル対に対して得られた標準のクロスエントロピー損失値を用いる。
ClothoとAudioCapsのデータセットの実験結果は、この単純なアプローチによる適切なリコール値を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Audio Captioning (AAC) aims to develop systems capable of
describing an audio recording using a textual sentence. In contrast, Audio-Text
Retrieval (ATR) systems seek to find the best matching audio recording(s) for a
given textual query (Text-to-Audio) or vice versa (Audio-to-Text). These tasks
require different types of systems: AAC employs a sequence-to-sequence model,
while ATR utilizes a ranking model that compares audio and text representations
within a shared projection subspace. However, this work investigates the
relationship between AAC and ATR by exploring the ATR capabilities of an
unmodified AAC system, without fine-tuning for the new task. Our AAC system
consists of an audio encoder (ConvNeXt-Tiny) trained on AudioSet for audio
tagging, and a transformer decoder responsible for generating sentences. For
AAC, it achieves a high SPIDEr-FL score of 0.298 on Clotho and 0.472 on
AudioCaps on average. For ATR, we propose using the standard Cross-Entropy loss
values obtained for any audio/caption pair. Experimental results on the Clotho
and AudioCaps datasets demonstrate decent recall values using this simple
approach. For instance, we obtained a Text-to-Audio R@1 value of 0.382 for
Au-dioCaps, which is above the current state-of-the-art method without external
data. Interestingly, we observe that normalizing the loss values was necessary
for Audio-to-Text retrieval.
- Abstract(参考訳): Automated Audio Captioning (AAC) は、テキストによる音声記録を記述できるシステムを開発することを目的としている。
対照的に、Audio-Text Retrieval (ATR) システムは、与えられたテキストクエリ (Text-to-Audio) やその逆 (Audio-to-Text) に最適な音声記録を見つけようとする。
これらのタスクは異なるタイプのシステムを必要とする: AACはシーケンス・ツー・シーケンスモデルを使用し、ATRは共有射影部分空間内の音声とテキストの表現を比較するランキングモデルを使用する。
しかし,本研究では,新しいタスクを微調整することなく,修正されていないAACシステムのATR機能を探索することにより,AACとATRの関係を解明する。
我々のAACシステムは、オーディオタグ付けのためにAudioSetで訓練されたオーディオエンコーダ(ConvNeXt-Tiny)と、文を生成するトランスフォーマーデコーダで構成される。
AACでは、Closoでは0.298、AudioCapsでは0.472のSPIDEr-FLスコアを達成した。
ATRでは、任意のオーディオ/カプセル対に対して得られた標準のクロスエントロピー損失値を用いる。
ClothoとAudioCapsのデータセットの実験結果は、この単純なアプローチによる適切なリコール値を示している。
たとえば、Au-dioCapsのText-to-Audio R@1値0.382は、外部データを持たない現在の最先端手法よりも高い。
興味深いことに、音声テキスト検索には損失値の正規化が不可欠である。
関連論文リスト
- Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Connecting the Dots between Audio and Text without Parallel Data through
Visual Knowledge Transfer [40.85506152074302]
VIP-ANTは、並列オーディオテキストデータを使用することなくtextbfAudio-textbfTextアライメントを誘導する。
本研究は,音声テキストデータの並列化をほとんど行わずに,音声テキスト接続を学習するための新たな道を開くものである。
論文 参考訳(メタデータ) (2021-12-16T16:22:10Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。