論文の概要: Introducing Auxiliary Text Query-modifier to Content-based Audio
Retrieval
- arxiv url: http://arxiv.org/abs/2207.09732v1
- Date: Wed, 20 Jul 2022 08:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:09:24.818986
- Title: Introducing Auxiliary Text Query-modifier to Content-based Audio
Retrieval
- Title(参考訳): コンテンツベース音声検索における補助テキストクエリ修飾器の導入
- Authors: Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio
Kashino
- Abstract要約: 公開ウェブサイトで利用できる音声データの量は急速に増加している。
本稿では,問合せ音声と似ているが若干異なるターゲット音声を検索できるコンテンツベース音声検索手法を提案する。
- 参考スコア(独自算出の注目度): 37.02112904035811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The amount of audio data available on public websites is growing rapidly, and
an efficient mechanism for accessing the desired data is necessary. We propose
a content-based audio retrieval method that can retrieve a target audio that is
similar to but slightly different from the query audio by introducing auxiliary
textual information which describes the difference between the query and target
audio. While the range of conventional content-based audio retrieval is limited
to audio that is similar to the query audio, the proposed method can adjust the
retrieval range by adding an embedding of the auxiliary text query-modifier to
the embedding of the query sample audio in a shared latent space. To evaluate
our method, we built a dataset comprising two different audio clips and the
text that describes the difference. The experimental results show that the
proposed method retrieves the paired audio more accurately than the baseline.
We also confirmed based on visualization that the proposed method obtains the
shared latent space in which the audio difference and the corresponding text
are represented as similar embedding vectors.
- Abstract(参考訳): 公開ウェブサイトで利用可能な音声データの量は急速に増加しており、望ましいデータにアクセスするための効率的なメカニズムが必要である。
本稿では,クエリとターゲットオーディオの違いを記述した補助的なテキスト情報を導入することで,クエリオーディオと似ているが若干異なるターゲットオーディオを検索できるコンテンツベース音声検索手法を提案する。
従来のコンテンツベース音声検索の範囲は、クエリ音声と類似するオーディオに限定されているが、提案手法では、クエリサンプル音声の共有潜在空間への埋め込みに補助テキストクエリ修飾子の埋め込みを追加することで、検索範囲を調整できる。
提案手法を評価するために,2つの異なる音声クリップと差分を記述したテキストからなるデータセットを構築した。
実験の結果,提案手法はベースラインよりも精度良くペアオーディオを検索できることがわかった。
また,提案手法は,音声の差分と対応するテキストが類似した埋め込みベクトルとして表現される共有潜時空間が得られることを示す。
関連論文リスト
- Audio Captioning via Generative Pair-to-Pair Retrieval with Refined Knowledge Base [0.0]
Retrieval-Augmented Generation (RAG)は、知識ベースから音声テキストペアを検索し、クエリオーディオで拡張し、正確なテキスト応答を生成する。
生成したキャプションをテキストクエリとして使用して,関連する音声テキストペアを正確に検索する生成ペア対検索を提案する。
提案手法は,AudioCaps,Clotho,Auto-ACDといったベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-10-14T04:57:32Z) - Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval [3.997809845676912]
生音声信号とテキスト記述とを一致させるには、音声の内容と記述の意味を理解する必要がある。
本稿では,音声メタデータを付加的な手がかりとして用いたハイブリッド検索システムについて検討する。
論文 参考訳(メタデータ) (2024-06-22T17:19:51Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio Difference Learning for Audio Captioning [44.55621877667949]
本研究では,音声キャプション改善のための新しい学習パラダイムである音声差分学習を導入する。
Clotho と ESC50 のデータセットを用いた実験では,従来の手法と比較してSPIDEr のスコアが7%向上した。
論文 参考訳(メタデータ) (2023-09-15T04:11:37Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Audio Retrieval with WavText5K and CLAP Training [8.362098382773265]
我々は、WavText5Kと呼ぶ約5万のWebオーディオテキストペアの新しいコレクションを提案する。
検索システムのトレーニングに使用すると、WavText5Kは他のオーディオキャプションデータセットよりもパフォーマンスが向上した。
本フレームワークは,テキストエンコーダと2つのオーディオエンコーダ,およびコントラスト学習目標を用いて,言語と音声コンテンツを接続することを学ぶ。
論文 参考訳(メタデータ) (2022-09-28T17:39:26Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。