論文の概要: Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval
- arxiv url: http://arxiv.org/abs/2406.15897v2
- Date: Tue, 2 Jul 2024 12:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:39:57.044913
- Title: Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval
- Title(参考訳): Fusing Audio and Metadata Embeddingsは言語ベースのオーディオ検索を改善する
- Authors: Paul Primus, Gerhard Widmer,
- Abstract要約: 生音声信号とテキスト記述とを一致させるには、音声の内容と記述の意味を理解する必要がある。
本稿では,音声メタデータを付加的な手がかりとして用いたハイブリッド検索システムについて検討する。
- 参考スコア(独自算出の注目度): 3.997809845676912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matching raw audio signals with textual descriptions requires understanding the audio's content and the description's semantics and then drawing connections between the two modalities. This paper investigates a hybrid retrieval system that utilizes audio metadata as an additional clue to understand the content of audio signals before matching them with textual queries. We experimented with metadata often attached to audio recordings, such as keywords and natural-language descriptions, and we investigated late and mid-level fusion strategies to merge audio and metadata. Our hybrid approach with keyword metadata and late fusion improved the retrieval performance over a content-based baseline by 2.36 and 3.69 pp. mAP@10 on the ClothoV2 and AudioCaps benchmarks, respectively.
- Abstract(参考訳): 生音声信号とテキスト記述とを一致させるには、音声の内容と記述の意味を理解する必要がある。
本稿では,音声メタデータを利用したハイブリッド検索システムについて検討する。
我々は,キーワードや自然言語記述などの音声記録に付随するメタデータを実験し,音声とメタデータを融合するための後期・中期融合戦略について検討した。
キーワードメタデータとレイトフュージョンを用いたハイブリッド手法により,コンテンツベースベースラインでの検索性能を2.36pp,3.69pp。
ClothoV2ベンチマークとAudioCapsベンチマークのmAP@10。
関連論文リスト
- Audio Captioning via Generative Pair-to-Pair Retrieval with Refined Knowledge Base [0.0]
Retrieval-Augmented Generation (RAG)は、知識ベースから音声テキストペアを検索し、クエリオーディオで拡張し、正確なテキスト応答を生成する。
生成したキャプションをテキストクエリとして使用して,関連する音声テキストペアを正確に検索する生成ペア対検索を提案する。
提案手法は,AudioCaps,Clotho,Auto-ACDといったベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-10-14T04:57:32Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Introducing Auxiliary Text Query-modifier to Content-based Audio
Retrieval [37.02112904035811]
公開ウェブサイトで利用できる音声データの量は急速に増加している。
本稿では,問合せ音声と似ているが若干異なるターゲット音声を検索できるコンテンツベース音声検索手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T08:19:54Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based
Robust Speech Recognition [27.742673824969238]
提案手法は, クリーンで目立たない騒音条件下での認識率を平均0.55%, 4.51%, 4.61%向上させることができる。
LRS3-TEDデータセットの実験により、提案手法は平均0.55%、4.51%、4.61%の認識率を向上できることが示された。
論文 参考訳(メタデータ) (2020-08-06T14:39:07Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。