論文の概要: Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text
- arxiv url: http://arxiv.org/abs/2003.12265v1
- Date: Fri, 27 Mar 2020 07:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:39:28.675072
- Title: Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text
- Title(参考訳): 非構造化多言語テキストからの教師なしクロスモーダル音声表現学習
- Authors: Alexander Schindler, Sergiu Gordea, Peter Knees
- Abstract要約: 教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
- 参考スコア(独自算出の注目度): 69.55642178336953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to unsupervised audio representation learning. Based
on a triplet neural network architecture, we harnesses semantically related
cross-modal information to estimate audio track-relatedness. By applying Latent
Semantic Indexing (LSI) we embed corresponding textual information into a
latent vector space from which we derive track relatedness for online triplet
selection. This LSI topic modelling facilitates fine-grained selection of
similar and dissimilar audio-track pairs to learn the audio representation
using a Convolution Recurrent Neural Network (CRNN). By this we directly
project the semantic context of the unstructured text modality onto the learned
representation space of the audio modality without deriving structured
ground-truth annotations from it. We evaluate our approach on the Europeana
Sounds collection and show how to improve search in digital audio libraries by
harnessing the multilingual meta-data provided by numerous European digital
libraries. We show that our approach is invariant to the variety of annotation
styles as well as to the different languages of this collection. The learned
representations perform comparable to the baseline of handcrafted features,
respectively exceeding this baseline in similarity retrieval precision at
higher cut-offs with only 15\% of the baseline's feature vector length.
- Abstract(参考訳): 教師なし音声表現学習へのアプローチを提案する。
三重項ニューラルネットワークアーキテクチャに基づき、意味的関連のあるクロスモーダル情報を用いて、音声トラック関連度を推定する。
ラテントセマンティックインデックス(LSI)を適用することで、対応するテキスト情報を潜在ベクトル空間に埋め込んで、オンライン三重項選択のためのトラック関連性を導出する。
このLSIトピックモデリングは、畳み込みリカレントニューラルネットワーク(CRNN)を用いて、類似および異種オーディオトラックペアのきめ細かい選択を容易に学習する。
これにより、構造化された接地真実アノテーションを導出することなく、非構造化テキストモダリティの意味的文脈を学習されたオーディオモダリティの表現空間に直接投影する。
また,ヨーロッパ各国のデジタル図書館から提供された多言語メタデータを用いて,デジタル音声ライブラリの検索精度を向上させる手法について検討した。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
学習された表現は手作り特徴のベースラインに匹敵し、ベースラインの特徴ベクトル長の15\%で高いカットオフでの類似性検索精度で、それぞれこのベースラインを上回った。
関連論文リスト
- Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Matching Text and Audio Embeddings: Exploring Transfer-learning
Strategies for Language-based Audio Retrieval [11.161404854726348]
本稿では,クロスモーダル(テキスト・トゥ・オーディオ)検索に用いる大規模事前学習モデルの解析を行う。
我々は、これらのモデルから抽出された埋め込みをメトリクス学習フレームワークで使用し、一致するオーディオとテキストのペアを接続する。
論文 参考訳(メタデータ) (2022-10-06T11:45:14Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。