論文の概要: GLAP: General contrastive audio-text pretraining across domains and languages
- arxiv url: http://arxiv.org/abs/2506.11350v1
- Date: Thu, 12 Jun 2025 22:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.603652
- Title: GLAP: General contrastive audio-text pretraining across domains and languages
- Title(参考訳): GLAP: ドメインと言語をまたいだ一般的なコントラスト音声テキスト事前学習
- Authors: Heinrich Dinkel, Zhiyong Yan, Tianzi Wang, Yongqing Wang, Xingwei Sun, Yadong Niu, Jizhong Liu, Gang Li, Junbo Zhang, Jian Luan,
- Abstract要約: GLAP(General Language Audio Pretraining)を導入する。
GLAPは、マルチリンガルおよびマルチドメイン機能を備えたContrastive Language Audio Pretraining (CLAP)を拡張している。
- 参考スコア(独自算出の注目度): 26.996784244258073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language Audio Pretraining (CLAP) is a widely-used method to bridge the gap between audio and text domains. Current CLAP methods enable sound and music retrieval in English, ignoring multilingual spoken content. To address this, we introduce general language audio pretraining (GLAP), which expands CLAP with multilingual and multi-domain abilities. GLAP demonstrates its versatility by achieving competitive performance on standard audio-text retrieval benchmarks like Clotho and AudioCaps, while significantly surpassing existing methods in speech retrieval and classification tasks. Additionally, GLAP achieves strong results on widely used sound-event zero-shot benchmarks, while simultaneously outperforming previous methods on speech content benchmarks. Further keyword spotting evaluations across 50 languages emphasize GLAP's advanced multilingual capabilities. Finally, multilingual sound and music understanding is evaluated across four languages. Checkpoints and Source: https://github.com/xiaomi-research/dasheng-glap.
- Abstract(参考訳): Contrastive Language Audio Pretraining (CLAP) は、音声領域とテキスト領域のギャップを埋めるために広く使われている手法である。
現在のCLAP法は、多言語音声コンテンツを無視して、英語で音声と音楽の検索を可能にする。
そこで本研究では,CLAPを多言語・多ドメイン対応で拡張するGLAP(General Language Audio Pretraining)を提案する。
GLAPは、ClothoやAudioCapsのような標準オーディオテキスト検索ベンチマークで競合するパフォーマンスを達成し、既存の音声検索や分類タスクをはるかに上回っている。
さらに, GLAPは, 広範に使用されているゼロショット・ベンチマークにおいて, 音声コンテンツ・ベンチマークにおいて, 従来の手法よりも高い性能を示した。
50言語にわたるキーワードスポッティングの評価は、GLAPの高度な多言語機能を強調している。
最後に、多言語音と音楽の理解を4言語で評価する。
Checkpoints and Source: https://github.com/xiaomi-research/dasheng-glap.com
関連論文リスト
- CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval [0.9023847175654603]
CLASP(Contrastive Language-Speech Pretraining)は、音声テキスト情報検索に適した多言語表現である。
トレーニングでは,フィクションから宗教まで15の分野を対象とする音声テキストデータセットを新たに導入した。
複数の言語で評価した結果、CLASPはHITS@1、MRR、平均Rメトリクスで新しいベンチマークを確立している。
論文 参考訳(メタデータ) (2024-12-17T16:38:10Z) - Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - ViSpeR: Multilingual Audio-Visual Speech Recognition [9.40993779729177]
本研究は,広範に話される5言語を対象とした音声・視覚音声認識について,広範かつ詳細な研究である。
我々は、英語以外の言語毎に大規模なデータセットを収集し、教師付き学習モデルの訓練に従事した。
我々のモデルであるViSpeRは多言語で訓練されており、結果として各言語で新たに確立されたベンチマーク上での競争性能が向上する。
論文 参考訳(メタデータ) (2024-05-27T14:48:51Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。