論文の概要: ATRI: Mitigating Multilingual Audio Text Retrieval Inconsistencies by Reducing Data Distribution Errors
- arxiv url: http://arxiv.org/abs/2502.14627v1
- Date: Thu, 20 Feb 2025 15:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:58.899247
- Title: ATRI: Mitigating Multilingual Audio Text Retrieval Inconsistencies by Reducing Data Distribution Errors
- Title(参考訳): ATRI:データ分散誤差低減による多言語音声検索の不整合の軽減
- Authors: Yuguo Yin, Yuxin Xie, Wenyuan Yang, Dongchao Yang, Jinghan Ru, Xianwei Zhuang, Liming Liang, Yuexian Zou,
- Abstract要約: 既存の多言語音声テキスト検索方式は、例えば言語間での類似性マッチングのような不整合に悩まされている。
1対kのコントラスト学習とオーディオ-英語のコントラスト学習を用いた一貫したML-ATR方式を提案する。
提案手法は,英語を含む8つの主流言語に対して,リコールと整合性評価の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 42.469131776062724
- License:
- Abstract: Multilingual audio-text retrieval (ML-ATR) is a challenging task that aims to retrieve audio clips or multilingual texts from databases. However, existing ML-ATR schemes suffer from inconsistencies for instance similarity matching across languages. We theoretically analyze the inconsistency in terms of both multilingual modal alignment direction error and weight error, and propose the theoretical weight error upper bound for quantifying the inconsistency. Based on the analysis of the weight error upper bound, we find that the inconsistency problem stems from the data distribution error caused by random sampling of languages. We propose a consistent ML-ATR scheme using 1-to-k contrastive learning and audio-English co-anchor contrastive learning, aiming to mitigate the negative impact of data distribution error on recall and consistency in ML-ATR. Experimental results on the translated AudioCaps and Clotho datasets show that our scheme achieves state-of-the-art performance on recall and consistency metrics for eight mainstream languages, including English. Our code will be available at https://github.com/ATRI-ACL/ATRI-ACL.
- Abstract(参考訳): 多言語音声テキスト検索(ML-ATR)は,データベースから音声クリップや多言語テキストを検索することを目的とした課題である。
しかし、既存のML-ATRスキームは、言語間での類似性マッチングのような不整合に悩まされている。
本稿では,多言語モードアライメント方向誤差と重み誤差の両面から矛盾を理論的に解析し,矛盾を定量化するための理論重み誤差上限を提案する。
重み誤差上限を解析した結果,不整合問題はランダムな言語サンプリングによるデータ分布誤差に起因することがわかった。
1対kのコントラスト学習と音声-英語のコントラスト学習を併用した一貫したML-ATR方式を提案し,ML-ATRのリコールと一貫性に対するデータ分散誤差の負の影響を軽減することを目的とした。
翻訳されたAudioCapsとClothoのデータセットによる実験結果から,我々の手法は,英語を含む8つの主流言語に対して,リコールと一貫性の指標に基づく最先端のパフォーマンスを実現していることがわかった。
私たちのコードはhttps://github.com/ATRI-ACL/ATRI-ACLで公開されます。
関連論文リスト
- Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing [39.375342978538654]
機械翻訳を行うためにLLM(Large Language Models)を活用することに注力する。
誤りの2つのパターンが頻繁に発生し、言語ミスマッチと繰り返しの翻訳品質に劇的な影響を与えていることを観察する。
モデル編集手法を活用することにより,これらの2つの問題を緩和する可能性について検討する。
論文 参考訳(メタデータ) (2024-10-09T16:51:21Z) - Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - Synthetic Data Generation and Joint Learning for Robust Code-Mixed Translation [34.57825234659946]
我々は、英語機械翻訳にコード混在(ヒングリッシュとベンガル語)の問題に取り組む。
実世界のコードミキシングテキストのノイズ処理を学習する,頑健な摂動に基づく共同学習モデルRCMTを提案する。
提案手法の評価と総合解析により,最先端のコード混合・ロバスト翻訳法よりもRCMTの方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-25T13:50:11Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。