論文の概要: Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-Text System
- arxiv url: http://arxiv.org/abs/2508.18701v1
- Date: Tue, 26 Aug 2025 06:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.696604
- Title: Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-Text System
- Title(参考訳): アテンション2確率:ロバスト音声テキストシステムにおけるアテンション駆動型テミノロジー確率推定
- Authors: Yanfan Du, Jun Zhang, Bin Wang, Jin Qiu, Lu Huang, Yuan Ge, Xiaoqian Liu, Tong Xiao, Jingbo Zhu,
- Abstract要約: 本稿では,ロバストな音声-テキストシステムのための注意駆動型用語確率推定法を提案する。
Attention2ProbabilityはテストセットのVectorDBメソッドよりも大幅に優れています。
Attention2 Probability-retrieved term を用いた SLM の認識と翻訳タスクの介入により,用語の精度は 6-17% 向上した。
- 参考スコア(独自算出の注目度): 42.278670252772656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in speech large language models (SLMs) have improved speech recognition and translation in general domains, but accurately generating domain-specific terms or neologisms remains challenging. To address this, we propose Attention2Probability: attention-driven terminology probability estimation for robust speech-to-text system, which is lightweight, flexible, and accurate. Attention2Probability converts cross-attention weights between speech and terminology into presence probabilities, and it further employs curriculum learning to enhance retrieval accuracy. Furthermore, to tackle the lack of data for speech-to-text tasks with terminology intervention, we create and release a new speech dataset with terminology to support future research in this area. Experimental results show that Attention2Probability significantly outperforms the VectorDB method on our test set. Specifically, its maximum recall rates reach 92.57% for Chinese and 86.83% for English. This high recall is achieved with a latency of only 8.71ms per query. Intervening in SLMs' recognition and translation tasks using Attention2Probability-retrieved terms improves terminology accuracy by 6-17%, while revealing that the current utilization of terminology by SLMs has limitations.
- Abstract(参考訳): 音声大言語モデル(SLM)の最近の進歩は、一般的なドメインでの音声認識と翻訳を改善してきたが、ドメイン固有の用語やネオロジズムを正確に生成することは困難である。
そこで本研究では,より軽量でフレキシブルで正確であるロバストな音声テキストシステムに対する注意駆動型用語確率推定法であるAttention2Probabilityを提案する。
Attention2Probabilityは、音声と用語間の交差注意重みを存在確率に変換する。
さらに,用語の介入を伴う音声テキストタスクのデータ不足に対処するため,この領域における今後の研究を支援するために,用語を用いた新しい音声データセットを作成し,リリースする。
実験の結果,Attention2Probabilityはテストセット上のVectorDBメソッドよりも有意に優れていた。
特に、リコール率は中国語で92.57%、英語で86.83%に達する。
この高いリコールは、クエリ毎にわずか8.71msのレイテンシで達成される。
Attention2 Probability-retrieved term を用いた SLM の認識・翻訳タスクの介入により、用語の精度は 6-17% 向上し、SLM による用語の現在の活用には限界があることが明らかになった。
関連論文リスト
- Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice [52.747242157396315]
同時解釈 (SI) は、翻訳業界における最強のフロンティアの1つである。
Seed-LiveInterpret 2.0は、音声のクローン機能を備えた高忠実で低レイテンシな音声音声合成を実現するエンドツーエンドのSIモデルである。
論文 参考訳(メタデータ) (2025-07-23T14:07:41Z) - Sign language recognition based on deep learning and low-cost handcrafted descriptors [0.0]
単語間のあいまいさを避けるため,ジェスチャ実行においてできるだけ多くの言語パラメータを考慮することが重要である。
選択した技術がリアルであることを保証することが不可欠であり、高価な、侵入的、または低運動量のセンサーを避ける。
低コストなセンサと技術を用いた手話認識システムを提案する。
論文 参考訳(メタデータ) (2024-08-14T00:56:51Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Vocabulary Transfer for Biomedical Texts: Add Tokens if You Can Not Add Data [10.220652487259683]
我々は,対象語彙を拡張して,ドメイン固有のバイオメディカル用語を組み込む手法である語彙拡張に焦点を当てた。
以上の結果から,語彙拡張は,下流モデルの性能と推論時間の両方において,測定可能な改善をもたらすことが示唆された。
論文 参考訳(メタデータ) (2022-08-04T09:53:22Z) - Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings [20.410074074340447]
2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。
グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
論文 参考訳(メタデータ) (2021-06-11T04:09:54Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。