論文の概要: Enhancing the Robustness of Contextual ASR to Varying Biasing Information Volumes Through Purified Semantic Correlation Joint Modeling
- arxiv url: http://arxiv.org/abs/2509.05908v1
- Date: Sun, 07 Sep 2025 03:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.771302
- Title: Enhancing the Robustness of Contextual ASR to Varying Biasing Information Volumes Through Purified Semantic Correlation Joint Modeling
- Title(参考訳): 意味的相関結合モデリングによる文脈的ASRのロバスト性向上とバイアリング情報量の改善
- Authors: Yue Gu, Zhihao Du, Ying Shi, Shiliang Zhang, Qian Chen, Jiqing Han,
- Abstract要約: クロスアテンションはバイアス情報量の変化に影響される。
そこで本研究では,PSC-Jointを用いた意味相関結合モデリング手法を提案する。
PSC-JointはAISHELL-1では21.34%、KeSpeechでは28.46%の平均的なF1スコアの改善を達成した。
- 参考スコア(独自算出の注目度): 63.755562174967274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, cross-attention-based contextual automatic speech recognition (ASR) models have made notable advancements in recognizing personalized biasing phrases. However, the effectiveness of cross-attention is affected by variations in biasing information volume, especially when the length of the biasing list increases significantly. We find that, regardless of the length of the biasing list, only a limited amount of biasing information is most relevant to a specific ASR intermediate representation. Therefore, by identifying and integrating the most relevant biasing information rather than the entire biasing list, we can alleviate the effects of variations in biasing information volume for contextual ASR. To this end, we propose a purified semantic correlation joint modeling (PSC-Joint) approach. In PSC-Joint, we define and calculate three semantic correlations between the ASR intermediate representations and biasing information from coarse to fine: list-level, phrase-level, and token-level. Then, the three correlations are jointly modeled to produce their intersection, so that the most relevant biasing information across various granularities is highlighted and integrated for contextual recognition. In addition, to reduce the computational cost introduced by the joint modeling of three semantic correlations, we also propose a purification mechanism based on a grouped-and-competitive strategy to filter out irrelevant biasing phrases. Compared with baselines, our PSC-Joint approach achieves average relative F1 score improvements of up to 21.34% on AISHELL-1 and 28.46% on KeSpeech, across biasing lists of varying lengths.
- Abstract(参考訳): 近年,相互注意に基づく文脈自動音声認識(ASR)モデルが,個人的偏見の認識において顕著な進歩を遂げている。
しかし、特にバイアスリストの長さが著しく増加すると、バイアス情報量の変化により、クロスアテンションの有効性が影響を受ける。
偏りリストの長さにかかわらず、特定のASR中間表現に最も関係があるのは、限られた量の偏り情報のみである。
したがって、バイアスリスト全体ではなく、最も関連性の高いバイアス情報の同定と統合により、コンテキストASRにおけるバイアス情報量の変化の影響を緩和することができる。
そこで本研究では,PSC-Jointを用いた意味的相関結合モデリング手法を提案する。
PSC-Jointでは、ASR中間表現と粗い情報から細かい情報(リストレベル、フレーズレベル、トークンレベル)の3つの意味的相関を定義し、計算する。
そして、3つの相関関係を共同でモデル化して交差点を生成することにより、様々な粒度にまたがる最も関連性の高いバイアス情報を強調表示し、文脈認識のために統合する。
さらに,3つの意味的相関関係の連成モデルによってもたらされる計算コストを削減するため,無関係なバイアス句を除去するグループ・アンド・コンペティティブ・ストラテジーに基づく浄化機構を提案する。
ベースラインと比較すると、我々のPSC-JointアプローチはAISHELL-1では21.34%、KeSpeechでは28.46%、平均的な相対的なF1スコア改善を実現している。
関連論文リスト
- Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective [13.486497323758226]
広範囲なデータセットで事前訓練された視覚言語モデルは、性情報とオブジェクトやシナリオを関連付けることによって、必然的にバイアスを学習することができる。
本稿では,因果媒介分析を取り入れた枠組みを提案し,バイアス発生と伝播の経路を計測・マッピングする。
論文 参考訳(メタデータ) (2024-07-03T05:19:45Z) - FACTS: First Amplify Correlations and Then Slice to Discover Bias [17.244153084361102]
コンピュータビジョンデータセットは、しばしばタスク関連ラベルと(学習しやすい)潜在タスク関連属性の間の急激な相関を含んでいる。
このようなデータセットでトレーニングされたモデルは、"ショートカット"を学び、相関が保たないデータのバイアス分散スライスを過小評価する。
本稿では,まず相関を増幅し,次にバイアスを識別し,下流のバイアス軽減戦略について報告する。
論文 参考訳(メタデータ) (2023-09-29T17:41:26Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。