論文の概要: Cross-modal Knowledge Transfer Learning as Graph Matching Based on Optimal Transport for ASR
- arxiv url: http://arxiv.org/abs/2505.13079v1
- Date: Mon, 19 May 2025 13:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.60488
- Title: Cross-modal Knowledge Transfer Learning as Graph Matching Based on Optimal Transport for ASR
- Title(参考訳): ASRの最適移動に基づくグラフマッチングとしてのクロスモーダル知識伝達学習
- Authors: Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai,
- Abstract要約: 事前訓練された言語モデルから音響特徴学習への言語知識の移行は、エンドツーエンド自動音声認識(E2E-ASR)の強化に有効であることが証明された。
言語的モダリティと音響的モダリティの整合性は、固有のモダリティギャップのために依然として課題である。
言語および音響シーケンスを構造化グラフとしてモデル化したグラフマッチング最適輸送(GM-OT)を提案する。
- 参考スコア(独自算出の注目度): 36.250914527327005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transferring linguistic knowledge from a pretrained language model (PLM) to acoustic feature learning has proven effective in enhancing end-to-end automatic speech recognition (E2E-ASR). However, aligning representations between linguistic and acoustic modalities remains a challenge due to inherent modality gaps. Optimal transport (OT) has shown promise in mitigating these gaps by minimizing the Wasserstein distance (WD) between linguistic and acoustic feature distributions. However, previous OT-based methods overlook structural relationships, treating feature vectors as unordered sets. To address this, we propose Graph Matching Optimal Transport (GM-OT), which models linguistic and acoustic sequences as structured graphs. Nodes represent feature embeddings, while edges capture temporal and sequential relationships. GM-OT minimizes both WD (between nodes) and Gromov-Wasserstein distance (GWD) (between edges), leading to a fused Gromov-Wasserstein distance (FGWD) formulation. This enables structured alignment and more efficient knowledge transfer compared to existing OT-based approaches. Theoretical analysis further shows that prior OT-based methods in linguistic knowledge transfer can be viewed as a special case within our GM-OT framework. We evaluate GM-OT on Mandarin ASR using a CTC-based E2E-ASR system with a PLM for knowledge transfer. Experimental results demonstrate significant performance gains over state-of-the-art models, validating the effectiveness of our approach.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)から音響特徴学習への言語知識の移行は、エンドツーエンドの自動音声認識(E2E-ASR)の強化に有効であることが証明された。
しかしながら、言語的モダリティと音響的モダリティの整合性は、固有のモダリティギャップのために依然として課題である。
最適輸送(OT)は、言語的特徴分布と音響的特徴分布の間のワッサーシュタイン距離(WD)を最小化することにより、これらのギャップを緩和する。
しかし、以前のOTベースの手法は構造的関係を見落とし、特徴ベクトルを非順序集合として扱う。
そこで我々は,言語および音響シーケンスを構造化グラフとしてモデル化したグラフマッチング最適輸送(GM-OT)を提案する。
ノードは機能の埋め込みを表し、エッジは時間的およびシーケンシャルな関係をキャプチャする。
GM-OTはWD(ノード間)とGromov-Wasserstein距離(エッジ間)の両方を最小化し、融合したGromov-Wasserstein距離(FGWD)を形成する。
これにより、既存のOTベースのアプローチと比較して、構造化アライメントとより効率的な知識伝達が可能になる。
理論的解析により,言語知識伝達における従来のOTベースの手法は,GM-OTフレームワークの特別な場合とみなすことができることがわかった。
CTC-based E2E-ASR system with PLM for knowledge transfer を用いたマンダリンASRにおけるGM-OTの評価を行った。
実験の結果,最先端モデルよりも高い性能を示し,本手法の有効性を検証した。
関連論文リスト
- Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR [36.250914527327005]
事前訓練された言語モデルから音響モデルに言語知識を移すことにより,音声認識の性能を大幅に向上させることが示されている。
ASRのための時間順序保存OT(TOT)に基づくクロスモーダルアライメント・アンド・ナレッジ・トランスファー(CAKT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T19:11:15Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Graph Optimal Transport for Cross-Domain Alignment [121.80313648519203]
クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
論文 参考訳(メタデータ) (2020-06-26T01:14:23Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。