Fugu-MT 論文翻訳(概要): SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition

論文の概要: SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2309.16937v1
Date: Fri, 29 Sep 2023 02:35:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 15:45:38.794864
Title: SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition
Title（参考訳）: SSHR:多言語音声認識のための自己教師付き階層表現の活用
Authors: Hongfei Xue, Qijie Shao, Kaixun Huang, Peikun Chen, Lei Xie, Jie Liu
Abstract要約: 本稿では,多言語自動音声認識のための新しい手法を提案する。まず、言語関連およびコンテンツ関連情報に対してSSLモデルの異なるレイヤを解析する。相関した中間層から言語関連フレームを抽出し,自己認識機構を通じて特定のコンテンツ抽出を誘導する。
参考スコア（独自算出の注目度）: 10.44087280231453
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multilingual automatic speech recognition (ASR) systems have garnered attention for their potential to extend language coverage globally. While self-supervised learning (SSL) has demonstrated its effectiveness in multilingual ASR, it is worth noting that the various layers' representations of SSL potentially contain distinct information that has not been fully leveraged. In this study, we propose a novel method that leverages self-supervised hierarchical representations (SSHR) to fine-tune multilingual ASR. We first analyze the different layers of the SSL model for language-related and content-related information, uncovering layers that show a stronger correlation. Then, we extract a language-related frame from correlated middle layers and guide specific content extraction through self-attention mechanisms. Additionally, we steer the model toward acquiring more content-related information in the final layers using our proposed Cross-CTC. We evaluate SSHR on two multilingual datasets, Common Voice and ML-SUPERB, and the experimental results demonstrate that our method achieves state-of-the-art performance to the best of our knowledge.
Abstract（参考訳）: 多言語自動音声認識(ASR)システムは、言語の範囲を世界中に広げる可能性に注目を集めている。自己教師付き学習(SSL)は多言語ASRにおいて有効性を示しているが、SSLの様々なレイヤの表現には、完全に活用されていない異なる情報が含まれている可能性があることに注意する必要がある。本研究では,自己教師付き階層表現(SSHR)を微調整多言語ASRに適用する手法を提案する。まず、言語関連およびコンテンツ関連情報のためのsslモデルの異なる層を分析し、より強い相関を示す層を明らかにする。そして,関係する中間層から言語関連フレームを抽出し,自己認識機構を通じて特定のコンテンツ抽出を誘導する。さらに,提案したCross-CTCを用いて,最終層におけるコンテンツ関連情報獲得のモデルを構築した。我々は,2つの多言語データセット,Common Voice と ML-SUPERB を用いてSSHRを評価し,その実験結果から,我々の知識を最大限に活用できることを示す。

関連論文リスト

Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。 CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文参考訳（メタデータ） (2025-03-14T15:21:54Z)
How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文参考訳（メタデータ） (2024-10-18T11:39:34Z)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文参考訳（メタデータ） (2024-09-30T05:25:51Z)
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文参考訳（メタデータ） (2024-09-17T08:36:45Z)
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文参考訳（メタデータ） (2024-09-13T14:35:47Z)
SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。 SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文参考訳（メタデータ） (2024-09-02T08:56:12Z)
Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。単言語モデルと比較して,多言語モデルの性能を評価する。
論文参考訳（メタデータ） (2024-06-25T15:02:32Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文参考訳（メタデータ） (2023-06-07T12:14:16Z)
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文参考訳（メタデータ） (2023-05-16T17:53:03Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)
Universal Sentence Representation Learning with Conditional Masked Language Model [7.334766841801749]
文表現を効果的に学習するための条件付きマスク言語モデリング(M)を提案する。我々の英語CMLMモデルは,SentEvalの最先端性能を実現する。完全に教師なしの学習方法として、CMLMは幅広い言語やドメインに便利に拡張できます。
論文参考訳（メタデータ） (2020-12-28T18:06:37Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。