論文の概要: Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge
- arxiv url: http://arxiv.org/abs/2308.09311v2
- Date: Fri, 12 Jan 2024 07:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 21:45:24.105204
- Title: Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge
- Title(参考訳): 一般言語知識と言語特化知識の学習と組み合わせによる低リソース言語への読解
- Authors: Minsu Kim, Jeong Hun Yeo, Jeongsoo Choi, and Yong Man Ro
- Abstract要約: 本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
- 参考スコア(独自算出の注目度): 57.38948190611797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel lip reading framework, especially for
low-resource languages, which has not been well addressed in the previous
literature. Since low-resource languages do not have enough video-text paired
data to train the model to have sufficient power to model lip movements and
language, it is regarded as challenging to develop lip reading models for
low-resource languages. In order to mitigate the challenge, we try to learn
general speech knowledge, the ability to model lip movements, from a
high-resource language through the prediction of speech units. It is known that
different languages partially share common phonemes, thus general speech
knowledge learned from one language can be extended to other languages. Then,
we try to learn language-specific knowledge, the ability to model language, by
proposing Language-specific Memory-augmented Decoder (LMDecoder). LMDecoder
saves language-specific audio features into memory banks and can be trained on
audio-text paired data which is more easily accessible than video-text paired
data. Therefore, with LMDecoder, we can transform the input speech units into
language-specific audio features and translate them into texts by utilizing the
learned rich language knowledge. Finally, by combining general speech knowledge
and language-specific knowledge, we can efficiently develop lip reading models
even for low-resource languages. Through extensive experiments using five
languages, English, Spanish, French, Italian, and Portuguese, the effectiveness
of the proposed method is evaluated.
- Abstract(参考訳): 本稿では,特に,従来の文献ではうまく扱っていない低リソース言語を対象とした,新しい唇読解フレームワークを提案する。
低リソース言語は、唇の動きや言語をモデル化するのに十分なパワーを持つような十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
課題を緩和するために,我々は,音声単位の予測を通じて,高リソース言語から一般音声知識,唇の動きをモデル化する能力などを学ぶことを試みる。
異なる言語が共通の音素を共有していることが知られているため、ある言語から学べる一般的な言語知識は、他の言語にも拡張することができる。
次に、言語固有のメモリ拡張デコーダ(LMDecoder)を提案することにより、言語固有の知識、言語をモデル化する能力を学ぶ。
LMDecoderは、言語固有のオーディオ機能をメモリバンクに保存し、ビデオテキストペアデータよりも容易にアクセス可能なオーディオテキストペアデータでトレーニングすることができる。
そこでLMDecoderでは,入力音声単位を言語固有の音声特徴に変換し,学習したリッチ言語知識を利用してテキストに変換する。
最後に,一般言語知識と言語固有の知識を組み合わせることで,低資源言語においても口唇読解モデルの開発を効率的に行うことができる。
英語,スペイン語,フランス語,イタリア語,ポルトガル語の5言語を用いた広範な実験を行い,提案手法の有効性を評価した。
関連論文リスト
- Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,タイ語を用いた未保存言語における既存の音声言語モデルの性能について検討する。
多言語バックボーン上に構築されているにもかかわらず、音声言語モデルは言語間の創発能力を示すものではない。
本稿では,音声理解と音声指示追従機能を単一統一モデルに統合する。
論文 参考訳(メタデータ) (2024-09-17T09:04:03Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。