論文の概要: IPA-CLIP: Integrating Phonetic Priors into Vision and Language
Pretraining
- arxiv url: http://arxiv.org/abs/2303.03144v1
- Date: Mon, 6 Mar 2023 13:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:56:36.181902
- Title: IPA-CLIP: Integrating Phonetic Priors into Vision and Language
Pretraining
- Title(参考訳): IPA-CLIP:視覚と言語の事前学習に音声の事前処理を統合する
- Authors: Chihaya Matsuhira, Marc A. Kastner, Takahiro Komamizu, Takatsugu
Hirayama, Keisuke Doman, Yasutomo Kawanishi, Ichiro Ide
- Abstract要約: 本稿では,コントラスト言語-画像事前学習(CLIP)に先行音声を挿入する。
IPA-CLIPはこの発音エンコーダと元のCLIPエンコーダ(画像とテキスト)からなる。
- 参考スコア(独自算出の注目度): 8.129944388402839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale Vision and Language (V\&L) pretraining has become the
standard backbone of many multimedia systems. While it has shown remarkable
performance even in unseen situations, it often performs in ways not intuitive
to humans. Particularly, they usually do not consider the pronunciation of the
input, which humans would utilize to understand language, especially when it
comes to unknown words. Thus, this paper inserts phonetic prior into
Contrastive Language-Image Pretraining (CLIP), one of the V\&L pretrained
models, to make it consider the pronunciation similarity among its
pronunciation inputs. To achieve this, we first propose a phoneme embedding
that utilizes the phoneme relationships provided by the International Phonetic
Alphabet (IPA) chart as a phonetic prior. Next, by distilling the frozen CLIP
text encoder, we train a pronunciation encoder employing the IPA-based
embedding. The proposed model named IPA-CLIP comprises this pronunciation
encoder and the original CLIP encoders (image and text). Quantitative
evaluation reveals that the phoneme distribution on the embedding space
represents phonetic relationships more accurately when using the proposed
phoneme embedding. Furthermore, in some multimodal retrieval tasks, we confirm
that the proposed pronunciation encoder enhances the performance of the text
encoder and that the pronunciation encoder handles nonsense words in a more
phonetic manner than the text encoder. Finally, qualitative evaluation verifies
the correlation between the pronunciation encoder and human perception
regarding pronunciation similarity.
- Abstract(参考訳): 近年,大規模ビジョン・アンド・ランゲージ(V\&L)事前学習がマルチメディアシステムの標準バックボーンとなっている。
目立たない状況でも目覚ましいパフォーマンスを見せているが、人間にとって直感的ではないやり方でしばしば演じられる。
特に、人間が言語を理解するために使う入力の発音、特に未知の単語に関しては考慮しないのが普通である。
そこで本論文では,V\&L事前学習モデルの1つであるContrastive Language- Image Pretraining (CLIP) に先行音声を挿入し,発音入力の発音類似性を考察する。
これを実現するために,まず,国際音素アルファベット(ipa)チャートが提供する音素関係を音素先行として利用する音素埋め込みを提案する。
次に,凍結したCLIPテキストエンコーダを蒸留することにより,IPAベースの埋め込みを用いた発音エンコーダを訓練する。
IPA-CLIPという名前のモデルは、この発音エンコーダと元のCLIPエンコーダ(画像とテキスト)から構成される。
定量的評価により, 提案した音素埋め込みを用いた場合, 音素分布はより正確に音素関係を表すことがわかった。
さらに、複数のモーダル検索タスクにおいて、提案した発音エンコーダがテキストエンコーダの性能を高め、発音エンコーダがテキストエンコーダよりもナンセンスな単語をより音声的に処理することを確認する。
最後に、質的評価により、発音類似性に関する発音エンコーダと人間の知覚との相関が検証される。
関連論文リスト
- Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words [10.2138250640885]
我々は,テキストプロンプトにキーワードを付与することで文脈認識が可能な,大規模言語モデル(LLM)に基づく自動音声認識(ASR)システムを開発した。
我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。
論文 参考訳(メタデータ) (2024-08-15T08:50:58Z) - Phoneme-aware Encoding for Prefix-tree-based Contextual ASR [45.161909551392085]
Tree-Constrained Pointer Generator (TCPGen)はこの目的を約束している。
音素認識符号化で拡張することで、異常な発音の単語をよりよく認識することを提案する。
論文 参考訳(メタデータ) (2023-12-15T07:37:09Z) - DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation
Detection and Correction [1.8322859214908722]
本稿では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。
また,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を用いたDTW-SiameseNetという,新しい誤発音検出モデルを提案する。
人間の評価から,提案手法は音素ベースや音声ベースラインに比べて平均6%の発音精度が向上することが示された。
論文 参考訳(メタデータ) (2023-03-01T01:53:11Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme
Representations for Text to Speech [104.65639892109381]
学習能力を高めるために,音素と音素の混合表現を用いたBERTモデルの新たな変種であるMixedPhoneme BERTを提案する。
実験の結果,提案したMixed-Phoneme BERTは,FastSpeech 2ベースラインと比較して0.30CMOSゲインでTTS性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-03-31T17:12:26Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - A systematic comparison of grapheme-based vs. phoneme-based label units
for encoder-decoder-attention models [42.761409598613845]
我々は,エンコーダ・デコーダ・アテンションASRモデルに対して,グラファイムと音素に基づく出力ラベルを体系的に比較する。
Switchboard 300h と LibriSpeech ベンチマークで実施された実験は、音素ベースのモデリングは、グラファイムベースのエンコーダ-デコーダ-アテンションモデリングと競合していることを示している。
論文 参考訳(メタデータ) (2020-05-19T09:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。