論文の概要: Acoustic Word Embeddings for Untranscribed Target Languages with
Continued Pretraining and Learned Pooling
- arxiv url: http://arxiv.org/abs/2306.02153v1
- Date: Sat, 3 Jun 2023 16:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:44:47.927050
- Title: Acoustic Word Embeddings for Untranscribed Target Languages with
Continued Pretraining and Learned Pooling
- Title(参考訳): 事前学習と学習を継続した未翻訳ターゲット言語のための音響単語埋め込み
- Authors: Ramon Sanabria, Ondrej Klejch, Hao Tang, Sharon Goldwater
- Abstract要約: 音響単語の埋め込みは、単語のような一対の単位を用いてプール関数を訓練することによって生成される。
自己教師型英語モデルからの平均プール表現は、有望な代替案として提案されたが、ターゲット言語でのそれらのパフォーマンスは、完全には競合しなかった。
両手法が単語識別における近年のアプローチより優れていることを示す。
- 参考スコア(独自算出の注目度): 28.758396218435635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic word embeddings are typically created by training a pooling function
using pairs of word-like units. For unsupervised systems, these are mined using
k-nearest neighbor (KNN) search, which is slow. Recently, mean-pooled
representations from a pre-trained self-supervised English model were suggested
as a promising alternative, but their performance on target languages was not
fully competitive. Here, we explore improvements to both approaches: we use
continued pre-training to adapt the self-supervised model to the target
language, and we use a multilingual phone recognizer (MPR) to mine phone n-gram
pairs for training the pooling function. Evaluating on four languages, we show
that both methods outperform a recent approach on word discrimination.
Moreover, the MPR method is orders of magnitude faster than KNN, and is highly
data efficient. We also show a small improvement from performing learned
pooling on top of the continued pre-trained representations.
- Abstract(参考訳): 音響単語の埋め込みは通常、単語のような一対の単位を用いてプール関数を訓練することによって生成される。
教師なしシステムでは、これらはk-nearest neighbor(KNN)サーチを用いて採掘される。
近年,事前学習型自己教師型英語モデルの平均プール表現が有望な代替案として提案されているが,対象言語における性能は完全には競合しなかった。
そこで我々は,目標言語に自己教師付きモデルを適用するために,継続事前学習を用い,マルチリンガル電話認識器(MPR)を用いて電話機n-gramペアを抽出し,プール機能を訓練する。
4つの言語で評価した結果,両手法が単語識別における近年のアプローチより優れていることがわかった。
さらに、MPR法は、KNNよりも桁違いに高速で、データ効率が高い。
また,事前学習した表現の上に学習プールを実行することによる改善もみられた。
関連論文リスト
- Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Switch Point biased Self-Training: Re-purposing Pretrained Models for
Code-Switching [44.034300203700234]
コードスイッチングは、多言語コミュニティにおけるコミュニケーションの容易さから、ユビキタスな現象である。
スイッチポイントバイアスを用いて既存の事前学習モデルを再利用するための自己学習手法を提案する。
本手法は,スイッチポイント性能のギャップを小さくすることで,両タスクにおいて良好に機能する。
論文 参考訳(メタデータ) (2021-11-01T19:42:08Z) - Adversarial Training with Contrastive Learning in NLP [0.0]
本稿では,言語処理タスクを逆学習するために,比較学習(ATCL)を用いた逆学習を提案する。
中心となる考え方は、高速勾配法(FGM)によって入力の埋め込み空間に線形摂動を生じさせ、元の表現と摂動表現を対照的な学習によって密に保つようモデルを訓練することである。
この結果から, 定量的(複雑度, BLEU) のスコアは, ベースラインに比べて向上しただけでなく, 両タスクのセマンティックレベルにおいても, 質的な結果が得られた。
論文 参考訳(メタデータ) (2021-09-19T07:23:45Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。