論文の概要: Cross-Lingual Speaker Identification Using Distant Supervision
- arxiv url: http://arxiv.org/abs/2210.05780v1
- Date: Tue, 11 Oct 2022 20:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:52:02.942246
- Title: Cross-Lingual Speaker Identification Using Distant Supervision
- Title(参考訳): 遠隔指導による言語間話者識別
- Authors: Ben Zhou, Dian Yu, Dong Yu, Dan Roth
- Abstract要約: 本稿では,文脈推論の欠如や言語間一般化の低さといった問題に対処する話者識別フレームワークを提案する。
その結果,2つの英語話者識別ベンチマークにおいて,従来の最先端手法よりも9%の精度,5%の精度で性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 84.51121411280134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker identification, determining which character said each utterance in
literary text, benefits many downstream tasks. Most existing approaches use
expert-defined rules or rule-based features to directly approach this task, but
these approaches come with significant drawbacks, such as lack of contextual
reasoning and poor cross-lingual generalization. In this work, we propose a
speaker identification framework that addresses these issues. We first extract
large-scale distant supervision signals in English via general-purpose tools
and heuristics, and then apply these weakly-labeled instances with a focus on
encouraging contextual reasoning to train a cross-lingual language model. We
show that the resulting model outperforms previous state-of-the-art methods on
two English speaker identification benchmarks by up to 9% in accuracy and 5%
with only distant supervision, as well as two Chinese speaker identification
datasets by up to 4.7%.
- Abstract(参考訳): どの文字が文章で発声したかを判断する話者識別は、下流の多くのタスクに役立ちます。
既存のほとんどのアプローチでは、専門家定義のルールやルールベースの機能を使ってこのタスクに直接アプローチするが、文脈的推論の欠如や言語間の一般化の貧弱といった大きな欠点がある。
本稿では,これらの問題に対処する話者識別フレームワークを提案する。
まず、汎用ツールとヒューリスティックスを用いて、英語における大規模な遠隔監視信号を抽出し、これらの弱ラベルの事例を適用して、文脈推論に焦点をあてて言語間モデルを訓練する。
その結果, 2つの英語話者識別ベンチマークにおいて, 従来手法の精度を9%, 遠隔監視のみで5%, 2つの中国語話者識別データセットを最大4.7%向上させた。
関連論文リスト
- Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Semi-supervised cross-lingual speech emotion recognition [26.544999411050036]
言語間音声感情認識は、現実世界のアプリケーションでは依然として課題である。
対象領域にラベル付き例がほとんど存在しない場合に,言語間感情認識のための半教師付き学習(SSL)手法を提案する。
提案手法はトランスフォーマーをベースとして,ラベルなし発話の擬似ラベル付け戦略を活用することで,新しいドメインに適応する。
論文 参考訳(メタデータ) (2022-07-14T09:24:55Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z) - Graph-based Label Propagation for Semi-Supervised Speaker Identification [10.87690067963342]
家庭シナリオにおける話者識別のためのグラフに基づく半教師付き学習手法を提案する。
提案手法は,2つの最先端スコアリング手法と比較して,ラベル付きデータの有効利用と話者識別精度の向上を図っている。
論文 参考訳(メタデータ) (2021-06-15T15:10:33Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。