論文の概要: Cross-lingual Dysarthria Severity Classification for English, Korean,
and Tamil
- arxiv url: http://arxiv.org/abs/2209.12942v1
- Date: Mon, 26 Sep 2022 18:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:15:45.113035
- Title: Cross-lingual Dysarthria Severity Classification for English, Korean,
and Tamil
- Title(参考訳): 英語・韓国語・タミル語における言語間差重度分類
- Authors: Eun Jung Yeo, Kwanhee Choi, Sunhee Kim, Minhwa Chung
- Abstract要約: 本稿では,英語,韓国語,タミル語の言語間分類法を提案する。
音声品質,発音,韻律などの多様な音声次元から,30種類の特徴を抽出する。
3つの言語の特徴選択結果を比較することにより、共有された特徴の集合と特徴の集合を区別する。
- 参考スコア(独自算出の注目度): 3.991584682799934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a cross-lingual classification method for English,
Korean, and Tamil, which employs both language-independent features and
language-unique features. First, we extract thirty-nine features from diverse
speech dimensions such as voice quality, pronunciation, and prosody. Second,
feature selections are applied to identify the optimal feature set for each
language. A set of shared features and a set of distinctive features are
distinguished by comparing the feature selection results of the three
languages. Lastly, automatic severity classification is performed, utilizing
the two feature sets. Notably, the proposed method removes different features
by languages to prevent the negative effect of unique features for other
languages. Accordingly, eXtreme Gradient Boosting (XGBoost) algorithm is
employed for classification, due to its strength in imputing missing data. In
order to validate the effectiveness of our proposed method, two baseline
experiments are conducted: experiments using the intersection set of
mono-lingual feature sets (Intersection) and experiments using the union set of
mono-lingual feature sets (Union). According to the experimental results, our
method achieves better performance with a 67.14% F1 score, compared to 64.52%
for the Intersection experiment and 66.74% for the Union experiment. Further,
the proposed method attains better performances than mono-lingual
classifications for all three languages, achieving 17.67%, 2.28%, 7.79%
relative percentage increases for English, Korean, and Tamil, respectively. The
result specifies that commonly shared features and language-specific features
must be considered separately for cross-language dysarthria severity
classification.
- Abstract(参考訳): 本稿では,英語,韓国語,タミル語について,言語に依存しない特徴と言語統合特徴を併用した言語横断分類法を提案する。
まず,音声の質,発音,韻律などの多様さから,39個の特徴を抽出した。
第二に、各言語に最適な特徴を特定するために特徴選択が適用される。
3つの言語の特徴選択結果を比較することにより、共有された特徴の集合と特徴の集合を区別する。
最後に、2つの特徴セットを利用して自動重大度分類を行う。
特に、提案手法は言語によって異なる特徴を取り除き、他の言語特有の特徴の悪影響を防止する。
したがって、eXtreme Gradient Boosting (XGBoost)アルゴリズムは、欠落したデータを出力する強度のために分類に使用される。
提案手法の有効性を検証するために, 単言語特徴集合の交叉集合(Intersection)を用いた実験と, 単言語特徴集合の結合集合(Union)を用いた実験の2つの基礎実験を行った。
実験結果によると, この手法は67.14%のF1スコアで, インターセクション実験では64.52%, ユニオン実験では66.74%の成績を示した。
さらに,提案手法は,英語,韓国語,タミル語でそれぞれ17.67%,2.28%,7.79%の相対的な増加率を達成した。
その結果,多言語性難読度分類では,共通する特徴と言語固有の特徴を別々に考慮する必要があることが明らかになった。
関連論文リスト
- Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。
このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-08-20T04:30:26Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Feature Selection on Noisy Twitter Short Text Messages for Language
Identification [0.0]
アルゴリズムの効果を分析するために,様々な学習アルゴリズムに異なる特徴選択アルゴリズムを適用した。
この手法は、Twitterから抽出された6903ツイートの新しいデータセットを用いた単語レベルの言語識別に焦点を当てている。
論文 参考訳(メタデータ) (2020-07-11T09:22:01Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Identification of Indian Languages using Ghost-VLAD pooling [4.479834103607383]
我々は、GhostVLADアプローチを用いて、任意の可変長入力オーディオに対する発話レベル特徴ベクトルを生成する。
インドの7言語を対象とした635Hrsの音声データについて実験を行った。
論文 参考訳(メタデータ) (2020-02-05T07:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。