論文の概要: Language Identification for Austronesian Languages
- arxiv url: http://arxiv.org/abs/2206.04327v1
- Date: Thu, 9 Jun 2022 08:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 00:43:33.104231
- Title: Language Identification for Austronesian Languages
- Title(参考訳): オーストロネシア語族の言語識別
- Authors: Jonathan Dunn and Wikke Nijhof
- Abstract要約: 本稿では,太平洋地域の低リソース・低リソース言語を対象とした言語識別モデルを提案する。
我々は、29のオーストロネシア語と171の非オーストロネシア語を組み合わせて評価セットを作成します。
さらなる実験では、これらの言語識別モデルをコードスイッチング検出に適用し、29言語すべてで高い精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides language identification models for low- and
under-resourced languages in the Pacific region with a focus on previously
unavailable Austronesian languages. Accurate language identification is an
important part of developing language resources. The approach taken in this
paper combines 29 Austronesian languages with 171 non-Austronesian languages to
create an evaluation set drawn from eight data sources. After evaluating six
approaches to language identification, we find that a classifier based on
skip-gram embeddings reaches a significantly higher performance than alternate
methods. We then systematically increase the number of non-Austronesian
languages in the model up to a total of 800 languages to evaluate whether an
increased language inventory leads to less precise predictions for the
Austronesian languages of interest. This evaluation finds that there is only a
minimal impact on accuracy caused by increasing the inventory of
non-Austronesian languages. Further experiments adapt these language
identification models for code-switching detection, achieving high accuracy
across all 29 languages.
- Abstract(参考訳): 本稿では,これまで利用できなかったオーストロネシア語に焦点をあて,太平洋地域の低・低リソース言語を対象とした言語識別モデルを提案する。
正確な言語識別は、言語資源の開発において重要な部分である。
本稿では,29のオーストロネシアン言語と171の非オーストロネシアン言語を組み合わせて,8つのデータソースから作成した評価セットを作成する。
言語識別に対する6つのアプローチを評価した結果,スキップグラム埋め込みに基づく分類器は,代替手法よりも大幅に高い性能を示した。
次に,モデル内の非オーストロネシア言語数を最大800言語まで体系的に増加させ,言語インベントリの増加がオーストロネシア言語に対する正確な予測を低下させるかどうかを評価する。
この評価により、非オーストロネシア語の在庫の増加による精度への影響は最小限であることがわかった。
さらなる実験では、これらの言語識別モデルをコードスイッチング検出に適用し、29言語すべてで高い精度を達成する。
関連論文リスト
- The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - Transfer Language Selection for Zero-Shot Cross-Lingual Abusive Language
Detection [2.2998722397348335]
各言語に対するデータセットを作成する代わりに、ゼロショット乱用言語検出における言語間移動学習の有効性を実証する。
私たちのデータセットは、3つの言語ファミリーの7つの異なる言語から来ています。
論文 参考訳(メタデータ) (2022-06-02T09:53:15Z) - Automatic Spoken Language Identification using a Time-Delay Neural
Network [0.0]
アラビア語、スペイン語、フランス語、トルコ語を区別するために言語識別システムが作られた。
既存の多言語データセットを使用して、一連の音響モデルのトレーニングを行った。
このシステムは、カスタム多言語言語モデルと特殊発音辞書を備えていた。
論文 参考訳(メタデータ) (2022-05-19T13:47:48Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。