論文の概要: Investigating Machine Learning Methods for Language and Dialect
Identification of Cuneiform Texts
- arxiv url: http://arxiv.org/abs/2009.10794v1
- Date: Tue, 22 Sep 2020 20:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:35:37.143700
- Title: Investigating Machine Learning Methods for Language and Dialect
Identification of Cuneiform Texts
- Title(参考訳): cuneiformテキストの言語・方言識別のための機械学習手法の検討
- Authors: Ehsan Doostmohammadi, Minoo Nassajian
- Abstract要約: VarDial 2019のCuneiform Language Identificationタスクは、cuneiformで書かれた7つの言語と方言を識別する問題に対処する。
本稿では,SharifCLチームによるVarDial 2019におけるこの問題に対するアプローチについて述べる。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identification of the languages written using cuneiform symbols is a
difficult task due to the lack of resources and the problem of tokenization.
The Cuneiform Language Identification task in VarDial 2019 addresses the
problem of identifying seven languages and dialects written in cuneiform;
Sumerian and six dialects of Akkadian language: Old Babylonian, Middle
Babylonian Peripheral, Standard Babylonian, Neo-Babylonian, Late Babylonian,
and Neo-Assyrian. This paper describes the approaches taken by SharifCL team to
this problem in VarDial 2019. The best result belongs to an ensemble of Support
Vector Machines and a naive Bayes classifier, both working on character-level
features, with macro-averaged F1-score of 72.10%.
- Abstract(参考訳): キュニフォーム記号を用いて書かれた言語の識別は、リソース不足とトークン化の問題のため難しい作業である。
シュメール語と6つのアッカド語の方言:古バビロニア語、中バビロニア語、標準バビロニア語、ネオバビロニア語、後期バビロニア語、ネオアッシリア語。
本稿では,SharifCLチームによるVarDial 2019におけるこの問題に対するアプローチについて述べる。
最良の結果は、サポートベクターマシンとネイブベイズ分類器のアンサンブルであり、どちらも文字レベルの機能に取り組んでおり、マクロ平均f1-scoreは72.10%である。
関連論文リスト
- Shifting from endangerment to rebirth in the Artificial Intelligence Age: An Ensemble Machine Learning Approach for Hawrami Text Classification [1.174020933567308]
ハフラミ語(Hawrami)はクルド語の方言で、絶滅危惧言語に分類される。
本稿では2つの母語話者による15のカテゴリにラベル付けされた6,854項目のデータセットを用いて,さまざまなテキスト分類モデルを提案する。
論文 参考訳(メタデータ) (2024-09-25T12:52:21Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - PALI: A Language Identification Benchmark for Perso-Arabic Scripts [30.99179028187252]
本稿ではペルソ・アラビア文字を用いた言語検出の課題について述べる。
文を言語に分類するために、教師付きテクニックのセットを使用します。
また,しばしば混同される言語群を対象とする階層モデルを提案する。
論文 参考訳(メタデータ) (2023-04-03T19:40:14Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Multi-Dialect Arabic BERT for Country-Level Dialect Identification [1.2928709656541642]
提案する実験と、競合するチームであるMawdoo3 AIによって開発されたモデルについて述べる。
方言識別サブタスクは、アラブ21カ国すべてをカバーする21,000の国レベルのラベル付きつぶやきを提供する。
優勝したソリューションの事前学習された言語モデルコンポーネントを、Multi-dialect-Arabic-BERTモデルの名称で公開します。
論文 参考訳(メタデータ) (2020-07-10T21:11:46Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。