論文の概要: Bilingual Word Level Language Identification for Omotic Languages
- arxiv url: http://arxiv.org/abs/2509.07998v1
- Date: Fri, 05 Sep 2025 23:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.18788
- Title: Bilingual Word Level Language Identification for Omotic Languages
- Title(参考訳): 異国語に対するバイリンガル語レベルの言語識別
- Authors: Mesay Gemeda Yigezu, Girma Yohannis Bade, Atnafu Lambebo Tonja, Olga Kolesnikova, Grigori Sidorov, Alexander Gelbukh,
- Abstract要約: 本稿では,エチオピア南部,すなわちWolaitaとGofaで話されている言語に対するバイリンガル言語識別(BLID)について述べる。
この課題を克服するために、様々なアプローチで様々な実験を行った。
BERTベースの事前訓練言語モデルとLSTMアプローチの組み合わせは、テストセットのF1スコアが0.72であった。
- 参考スコア(独自算出の注目度): 44.04646981451376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language identification is the task of determining the languages for a given text. In many real world scenarios, text may contain more than one language, particularly in multilingual communities. Bilingual Language Identification (BLID) is the task of identifying and distinguishing between two languages in a given text. This paper presents BLID for languages spoken in the southern part of Ethiopia, namely Wolaita and Gofa. The presence of words similarities and differences between the two languages makes the language identification task challenging. To overcome this challenge, we employed various experiments on various approaches. Then, the combination of the BERT based pretrained language model and LSTM approach performed better, with an F1 score of 0.72 on the test set. As a result, the work will be effective in tackling unwanted social media issues and providing a foundation for further research in this area.
- Abstract(参考訳): 言語識別は、与えられたテキストの言語を決定するタスクである。
多くの実世界のシナリオでは、テキストは複数の言語を含み、特に多言語コミュニティではそうである。
バイリンガル言語識別(英: Bilingual Language Identification、BLID)とは、あるテキスト中の2つの言語を識別し、識別するタスクである。
本稿では,エチオピア南部で話されている言語,すなわちWolaitaとGofaについてBLIDを提案する。
単語の類似点の存在と2つの言語の違いは、言語識別タスクを困難にしている。
この課題を克服するために、様々なアプローチで様々な実験を行った。
そして、BERTベースの事前学習言語モデルとLSTMアプローチの組み合わせにより、テストセットのF1スコアが0.72であった。
結果として、この研究は、望ましくないソーシャルメディア問題に対処し、この分野におけるさらなる研究の基盤を提供するのに有効である。
関連論文リスト
- ILID: Native Script Language Identification for Indian Languages [0.0]
言語識別のコア課題は、ノイズの多い、短い、そしてコード混在した環境で言語を区別することにある。
英語を含む23の言語と、その言語識別子をラベル付けした22の公用語からなる250K文のデータセットをリリースする。
我々のモデルは、言語識別タスクのための最先端の訓練済みトランスフォーマーモデルより優れています。
論文 参考訳(メタデータ) (2025-07-16T01:39:32Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - How does a Multilingual LM Handle Multiple Languages? [0.0]
本研究では,多言語理解,意味表現,言語間知識伝達の能力について批判的に検討する。
コサイン類似性を用いた一貫性のための多言語単語埋め込みの分析により意味的類似性を評価する。
BLOOM-1.7B と Qwen2 を Named Entity Recognition と文類似性タスクを通して調べ、それらの言語構造を理解する。
論文 参考訳(メタデータ) (2025-02-06T18:08:14Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - A multilabel approach to morphosyntactic probing [3.0013352260516744]
マルチリンガルBERTは多くの形態合成特徴を簡便かつ同時に抽出できることを示した。
ゼロショット転送設定で、6つの「ホールドアウト」言語のプローブを評価します。
論文 参考訳(メタデータ) (2021-04-17T06:24:04Z) - To What Degree Can Language Borders Be Blurred In BERT-based
Multilingual Spoken Language Understanding? [7.245261469258502]
BERTをベースとした多言語言語理解(SLU)モデルは, 遠隔言語群でもかなりうまく機能するが, 理想的な多言語言語性能にはまだギャップがあることを示す。
本稿では,多言語SLUのための言語共有および言語固有表現を学習するための,BERTに基づく新しい逆モデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-10T09:59:24Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。