論文の概要: The Development of a Labelled te reo M\=aori-English Bilingual Database
for Language Technology
- arxiv url: http://arxiv.org/abs/2208.09778v1
- Date: Sun, 21 Aug 2022 01:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:07:08.991385
- Title: The Development of a Labelled te reo M\=aori-English Bilingual Database
for Language Technology
- Title(参考訳): 言語技術のためのラベル付きte reo m\=aori英語バイリンガルデータベースの開発
- Authors: Jesin James, Isabella Shields, Vithya Yogarajan, Peter J. Keegan,
Catherine Watson, Peter-Lucas Jones, and Keoni Mahelona
- Abstract要約: M=aori話者はバイリンガルであり、M=aoriは英語でコードスイッチされている。
本研究は66,016,807語からなるM=aori- English bilingual databaseを構築した。
- 参考スコア(独自算出の注目度): 0.4104352271917982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Te reo M\=aori (referred to as M\=aori), New Zealand's indigenous language,
is under-resourced in language technology. M\=aori speakers are bilingual,
where M\=aori is code-switched with English. Unfortunately, there are minimal
resources available for M\=aori language technology, language detection and
code-switch detection between M\=aori-English pair. Both English and M\=aori
use Roman-derived orthography making rule-based systems for detecting language
and code-switching restrictive. Most M\=aori language detection is done
manually by language experts. This research builds a M\=aori-English bilingual
database of 66,016,807 words with word-level language annotation. The New
Zealand Parliament Hansard debates reports were used to build the database. The
language labels are assigned using language-specific rules and expert manual
annotations. Words with the same spelling, but different meanings, exist for
M\=aori and English. These words could not be categorised as M\=aori or English
based on word-level language rules. Hence, manual annotations were necessary.
An analysis reporting the various aspects of the database such as metadata,
year-wise analysis, frequently occurring words, sentence length and N-grams is
also reported. The database developed here is a valuable tool for future
language and speech technology development for Aotearoa New Zealand. The
methodology followed to label the database can also be followed by other
low-resourced language pairs.
- Abstract(参考訳): ニュージーランドの先住民語であるTe reo M\=aori (M\=aori) は、言語技術で不足している。
M\=aori話者はバイリンガルであり、M\=aoriは英語でコードスイッチされる。
残念ながら、M\=aori言語技術、言語検出、M\=aori- Englishペア間のコードスウィッチ検出には最小限のリソースがある。
英語とM\=aoriはローマ語由来の正書法を用いて、言語とコードスイッチングの制限を検出する。
ほとんどのM\=aori言語検出は、言語専門家が手作業で行う。
本研究では,66,016,807語のM\=aori- English bilingual databaseを構築した。
ニュージーランド議会のハンサードの議論はデータベース構築に使われた。
言語ラベルは、言語固有のルールと専門家のマニュアルアノテーションを使って割り当てられる。
同じ綴りを持つ単語は、m\=aoriと英語には異なる意味を持つ。
これらの単語は、単語レベルの言語規則に基づいてM\=aoriまたは英語に分類することはできない。
そのため手動の注釈が必要であった。
また、メタデータ、年次分析、頻出語、文長、N-gramsなどのデータベースの様々な側面を報告する分析を報告する。
ここで開発されたデータベースは、Aotearoa New Zealandの将来の言語および音声技術開発のための貴重なツールである。
続いてデータベースにラベルをつける手法は、他の低リソースの言語ペアも従うことができる。
関連論文リスト
- Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Retrieval-augmented Multilingual Knowledge Editing [81.6690436581947]
LLM(Large Language Models)で表される知識は、しばしば誤りであり、時間とともに時代遅れになる可能性がある。
知識編集(KE)は、新しい知識を注入するための効果的で経済的な代替手段として発展してきた。
本稿では,LLMの新たな知識を更新するためにRetrieval-augmented Multilingual Knowledge Editor (ReMaKE)を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:08:58Z) - Teacher Perception of Automatically Extracted Grammar Concepts for L2
Language Learning [66.79173000135717]
本研究は、カンナダ語とマラティ語という2つのインドの言語教育に適用する。
我々は、形態素構文(単語順、一致、ケースマーキング、または単語形成の学習)と意味論(語彙の学習)に関する疑問に答える自然なテキストコーパスから記述を抽出する。
我々は,北米の学校から言語教育者の助けを借りて手作業による評価を行い,教材が授業の準備や学習者評価に利用できる可能性を見出した。
論文 参考訳(メタデータ) (2023-10-27T18:17:29Z) - Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement
Learning [56.07190845063208]
具体的強化学習(RL)エージェントは、非言語タスクから間接的に言語を学習できるか?
エージェントが特定のオフィスを見つけることを目標とするオフィスナビゲーション環境を設計し、異なる建物(タスク)でオフィスロケーションが異なる。
我々は、RLエージェントが言語を間接的に学習できることを発見した。現在のメタRLアルゴリズムで訓練されたエージェントは、ホールドアウトレイアウトと言語フレーズでフロアプランを読むことに成功している。
論文 参考訳(メタデータ) (2023-06-14T09:48:48Z) - CoLI-Machine Learning Approaches for Code-mixed Language Identification
at the Word Level in Kannada-English Texts [0.0]
多くのインド人、特に若者はヒンディー語や英語に慣れているため、ソーシャルメディアにコメントを投稿するために複数の言語を使うことが多い。
コードミキシングされたKn-EnテキストはYouTubeビデオコメントから抽出され、CoLI-KenglishデータセットとコードミキシングされたKn-En埋め込みを構築する。
CoLI-Kenglishデータセットの単語は、"Kannada"、" English"、"Mixed-lang"、"Name"、"Location"、"その他"の6つの主要なカテゴリに分類される。
論文 参考訳(メタデータ) (2022-11-17T19:16:56Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Multilingual Central Repository: a Cross-lingual Framework for
Developing Wordnets [5.459389632295147]
本稿では,多言語中央リポジトリの開発に使用される多言語フレームワークについて述べる。
この知識ベースにはバスク語、カタルーニャ語、英語、ガリシア語、ポルトガル語のワードネットが含まれており、ベースコンセプト、トップオントロジー、WordNetドメイン、Suggested Upper Merged Ontologyが含まれる。
論文 参考訳(メタデータ) (2021-07-01T09:50:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。