論文の概要: Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for
Underdocumented Languages
- arxiv url: http://arxiv.org/abs/2203.09632v1
- Date: Thu, 17 Mar 2022 22:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 08:27:37.834495
- Title: Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for
Underdocumented Languages
- Title(参考訳): Dim Wihl Gat Tun:Underdocumented LanguagesにおけるNLPの言語専門家の事例
- Authors: Clarissa Forbes, Farhan Samir, Bruce Harold Oliver, Changbing Yang,
Edith Coates, Garrett Nicolai and Miikka Silfverberg
- Abstract要約: 何百もの未保存言語が、言語ドキュメントの取り組みから、インターリニアグロステキスト(IGT)という形でデータソースを提供している。
ターゲット言語の専門知識が利用可能であれば、IGTデータをうまく活用できると仮定する。
本研究は,Tsimchianic Language Gitksanのための形態的再帰システムの構築に関する事例研究を通じて,各ステップについて解説する。
- 参考スコア(独自算出の注目度): 6.8708103492634836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in NLP is driven by pretrained models leveraging massive
datasets and has predominantly benefited the world's political and economic
superpowers. Technologically underserved languages are left behind because they
lack such resources. Hundreds of underserved languages, nevertheless, have
available data sources in the form of interlinear glossed text (IGT) from
language documentation efforts. IGT remains underutilized in NLP work, perhaps
because its annotations are only semi-structured and often language-specific.
With this paper, we make the case that IGT data can be leveraged successfully
provided that target language expertise is available. We specifically advocate
for collaboration with documentary linguists. Our paper provides a roadmap for
successful projects utilizing IGT data: (1) It is essential to define which NLP
tasks can be accomplished with the given IGT data and how these will benefit
the speech community. (2) Great care and target language expertise is required
when converting the data into structured formats commonly employed in NLP. (3)
Task-specific and user-specific evaluation can help to ascertain that the tools
which are created benefit the target language speech community. We illustrate
each step through a case study on developing a morphological reinflection
system for the Tsimchianic language Gitksan.
- Abstract(参考訳): NLPの最近の進歩は、大量のデータセットを活用する事前訓練されたモデルによって推進され、世界の政治的・経済的超大国に大きな利益をもたらした。
技術的に未熟な言語は、そのような資源が欠如しているため残されている。
にもかかわらず、何百もの未保存言語が、言語ドキュメントの取り組みから、インターリニアグロステキスト(IGT)という形でデータソースを提供している。
IGTは、おそらくそのアノテーションは半構造化され、しばしば言語固有のものであるからである。
本稿では,言語専門知識が利用可能である場合に,IGTデータを有効活用できることを示す。
我々は特にドキュメンタリー言語学者とのコラボレーションを提唱する。
本論文は,IGTデータを利用したプロジェクト成功のロードマップを提供する。(1) 与えられたIGTデータを用いてどのNLPタスクを達成できるか,また,これらのタスクが音声コミュニティの利益をもたらすかを定義することが不可欠である。
2)NLPで一般的に使用される構造化フォーマットにデータを変換する際には,言語知識と注意が必要である。
3)タスク特化およびユーザ特化評価は,生成したツールが対象言語音声コミュニティに有効であることを確かめるのに役立つ。
本研究は,Tsimchianic Language Gitksanのための形態的再構成システムの開発を事例として述べる。
関連論文リスト
- Can we teach language models to gloss endangered languages? [10.698704803396723]
Interlinear glossed text (IGT) は言語ドキュメントプロジェクトにおいて一般的なフォーマットであり、各形態素には記述的なアノテーションが付けられている。
我々は,大規模言語モデル (LLM) が,従来の訓練を使わずに,文脈内学習と相互学習の課題に有効であるかどうかを考察する。
LLMベースの手法は、トレーニングを全く必要とせず、標準的なトランスフォーマーベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-27T05:17:04Z) - Toward Informal Language Processing: Knowledge of Slang in Large Language Models [16.42982896928428]
我々は,スラングの自動処理に関連するタスクセットの評価を支援するデータセットを構築した。
評価と微調整の両面で,2つのコアアプリケーションにおけるデータセットの有効性を示す。
GPT-4のようなLCMはゼロショット設定で優れた性能を発揮するが、我々のデータセットで微調整された小さなBERTのようなモデルは同等の性能を得る。
論文 参考訳(メタデータ) (2024-04-02T21:50:18Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - GlossLM: Multilingual Pretraining for Low-Resource Interlinear Glossing [39.846419973203744]
我々は、1.8k言語にまたがる450万以上のサンプルを網羅し、様々なソースからIGT(Interlinear glossed Text)データをコンパイルする。
コーパス上で大きな多言語モデルを事前学習し、最大6.6%のSOTAモデルより優れています。
トレーニング済みのモデルとデータセットをHugging Faceを通じて利用可能にするとともに、言語ドキュメントの作業で使用するWebインターフェースを通じてアクセスします。
論文 参考訳(メタデータ) (2024-03-11T03:21:15Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - LaoPLM: Pre-trained Language Models for Lao [3.2146309563776416]
事前訓練された言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。
PTMは、ほとんどのNLPアプリケーションで広く使われているが、Lao NLP研究ではあまり使われていない。
ラオス語の資源管理状況を軽減するために,テキスト分類データセットを構築した。
本稿では,ラオスにおけるトランスフォーマーベースのPTMを,BERT-small,BERT-base,ELECTRA-small,ELECTRA-baseの4つのバージョンで提案する。
論文 参考訳(メタデータ) (2021-10-12T11:13:07Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。