論文の概要: A Survey of Corpora for Germanic Low-Resource Languages and Dialects
- arxiv url: http://arxiv.org/abs/2304.09805v1
- Date: Wed, 19 Apr 2023 16:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:37:15.402370
- Title: A Survey of Corpora for Germanic Low-Resource Languages and Dialects
- Title(参考訳): ゲルマン語低資源言語と方言のコーパス調査
- Authors: Verena Blaschke, Hinrich Sch\"utze, Barbara Plank
- Abstract要約: この研究は低リソース言語、特に非標準の低リソース言語に焦点を当てている。
研究を促進するために,80以上のコーパスの概要を公開している。
- 参考スコア(独自算出の注目度): 18.210880703295253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite much progress in recent years, the vast majority of work in natural
language processing (NLP) is on standard languages with many speakers. In this
work, we instead focus on low-resource languages and in particular
non-standardized low-resource languages. Even within branches of major language
families, often considered well-researched, little is known about the extent
and type of available resources and what the major NLP challenges are for these
language varieties. The first step to address this situation is a systematic
survey of available corpora (most importantly, annotated corpora, which are
particularly valuable for NLP research). Focusing on Germanic low-resource
language varieties, we provide such a survey in this paper. Except for
geolocation (origin of speaker or document), we find that manually annotated
linguistic resources are sparse and, if they exist, mostly cover morphosyntax.
Despite this lack of resources, we observe that interest in this area is
increasing: there is active development and a growing research community. To
facilitate research, we make our overview of over 80 corpora publicly
available. We share a companion website of this overview at
https://github.com/mainlp/germanic-lrl-corpora .
- Abstract(参考訳): 近年の進歩にもかかわらず、自然言語処理(NLP)における作業の大部分は、多くの話者を持つ標準言語で行われている。
この作業では、代わりに低リソース言語、特に非標準低リソース言語にフォーカスします。
しばしばよく研究されていると思われる主要言語ファミリーの分野においても、利用可能なリソースの範囲と種類、そしてこれらの言語品種にとってのNLPの主な課題についてはほとんど分かっていない。
この状況に対処する最初のステップは、利用可能なコーパス(最も重要なのは、特にNLP研究に有用な注釈付きコーパス)の体系的な調査である。
本稿では,ゲルマン語の低リソース言語に焦点をあてて,そのような調査を行う。
位置情報(話者や文書を除く)を除いて、手動で注釈付けされた言語資源は希少であり、もし存在するならば、ほとんどは形態素構文をカバーしている。
このような資源の不足にもかかわらず、この分野への関心は高まっている:活発な開発と研究コミュニティが成長している。
研究を容易にするため,80以上のコーパスの概要を公開している。
この概要のWebサイトはhttps://github.com/mainlp/germanic-lrl-corporaで共有しています。
関連論文リスト
- KyrgyzNLP: Challenges, Progress, and Future [1.1920184024241331]
大規模言語モデル(LLM)は多くのベンチマークで優れており、言語的タスクと非言語的タスクの両方においてAIアプリケーションを進歩させている。
これは主に、リソースの少ない言語(LRL)を不利な状態にしておくことで、十分なリソースを持つ言語に利益をもたらしている。
本稿では,特定のLRL:Kyrgyz tiliにおけるNLPフィールドの現状について述べる。
論文 参考訳(メタデータ) (2024-11-08T12:03:31Z) - The Zeno's Paradox of `Low-Resource' Languages [20.559416975723142]
いくつかの相互作用する軸が、言語の低リソース化にどのように寄与するかを示す。
私たちの研究は、論文で使われている用語の明確な定義を導き出すことを願っています。
論文 参考訳(メタデータ) (2024-10-28T08:05:34Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Contextualising Levels of Language Resourcedness affecting Digital
Processing of Text [0.5620321106679633]
我々は,全言語における直交型論 LRL と HRL が問題であると主張している。
特徴付けは、ツールを数えるのではなく、各カテゴリの文脈的特徴の類型化に基づいている。
論文 参考訳(メタデータ) (2023-09-29T07:48:24Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。
WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。
資源開発に関する推奨ガイドラインをまとめる。
論文 参考訳(メタデータ) (2022-02-24T18:39:57Z) - When Word Embeddings Become Endangered [0.685316573653194]
本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
論文 参考訳(メタデータ) (2021-03-24T15:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。