論文の概要: The Zeno's Paradox of `Low-Resource' Languages
- arxiv url: http://arxiv.org/abs/2410.20817v1
- Date: Mon, 28 Oct 2024 08:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:29.118010
- Title: The Zeno's Paradox of `Low-Resource' Languages
- Title(参考訳): Zenoの‘Low-Resource’言語のパラドックス
- Authors: Hellina Hailu Nigatu, Atnafu Lambebo Tonja, Benjamin Rosman, Thamar Solorio, Monojit Choudhury,
- Abstract要約: いくつかの相互作用する軸が、言語の低リソース化にどのように寄与するかを示す。
私たちの研究は、論文で使われている用語の明確な定義を導き出すことを願っています。
- 参考スコア(独自算出の注目度): 20.559416975723142
- License:
- Abstract: The disparity in the languages commonly studied in Natural Language Processing (NLP) is typically reflected by referring to languages as low vs high-resourced. However, there is limited consensus on what exactly qualifies as a `low-resource language.' To understand how NLP papers define and study `low resource' languages, we qualitatively analyzed 150 papers from the ACL Anthology and popular speech-processing conferences that mention the keyword `low-resource.' Based on our analysis, we show how several interacting axes contribute to `low-resourcedness' of a language and why that makes it difficult to track progress for each individual language. We hope our work (1) elicits explicit definitions of the terminology when it is used in papers and (2) provides grounding for the different axes to consider when connoting a language as low-resource.
- Abstract(参考訳): 自然言語処理(NLP)でよく研究される言語の相違は、典型的には低あるいは高リソースの言語を指して反映される。
しかし、 'low-resource language' と正確に該当するものについては、限定的なコンセンサスがある。
「低リソース」言語の定義と研究の仕方を理解するため、ACLアンソロジーおよび「低リソース」キーワードに言及した一般的な音声処理会議から150の論文を質的に分析した。
「我々の分析から、複数の相互作用する軸が言語の「低リソース性」にどのように寄与しているか、そしてなぜ個々の言語の進行を追跡できないのかを示す。
本研究は,(1)論文で用いた場合の用語の定義を明確にし,(2)低リソース言語を記述する際に考慮すべき異なる軸の基盤を提供することを願っている。
関連論文リスト
- Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment [13.997006139875563]
低リソース言語における言語間単語表現は、特に現在のモデルにおける高リソース言語における単語表現と一致していない。
そこで本研究では,既製の単語アライメントモデルを用いて,英語と低リソース言語8言語間の単語アライメントを明確にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-03T05:58:53Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Isomorphic Cross-lingual Embeddings for Low-Resource Languages [1.5076964620370268]
CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2022-03-28T10:39:07Z) - How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文 参考訳(メタデータ) (2021-05-30T12:09:59Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。
提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文 参考訳(メタデータ) (2020-03-13T22:24:14Z) - Combining Pretrained High-Resource Embeddings and Subword
Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。
本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-03-09T21:30:55Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。