論文の概要: Connecting Ideas in 'Lower-Resource' Scenarios: NLP for National Varieties, Creoles and Other Low-resource Scenarios
- arxiv url: http://arxiv.org/abs/2409.12683v1
- Date: Thu, 19 Sep 2024 11:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:56:58.997277
- Title: Connecting Ideas in 'Lower-Resource' Scenarios: NLP for National Varieties, Creoles and Other Low-resource Scenarios
- Title(参考訳): ローワー・ソース」シナリオにおけるアイデアの結びつき - 国家品種, クレオール, その他の低リソースシナリオのためのNLP
- Authors: Aditya Joshi, Diptesh Kanojia, Heather Lent, Hour Kaing, Haiyue Song,
- Abstract要約: 少数の言語のベンチマークによる優れた結果にもかかわらず、大規模な言語モデルは、低リソースのシナリオにある言語からテキストを処理するのに苦労している。
このチュートリアルでは、自然言語処理(NLP)研究における共通の課題、アプローチ、テーマを特定し、データ・ポーア・コンテキストに固有の障害に直面し克服する。
- 参考スコア(独自算出の注目度): 11.460959151493055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite excellent results on benchmarks over a small subset of languages, large language models struggle to process text from languages situated in `lower-resource' scenarios such as dialects/sociolects (national or social varieties of a language), Creoles (languages arising from linguistic contact between multiple languages) and other low-resource languages. This introductory tutorial will identify common challenges, approaches, and themes in natural language processing (NLP) research for confronting and overcoming the obstacles inherent to data-poor contexts. By connecting past ideas to the present field, this tutorial aims to ignite collaboration and cross-pollination between researchers working in these scenarios. Our notion of `lower-resource' broadly denotes the outstanding lack of data required for model training - and may be applied to scenarios apart from the three covered in the tutorial.
- Abstract(参考訳): 少数の言語のベンチマークによる優れた結果にもかかわらず、大きな言語モデルは、方言や社会言語(国家的または社会的な言語)、クレオール(複数の言語間の言語的接触から生じる言語)、および他の低リソース言語のような「低リソース」のシナリオにある言語からテキストを処理するのに苦労している。
この入門チュートリアルでは、自然言語処理(NLP)研究における共通の課題、アプローチ、テーマを特定し、データ・ポーア・コンテキストに固有の障害に直面し克服する。
このチュートリアルは,過去のアイデアを現在の分野に結び付けることで,これらのシナリオに携わる研究者間のコラボレーションと相互補完を啓蒙することを目的としている。
我々の 'lower-resource' という概念は、モデルトレーニングに必要なデータの不足を広く表しています。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Automatically Identifying Language Family from Acoustic Examples in Low
Resource Scenarios [48.57072884674938]
ディープラーニングを用いて言語類似性を解析する手法を提案する。
すなわち、Willernessデータセットのモデルをトレーニングし、その潜在空間が古典的な言語家族の発見とどのように比較されるかを調べる。
論文 参考訳(メタデータ) (2020-12-01T22:44:42Z) - Low-Resource Adaptation of Neural NLP Models [0.30458514384586405]
本論文は,情報抽出と自然言語理解における低リソースシナリオを扱う手法について考察する。
ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。
論文 参考訳(メタデータ) (2020-11-09T12:13:55Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。