論文の概要: What a Creole Wants, What a Creole Needs
- arxiv url: http://arxiv.org/abs/2206.00437v1
- Date: Wed, 1 Jun 2022 12:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:50:21.113555
- Title: What a Creole Wants, What a Creole Needs
- Title(参考訳): クレオールが望むもの クレオールが必要とするもの
- Authors: Heather Lent, Kelechi Ogueji, Miryam de Lhoneux, Orevaoghene Ahia,
Anders S{\o}gaard
- Abstract要約: 我々は,低リソース言語であるクレオール言語群を考察する。クレオール言語はNLP文学にはほとんど欠落しており,また,スティグマのため社会全体から無視されることも多い。
クレオールの専門家との会話やクレオール話者コミュニティの調査を通じて、言語技術から必要なものが言語によって劇的に変化する様子を実演する。
- 参考スコア(独自算出の注目度): 1.985426476051888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the natural language processing (NLP) community has given
increased attention to the disparity of efforts directed towards high-resource
languages over low-resource ones. Efforts to remedy this delta often begin with
translations of existing English datasets into other languages. However, this
approach ignores that different language communities have different needs. We
consider a group of low-resource languages, Creole languages. Creoles are both
largely absent from the NLP literature, and also often ignored by society at
large due to stigma, despite these languages having sizable and vibrant
communities. We demonstrate, through conversations with Creole experts and
surveys of Creole-speaking communities, how the things needed from language
technology can change dramatically from one language to another, even when the
languages are considered to be very similar to each other, as with Creoles. We
discuss the prominent themes arising from these conversations, and ultimately
demonstrate that useful language technology cannot be built without involving
the relevant community.
- Abstract(参考訳): 近年、自然言語処理(NLP)コミュニティは、低リソース言語に対する高リソース言語への取り組みの相違に注意を向けている。
このデルタを修復する努力は、しばしば既存の英語データセットを他の言語に翻訳することから始まる。
しかし、このアプローチは異なる言語コミュニティが異なるニーズを持っていることを無視する。
我々は、低リソース言語、クレオール言語の一群を考える。
クレオール語はどちらもnlpの文献にほとんど欠落しており、スティグマ(stigma)によって社会によって無視されることが多い。
我々は,クレオール語話者コミュニティにおけるクレオール語の専門家との会話や調査を通じて,クレオール語と同様に言語が互いに非常に類似していると考えられる場合でも,言語技術から必要なものが,言語によって劇的に変化することを実証する。
これらの会話から生じる顕著なテーマについて論じ、最終的に、有用な言語技術は、関連するコミュニティを巻き込まずに構築できないことを示す。
関連論文リスト
- Socially Responsible Data for Large Multilingual Language Models [12.338723881042926]
大規模言語モデル(LLM)は、過去3年間で、急速にサイズと明らかな能力が向上している。
グローバル・ノース以外の地域社会の言語に対応するためのモデルを模索している。
論文 参考訳(メタデータ) (2024-09-08T23:51:04Z) - Guylingo: The Republic of Guyana Creole Corpora [6.582021376649199]
クレオール語領域におけるNLP研究の進展を目的とした包括的コーパスについて述べる。
我々はまず,この多言語コーパスの収集とデジタル化のための枠組みについて概説する。
次に、クレオールにおける機械翻訳のためのNLPモデルの訓練と評価の課題を示す。
論文 参考訳(メタデータ) (2024-05-06T20:30:14Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - CreoleVal: Multilingual Multitask Benchmarks for Creoles [46.50887462355172]
CreoleValは8つの異なるNLPタスクにまたがるベンチマークデータセットの集合である。
これは、理解、関係分類、クレオールの機械翻訳のための新しい開発データセットの集合である。
論文 参考訳(メタデータ) (2023-10-30T14:24:20Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language [91.79339725967073]
世界で話されている言語の43%以上が危険にさらされている。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
私たちは、深刻な絶滅危惧言語であるチェロキーをケーススタディとして捉えています。
論文 参考訳(メタデータ) (2022-04-25T18:25:57Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - On Language Models for Creoles [8.577162764242845]
ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
文法的特徴と語彙的特徴がクレオールに伝達されるのは複雑なプロセスである。
クレオールは概して安定しているが、一部の特徴の優位性は特定の人口統計学や一部の言語学的状況においてより強くなる可能性がある。
論文 参考訳(メタデータ) (2021-09-13T15:51:15Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。