論文の概要: Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce
- arxiv url: http://arxiv.org/abs/2410.12691v3
- Date: Mon, 21 Oct 2024 09:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:44.992259
- Title: Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce
- Title(参考訳): より良い構築: データがスカースであるときの言語リソース開発における落とし穴を避ける
- Authors: Nedjma Ousidhoum, Meriem Beloucif, Saif M. Mohammad,
- Abstract要約: 与えられた言語のデータは、トークンの集まり以上のものと見なすべきである。
優れたデータ収集とラベル付けのプラクティスは、より人間中心で社会的に意識した技術を構築する上で鍵となる。
- 参考スコア(独自算出の注目度): 27.918975040084387
- License:
- Abstract: Language is a symbolic capital that affects people's lives in many ways (Bourdieu, 1977, 1991). It is a powerful tool that accounts for identities, cultures, traditions, and societies in general. Hence, data in a given language should be viewed as more than a collection of tokens. Good data collection and labeling practices are key to building more human-centered and socially aware technologies. While there has been a rising interest in mid- to low-resource languages within the NLP community, work in this space has to overcome unique challenges such as data scarcity and access to suitable annotators. In this paper, we collect feedback from those directly involved in and impacted by NLP artefacts for mid- to low-resource languages. We conduct a quantitative and qualitative analysis of the responses and highlight the main issues related to (1) data quality such as linguistic and cultural data suitability; and (2) the ethics of common annotation practices such as the misuse of online community services. Based on these findings, we make several recommendations for the creation of high-quality language artefacts that reflect the cultural milieu of its speakers, while simultaneously respecting the dignity and labor of data workers.
- Abstract(参考訳): 言語は多くの点で人々の生活に影響を与える象徴的な首都である(Bourdieu, 1977, 1991)。
アイデンティティ、文化、伝統、社会全般に影響を及ぼす強力な道具である。
したがって、ある言語のデータはトークンの集まり以上のものと見なすべきである。
優れたデータ収集とラベル付けのプラクティスは、より人間中心で社会的に意識した技術を構築する上で鍵となる。
NLPコミュニティでは中~低リソース言語への関心が高まっているが、この分野ではデータ不足や適切なアノテータへのアクセスといったユニークな課題を克服する必要がある。
本稿では,NLPアーティファクトに直接関係する人から,中間から低リソース言語へのフィードバックを収集する。
本研究は,(1)言語的・文化的データ適合性などのデータ品質,(2)オンラインコミュニティサービスの誤用などの共通アノテーション実践の倫理について,定量的かつ質的な分析を行い,その主な課題を浮き彫りにする。
これらの知見に基づき,データ労働者の尊厳と労働力を同時に尊重しつつ,話者の文化的不安を反映した高品質な言語アーティファクトの作成を推奨する。
関連論文リスト
- Socially Responsible Data for Large Multilingual Language Models [12.338723881042926]
大規模言語モデル(LLM)は、過去3年間で、急速にサイズと明らかな能力が向上している。
グローバル・ノース以外の地域社会の言語に対応するためのモデルを模索している。
論文 参考訳(メタデータ) (2024-09-08T23:51:04Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。