Fugu-MT 論文翻訳(概要): Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce

論文の概要: Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce

arxiv url: http://arxiv.org/abs/2410.12691v3
Date: Mon, 21 Oct 2024 09:28:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.39953
Title: Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce
Title（参考訳）: より良い構築: データがスカースであるときの言語リソース開発における落とし穴を避ける
Authors: Nedjma Ousidhoum, Meriem Beloucif, Saif M. Mohammad,
Abstract要約: 与えられた言語のデータは、トークンの集まり以上のものと見なすべきである。優れたデータ収集とラベル付けのプラクティスは、より人間中心で社会的に意識した技術を構築する上で鍵となる。
参考スコア（独自算出の注目度）: 27.918975040084387
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language is a symbolic capital that affects people's lives in many ways (Bourdieu, 1977, 1991). It is a powerful tool that accounts for identities, cultures, traditions, and societies in general. Hence, data in a given language should be viewed as more than a collection of tokens. Good data collection and labeling practices are key to building more human-centered and socially aware technologies. While there has been a rising interest in mid- to low-resource languages within the NLP community, work in this space has to overcome unique challenges such as data scarcity and access to suitable annotators. In this paper, we collect feedback from those directly involved in and impacted by NLP artefacts for mid- to low-resource languages. We conduct a quantitative and qualitative analysis of the responses and highlight the main issues related to (1) data quality such as linguistic and cultural data suitability; and (2) the ethics of common annotation practices such as the misuse of online community services. Based on these findings, we make several recommendations for the creation of high-quality language artefacts that reflect the cultural milieu of its speakers, while simultaneously respecting the dignity and labor of data workers.
Abstract（参考訳）: 言語は多くの点で人々の生活に影響を与える象徴的な首都である(Bourdieu, 1977, 1991)。アイデンティティ、文化、伝統、社会全般に影響を及ぼす強力な道具である。したがって、ある言語のデータはトークンの集まり以上のものと見なすべきである。優れたデータ収集とラベル付けのプラクティスは、より人間中心で社会的に意識した技術を構築する上で鍵となる。 NLPコミュニティでは中～低リソース言語への関心が高まっているが、この分野ではデータ不足や適切なアノテータへのアクセスといったユニークな課題を克服する必要がある。本稿では,NLPアーティファクトに直接関係する人から,中間から低リソース言語へのフィードバックを収集する。本研究は,(1)言語的・文化的データ適合性などのデータ品質,(2)オンラインコミュニティサービスの誤用などの共通アノテーション実践の倫理について,定量的かつ質的な分析を行い,その主な課題を浮き彫りにする。これらの知見に基づき,データ労働者の尊厳と労働力を同時に尊重しつつ,話者の文化的不安を反映した高品質な言語アーティファクトの作成を推奨する。

関連論文リスト

From Data Scarcity to Data Care: Reimagining Language Technologies for Serbian and other Low-Resource Languages [0.0]
本研究では、AI時代の低資源言語のための言語技術開発を形作る構造的、歴史的、社会技術的要因について検討する。これは、現代の問題によって強化されたセルビアのテキスト遺産の歴史的破壊に根ざした課題を辿るものである。これらの課題に対処するため、この研究は、CARE原則に基づくフレームワークであるData Careを提案する。
論文参考訳（メタデータ） (2025-12-11T13:29:25Z)
No Language Data Left Behind: A Comparative Study of CJK Language Datasets in the Hugging Face Ecosystem [2.1384640984303216]
文化規範,研究環境,制度的実践がデータセットの可用性と品質をどのように形成するかを検討する。本研究は,中国におけるデータセットの大規模かつ機関主導的な性質,韓国NLPにおける草の根コミュニティ主導の開発,日本コレクションへのエンターテイメントとサブカルチャーの重視,などを明らかにする。我々は、将来のデータセットのキュレーションとコラボレーションのためのベストプラクティスについて議論し、3つの言語すべてにわたるリソース開発を強化することを目的として締めくくった。
論文参考訳（メタデータ） (2025-07-06T10:32:32Z)
CARE: Aligning Language Models for Regional Cultural Awareness [28.676469530858924]
既存の言語モデル(LM)はしばしば西洋中心のバイアスを示し、多様な文化的知識を表現するのに苦労する。これに対処する以前の試みは、合成データに頼り、文化的な知識を英語でのみ表現するものだった。まず、中国文化とアラブ文化に関する2,580の質問に対して、人選好による24.1k応答の多言語リソースであるCAREを紹介した。
論文参考訳（メタデータ） (2025-04-07T14:57:06Z)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。 BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文参考訳（メタデータ） (2024-11-20T16:59:41Z)
Socially Responsible Data for Large Multilingual Language Models [12.338723881042926]
大規模言語モデル(LLM)は、過去3年間で、急速にサイズと明らかな能力が向上している。グローバル・ノース以外の地域社会の言語に対応するためのモデルを模索している。
論文参考訳（メタデータ） (2024-09-08T23:51:04Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文参考訳（メタデータ） (2023-10-23T17:42:01Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Neural Machine Translation for the Indigenous Languages of the Americas: An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文参考訳（メタデータ） (2023-06-11T23:27:47Z)
Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (2023-05-25T15:30:31Z)
Not always about you: Prioritizing community needs when developing endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文参考訳（メタデータ） (2022-04-12T05:59:39Z)
The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。 1億人以上がこの言語を話すと推定されている。言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文参考訳（メタデータ） (2021-02-13T19:34:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。