論文の概要: Low-resourced Languages and Online Knowledge Repositories: A Need-Finding Study
- arxiv url: http://arxiv.org/abs/2405.16669v1
- Date: Sun, 26 May 2024 19:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:58:15.968970
- Title: Low-resourced Languages and Online Knowledge Repositories: A Need-Finding Study
- Title(参考訳): 低リソース言語とオンライン知識リポジトリ
- Authors: Hellina Hailu Nigatu, John Canny, Sarah E. Chasins,
- Abstract要約: 本研究は、人気のあるOKRウィキペディアにおいて、低リソース言語コントリビュータが直面している課題について検討する。
私たちはエチオピアの3つの言語(Afan Oromo、Amharic、Tigrinya)に焦点を当てています。
当社の研究は、低リソースの言語話者にオンライン知識リポジトリをアクセスできるようにする上で、デザイナを支援することを願っています。
- 参考スコア(独自算出の注目度): 5.735035463793008
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Online Knowledge Repositories (OKRs) like Wikipedia offer communities a way to share and preserve information about themselves and their ways of living. However, for communities with low-resourced languages -- including most African communities -- the quality and volume of content available are often inadequate. One reason for this lack of adequate content could be that many OKRs embody Western ways of knowledge preservation and sharing, requiring many low-resourced language communities to adapt to new interactions. To understand the challenges faced by low-resourced language contributors on the popular OKR Wikipedia, we conducted (1) a thematic analysis of Wikipedia forum discussions and (2) a contextual inquiry study with 14 novice contributors. We focused on three Ethiopian languages: Afan Oromo, Amharic, and Tigrinya. Our analysis revealed several recurring themes; for example, contributors struggle to find resources to corroborate their articles in low-resourced languages, and language technology support, like translation systems and spellcheck, result in several errors that waste contributors' time. We hope our study will support designers in making online knowledge repositories accessible to low-resourced language speakers.
- Abstract(参考訳): ウィキペディアのようなオンライン知識リポジトリ(OKR)は、コミュニティに自分自身とその生活方法に関する情報を共有し保存する方法を提供する。
しかし、アフリカのほとんどのコミュニティを含む低リソースの言語を持つコミュニティでは、利用可能なコンテンツの品質と量はしばしば不十分である。
この適切な内容の欠如の1つの理由は、多くのOKRが西洋の知識保存と共有の方法を具現化しており、多くの低リソース言語コミュニティが新しい相互作用に適応する必要があるからである。
人気のOKRウィキペディアにおいて,低リソース言語コントリビュータが直面している課題を理解するため,(1)ウィキペディアフォーラム議論のテーマ分析,(2)初心者コントリビュータ14名による文脈調査を行った。
私たちは3つのエチオピア語(Afan Oromo、Amharic、Tigrinya)に焦点を当てました。
例えば、コントリビュータは、低リソース言語で記事をコロボ化するためのリソースを見つけるのに苦労し、翻訳システムやスペルチェックのような言語技術のサポートは、コントリビュータの時間を浪費するいくつかのエラーを引き起こします。
当社の研究は、低リソースの言語話者にオンライン知識リポジトリをアクセスできるようにする上で、デザイナを支援することを願っています。
関連論文リスト
- Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文 参考訳(メタデータ) (2023-12-12T01:42:41Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。
WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。
資源開発に関する推奨ガイドラインをまとめる。
論文 参考訳(メタデータ) (2022-02-24T18:39:57Z) - Computational linguistic assessment of textbook and online learning
media by means of threshold concepts in business education [59.003956312175795]
言語学的観点では、しきい値の概念は特別な語彙の例であり、特定の言語的特徴を示す。
ビジネス教育における63のしきい値の概念のプロファイルは、教科書、新聞、ウィキペディアで調査されている。
3種類のリソースは、しきい値の概念のプロファイルから区別できる。
論文 参考訳(メタデータ) (2020-08-05T12:56:16Z) - Cross-Lingual Word Embeddings for Turkic Languages [1.418033127602866]
言語間の単語埋め込みは、リソース豊富な言語から低リソース言語に知識を移すことができる。
トルコ語、ウズベク語、アゼリ語、カザフ語、キルギス語に言語間単語を埋め込む方法を示す。
論文 参考訳(メタデータ) (2020-05-17T18:57:23Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z) - Learnings from Technological Interventions in a Low Resource Language: A
Case-Study on Gondi [13.9876704685177]
ゴンディ語は、南インドと中央インドで約230万人の部族が話している低資源の脆弱言語である。
これらの介入の最後には、12,000語未満の翻訳語や文を収集しました。
プロジェクトの大きな目標は、実行可能な言語テクノロジの構築とデプロイに十分なデータをゴンディで収集することだ。
論文 参考訳(メタデータ) (2020-04-21T20:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。