論文の概要: Computational historical linguistics and language diversity in South
Asia
- arxiv url: http://arxiv.org/abs/2203.12524v1
- Date: Wed, 23 Mar 2022 16:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 19:13:39.853048
- Title: Computational historical linguistics and language diversity in South
Asia
- Title(参考訳): 南アジアにおける計算史言語学と言語多様性
- Authors: Aryaman Arora, Adam Farris, Samopriya Basu, Suresh Kolichala
- Abstract要約: 南アジアには多くの言語があり、その多くは新しい言語技術にアクセスできない。
この言語多様性はまた、比較言語学、接触言語学、歴史言語学の研究にともなう研究環境をもたらす。
我々は、南アジアの言語技術の発達において、データの散らばりが主要な障害であると主張している。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: South Asia is home to a plethora of languages, many of which severely lack
access to new language technologies. This linguistic diversity also results in
a research environment conducive to the study of comparative, contact, and
historical linguistics -- fields which necessitate the gathering of extensive
data from many languages. We claim that data scatteredness (rather than
scarcity) is the primary obstacle in the development of South Asian language
technology, and suggest that the study of language history is uniquely aligned
with surmounting this obstacle. We review recent developments in and at the
intersection of South Asian NLP and historical-comparative linguistics,
describing our and others' current efforts in this area. We also offer new
strategies towards breaking the data barrier.
- Abstract(参考訳): 南アジアには多くの言語があり、その多くが新しい言語技術にアクセスできない。
この言語多様性はまた、多くの言語からの広範なデータの収集を必要とする分野である比較、接触、歴史的言語学の研究にともなう研究環境をもたらす。
データ散在性(希少性よりもむしろ)は南アジア言語技術の発展における主要な障害であり、言語史の研究は、この障害を克服することと一意に一致していることを示唆している。
本稿では,南アジアnlpと歴史比較言語学の交点における最近の展開を概観し,この領域における我々の取り組みについて述べる。
データバリアを壊すための新たな戦略も提供しています。
関連論文リスト
- Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Cross-Cultural Transfer Learning for Chinese Offensive Language
Detection [9.341003339029221]
本研究では,異なる文化背景からの攻撃的言語検出データを用いた転帰学習の効果を検討することを目的とする。
また, 言語モデルの伝達性に悪影響を及ぼす要因として, 文化特有のバイアスがあることがわかった。
しかし,数ショットの学習シナリオでは,限られた資源を用いた非英語攻撃型言語検出が期待できる可能性を示した。
論文 参考訳(メタデータ) (2023-03-31T09:50:07Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Bridging the Domain Gap for Stance Detection for the Zulu language [6.509758931804479]
文献で誤情報と戦うための既存のAIベースのアプローチは、自動姿勢検出を成功への不可欠な第一歩として示唆している。
そこで本研究では,ドメイン間のギャップを減らすために,ドメイン適応の手法を利用するブラックボックス非侵入手法を提案する。
これにより、英語で見られるように、この研究のターゲット言語であるズールー語に対するスタンス検出において、同様の結果を迅速に得ることができる。
論文 参考訳(メタデータ) (2022-05-06T11:44:35Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Experience Grounds Language [185.73483760454454]
言語理解研究は、言語が記述する物理的世界と、それが促進する社会的相互作用とを関連づけることに失敗している。
テキストだけで訓練された後にタスクに取り組むための言語処理モデルの驚くべき効果にもかかわらず、成功した言語コミュニケーションは世界の共有経験に依存している。
論文 参考訳(メタデータ) (2020-04-21T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。