Fugu-MT 論文翻訳(概要): Computational historical linguistics and language diversity in South Asia

論文の概要: Computational historical linguistics and language diversity in South Asia

arxiv url: http://arxiv.org/abs/2203.12524v1
Date: Wed, 23 Mar 2022 16:36:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-24 19:13:39.853048
Title: Computational historical linguistics and language diversity in South Asia
Title（参考訳）: 南アジアにおける計算史言語学と言語多様性
Authors: Aryaman Arora, Adam Farris, Samopriya Basu, Suresh Kolichala
Abstract要約: 南アジアには多くの言語があり、その多くは新しい言語技術にアクセスできない。この言語多様性はまた、比較言語学、接触言語学、歴史言語学の研究にともなう研究環境をもたらす。我々は、南アジアの言語技術の発達において、データの散らばりが主要な障害であると主張している。
参考スコア（独自算出の注目度）: 1.5293427903448025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: South Asia is home to a plethora of languages, many of which severely lack access to new language technologies. This linguistic diversity also results in a research environment conducive to the study of comparative, contact, and historical linguistics -- fields which necessitate the gathering of extensive data from many languages. We claim that data scatteredness (rather than scarcity) is the primary obstacle in the development of South Asian language technology, and suggest that the study of language history is uniquely aligned with surmounting this obstacle. We review recent developments in and at the intersection of South Asian NLP and historical-comparative linguistics, describing our and others' current efforts in this area. We also offer new strategies towards breaking the data barrier.
Abstract（参考訳）: 南アジアには多くの言語があり、その多くが新しい言語技術にアクセスできない。この言語多様性はまた、多くの言語からの広範なデータの収集を必要とする分野である比較、接触、歴史的言語学の研究にともなう研究環境をもたらす。データ散在性(希少性よりもむしろ)は南アジア言語技術の発展における主要な障害であり、言語史の研究は、この障害を克服することと一意に一致していることを示唆している。本稿では,南アジアnlpと歴史比較言語学の交点における最近の展開を概観し,この領域における我々の取り組みについて述べる。データバリアを壊すための新たな戦略も提供しています。

関連論文リスト

Bhaasha, Bhasa, Zaban: A Survey for Low-Resourced Languages in South Asia -- Current Stage and Challenges [2.261759428153489]
本調査は,南アジア諸言語におけるNLPモデルの現状と課題について考察する。データ、モデル、タスクという3つの重要な側面にまたがる進歩とギャップを提示します。私たちの発見は、重要なドメイン(例えば、健康)に欠落したデータ、コードミキシング、標準化された評価ベンチマークの欠如など、大きな問題を浮き彫りにしている。
論文参考訳（メタデータ） (2025-09-15T04:31:22Z)
Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文参考訳（メタデータ） (2025-02-24T17:41:48Z)
Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages [13.011117871938561]
我々は、低リソース言語のためのモデレーションツールを構築する際に、AI研究者や実践者が直面する課題について検討する。有害コンテンツの自動検出を専門とする22人のAI研究者と実践者を対象に半構造化インタビューを行った。以上の結果から,研究者がデータにアクセスすることに対するソーシャルメディア企業の規制が,これらの言語の歴史的疎外化を悪化させることが明らかとなった。
論文参考訳（メタデータ） (2025-01-23T17:01:53Z)
Transcending Language Boundaries: Harnessing LLMs for Low-Resource Language Translation [38.81102126876936]
本稿では,キーワードに着目して,低リソース言語における翻訳品質を向上させる新しい検索手法を提案する。本手法の有効性を評価するため,北米の絶滅危惧種であるチェロキー語,アジアにおける歴史的・文化的に重要な言語であるチベット語,話者がほとんどいない満州語という3つの低資源言語に英語から翻訳した実験を行った。 GPT-4oとLLaMA 3.1 405Bのゼロショット性能と比較すると、低リソース言語への変換において、これらのモデルが直面する重要な課題が浮き彫りになっている。
論文参考訳（メタデータ） (2024-11-18T05:41:27Z)
Socially Responsible Data for Large Multilingual Language Models [12.338723881042926]
大規模言語モデル(LLM)は、過去3年間で、急速にサイズと明らかな能力が向上している。グローバル・ノース以外の地域社会の言語に対応するためのモデルを模索している。
論文参考訳（メタデータ） (2024-09-08T23:51:04Z)
Recent Advancements and Challenges of Turkic Central Asian Language Processing [4.189204855014775]
中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
論文参考訳（メタデータ） (2024-07-06T08:58:26Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
The Ghanaian NLP Landscape: A First Look [9.17372840572907]
特にガーナ語は絶滅が記録され、いくつかは危険にさらされている。本研究は、ガーナ語に焦点をあてた自然言語処理(NLP)研究の包括的調査のパイオニアである。
論文参考訳（メタデータ） (2024-05-10T21:39:09Z)
CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文参考訳（メタデータ） (2024-04-19T04:02:50Z)
Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文参考訳（メタデータ） (2023-10-23T17:42:01Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (2023-05-25T15:30:31Z)
Cross-Cultural Transfer Learning for Chinese Offensive Language Detection [9.341003339029221]
本研究では,異なる文化背景からの攻撃的言語検出データを用いた転帰学習の効果を検討することを目的とする。また, 言語モデルの伝達性に悪影響を及ぼす要因として, 文化特有のバイアスがあることがわかった。しかし,数ショットの学習シナリオでは,限られた資源を用いた非英語攻撃型言語検出が期待できる可能性を示した。
論文参考訳（メタデータ） (2023-03-31T09:50:07Z)
Experience Grounds Language [185.73483760454454]
言語理解研究は、言語が記述する物理的世界と、それが促進する社会的相互作用とを関連づけることに失敗している。テキストだけで訓練された後にタスクに取り組むための言語処理モデルの驚くべき効果にもかかわらず、成功した言語コミュニケーションは世界の共有経験に依存している。
論文参考訳（メタデータ） (2020-04-21T16:56:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。