論文の概要: NLP for Language Varieties of Italy: Challenges and the Path Forward
- arxiv url: http://arxiv.org/abs/2209.09757v1
- Date: Tue, 20 Sep 2022 14:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:18:28.240218
- Title: NLP for Language Varieties of Italy: Challenges and the Path Forward
- Title(参考訳): イタリアの言語多様性のためのNLP : 課題と道のり
- Authors: Alan Ramponi
- Abstract要約: イタリアはヨーロッパにおける一流の言語的多様性の風景を特徴としている。
イタリアの30以上の言語品種は数世代以内に消滅する恐れがある。
- 参考スコア(独自算出の注目度): 1.5906113067506233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Italy is characterized by a one-of-a-kind linguistic diversity landscape in
Europe, which implicitly encodes local knowledge, cultural traditions, artistic
expression, and history of its speakers. However, over 30 language varieties in
Italy are at risk of disappearing within few generations. Language technology
has a main role in preserving endangered languages, but it currently struggles
with such varieties as they are under-resourced and mostly lack standardized
orthography, being mainly used in spoken settings. In this paper, we introduce
the linguistic context of Italy and discuss challenges facing the development
of NLP technologies for Italy's language varieties. We provide potential
directions and advocate for a shift in the paradigm from machine-centric to
speaker-centric NLP. Finally, we propose building a local community towards
responsible, participatory development of speech and language technologies for
languages and dialects of Italy.
- Abstract(参考訳): イタリアはヨーロッパ一流の言語多様性の風景を特徴とし、現地の知識、文化の伝統、芸術表現、話者の歴史を暗黙的にエンコードしている。
しかし、イタリアの30以上の言語品種は数世代以内に消滅する恐れがある。
言語技術は、絶滅危惧言語を保存する上で主要な役割を担っているが、現在では、未資源であり、ほとんどは標準化された正書法に欠けており、主に音声設定で使われている。
本稿では,イタリアの言語文脈について紹介し,イタリアの言語品種におけるNLP技術の発展に直面する課題について論じる。
我々は、潜在的な方向性を提供し、パラダイムを機械中心から話者中心のnlpに移行することを提唱する。
最後に,イタリアの言語・方言のための言語・言語技術の責任ある参加型開発に向けた地域コミュニティの構築を提案する。
関連論文リスト
- LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural [0.0]
NusaBERTは、語彙拡張を取り入れ、地域言語や方言を含む多言語コーパスを活用することで、IndoBERT上に構築されている。
NusaBERTは、さまざまなベンチマークの厳格な評価を通じて、インドネシアの複数の言語に関わるタスクにおける最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2024-03-04T08:05:34Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian
Language [7.214355350362308]
LLaMA(Large Language Model Meta AI)ファミリーは、自然言語処理の分野での新しい進歩を表現している。
本研究は, イタリア語LLMの新しいLLaMAファミリーを導入することで, イタリア語の言語適応戦略に寄与する。
論文 参考訳(メタデータ) (2023-12-15T18:06:22Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。