論文の概要: Language Varieties of Italy: Technology Challenges and Opportunities
- arxiv url: http://arxiv.org/abs/2209.09757v2
- Date: Mon, 20 Nov 2023 16:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 21:04:09.826862
- Title: Language Varieties of Italy: Technology Challenges and Opportunities
- Title(参考訳): イタリアの言語変種 : 技術的課題と機会
- Authors: Alan Ramponi
- Abstract要約: イタリアはヨーロッパにおける一流の言語的多様性の風景を特徴としている。
イタリアのほとんどの地方言語や方言は、数世代以内に消滅する恐れがある。
- 参考スコア(独自算出の注目度): 4.199528104335137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Italy is characterized by a one-of-a-kind linguistic diversity landscape in
Europe, which implicitly encodes local knowledge, cultural traditions, artistic
expressions and history of its speakers. However, most local languages and
dialects in Italy are at risk of disappearing within few generations. The NLP
community has recently begun to engage with endangered languages, including
those of Italy. Yet, most efforts assume that these varieties are
under-resourced language monoliths with an established written form and
homogeneous functions and needs, and thus highly interchangeable with each
other and with high-resource, standardized languages. In this paper, we
introduce the linguistic context of Italy and challenge the default
machine-centric assumptions of NLP for Italy's language varieties. We advocate
for a shift in the paradigm from machine-centric to speaker-centric NLP, and
provide recommendations and opportunities for work that prioritizes languages
and their speakers over technological advances. To facilitate the process, we
finally propose building a local community towards responsible, participatory
efforts aimed at supporting vitality of languages and dialects of Italy.
- Abstract(参考訳): イタリアはヨーロッパ一流の言語多様性の風景を特徴とし、現地の知識、文化の伝統、芸術表現、話者の歴史を暗黙的にエンコードしている。
しかし、イタリアのほとんどの地方言語や方言は数世代以内に消滅する恐れがある。
NLPコミュニティは最近、イタリアを含む絶滅危惧言語との関わりを始めている。
しかし、ほとんどの試みは、これらの多様体は、確立された書式と同質な機能と要求を持つ未資源言語モノリスであり、互いに高度に交換可能であり、高リソースの標準化された言語であると考えている。
本稿では、イタリアの言語文脈を紹介し、イタリアの言語変種に対するNLPのデフォルトの機械中心仮定に挑戦する。
我々は、機械中心から話者中心のnlpへの移行を提唱し、技術的進歩よりも言語とその話者を優先する仕事の推奨と機会を提供する。
そこで,我々は,イタリアの言語や方言の活力支援を目的とした,責任ある参加活動に向けた地域コミュニティの構築を提案する。
関連論文リスト
- LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural [0.0]
NusaBERTは、語彙拡張を取り入れ、地域言語や方言を含む多言語コーパスを活用することで、IndoBERT上に構築されている。
NusaBERTは、さまざまなベンチマークの厳格な評価を通じて、インドネシアの複数の言語に関わるタスクにおける最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2024-03-04T08:05:34Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian
Language [7.214355350362308]
LLaMA(Large Language Model Meta AI)ファミリーは、自然言語処理の分野での新しい進歩を表現している。
本研究は, イタリア語LLMの新しいLLaMAファミリーを導入することで, イタリア語の言語適応戦略に寄与する。
論文 参考訳(メタデータ) (2023-12-15T18:06:22Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。