論文の概要: Shaping the Future of Endangered and Low-Resource Languages -- Our Role in the Age of LLMs: A Keynote at ECIR 2024
- arxiv url: http://arxiv.org/abs/2409.13702v1
- Date: Thu, 5 Sep 2024 06:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:46:28.519098
- Title: Shaping the Future of Endangered and Low-Resource Languages -- Our Role in the Age of LLMs: A Keynote at ECIR 2024
- Title(参考訳): 絶滅危惧言語と低リソース言語の将来 - LLMの時代における私たちの役割 - ECIR 2024の基調講演より
- Authors: Josiane Mothe,
- Abstract要約: セビリアのイシドール(Isidore of Seville)は、人々が生まれる言語であり、その逆ではないと主張されている。
現在、7100以上の言語のうち、かなりの数が絶滅危惧されている。
- 参考スコア(独自算出の注目度): 3.2362171533623054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Isidore of Seville is credited with the adage that it is language that gives birth to a people, and not the other way around , underlining the profound role played by language in the formation of cultural and social identity. Today, of the more than 7100 languages listed, a significant number are endangered. Since the 1970s, linguists, information seekers and enthusiasts have helped develop digital resources and automatic tools to support a wide range of languages, including endangered ones. The advent of Large Language Model (LLM) technologies holds both promise and peril. They offer unprecedented possibilities for the translation and generation of content and resources, key elements in the preservation and revitalisation of languages. They also present threat of homogenisation, cultural oversimplification and the further marginalisation of already vulnerable languages. The talk this paper is based on has proposed an initiatory journey, exploring the potential paths and partnerships between technology and tradition, with a particular focus on the Occitan language. Occitan is a language from Southern France, parts of Spain and Italy that played a major cultural and economic role, particularly in the Middle Ages. It is now endangered according to UNESCO. The talk critically has examined how human expertise and artificial intelligence can work together to offer hope for preserving the linguistic diversity that forms the foundation of our global and especially our European heritage while addressing some of the ethical and practical challenges that accompany the use of these powerful technologies. This paper is based on the keynote I gave at the 46th European Conference on Information Retrieval (ECIR 2024). As an alternative to reading this paper, a video talk is available online. 1 Date: 26 March 2024.
- Abstract(参考訳): セビリアのイシドール(Isidore of Seville)は、文化と社会のアイデンティティの形成において、言語が果たす重要な役割を、人々が生まれる言語であり、その逆ではないと断言している。
現在、7100以上の言語のうち、かなりの数が絶滅危惧されている。
1970年代以降、言語学者、情報探究家、愛好家は、絶滅危惧言語を含む幅広い言語をサポートするためのデジタルリソースや自動ツールの開発を支援してきた。
LLM(Large Language Model)技術の出現は、約束と危険を兼ね備えている。
それらは、言語の保存と再生における重要な要素である、コンテンツとリソースの翻訳と生成のための前例のない可能性を提供する。
彼らはまた、同質化、文化的過度な単純化、既に脆弱な言語のさらなる限界化の脅威も提示した。
本稿は、Occitan言語に特に焦点をあて、技術と伝統の間の潜在的な道筋とパートナーシップを探求する、最初の旅の提案に基づいている。
オクシタン(Occitan)は、特に中世において文化的・経済的に重要な役割を果たした南フランス、スペイン、イタリアの言語である。
現在はユネスコによって絶滅危惧されている。
この講演は、人類の専門知識と人工知能が協力して、我々の世界、特にヨーロッパの遺産の基盤となる言語多様性を保ちつつ、これらの強力な技術の使用に伴う倫理的および実践的な課題に対処する希望を抱くために、どのように機能するかを批判的に検討した。
この記事では、第46回European Conference on Information Retrieval (ECIR 2024)で行った基調講演に基づいています。
この論文を読む代わりとして、ビデオトークがオンラインで公開されている。
日付2024年3月26日。
関連論文リスト
- LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce [27.918975040084387]
与えられた言語のデータは、トークンの集まり以上のものと見なすべきである。
優れたデータ収集とラベル付けのプラクティスは、より人間中心で社会的に意識した技術を構築する上で鍵となる。
論文 参考訳(メタデータ) (2024-10-16T15:51:18Z) - Socially Responsible Data for Large Multilingual Language Models [12.338723881042926]
大規模言語モデル(LLM)は、過去3年間で、急速にサイズと明らかな能力が向上している。
グローバル・ノース以外の地域社会の言語に対応するためのモデルを模索している。
論文 参考訳(メタデータ) (2024-09-08T23:51:04Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences [31.62071644137294]
我々は、世界の言語の多様性の低下と、AIとNLPに固有の倫理的課題をもたらすインディジェネラル言語について論じる。
Indigenous Language のための高品質な機械学習トランスレータの開発に励む成果を報告する。
私たちは2023年と2024年にブラジルの先住民コミュニティで実施したプロジェクトで構築したプロトタイプを紹介します。
論文 参考訳(メタデータ) (2024-07-17T14:46:37Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization [70.14668193220528]
2019年8月、カーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集結させようとした。
本報告では,ワークショップの結果を報告するとともに,9言語を対象とした様々な技術が開発され,実装されている。
論文 参考訳(メタデータ) (2020-04-27T22:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。