論文の概要: A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization
- arxiv url: http://arxiv.org/abs/2004.13203v1
- Date: Mon, 27 Apr 2020 22:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:19:43.861837
- Title: A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization
- Title(参考訳): 言語ドキュメンテーションと再生のための言語技術に関する第1回ワークショップの概要
- Authors: Graham Neubig, Shruti Rijhwani, Alexis Palmer, Jordan MacKenzie,
Hilaria Cruz, Xinjian Li, Matthew Lee, Aditi Chaudhary, Luke Gessler, Steven
Abney, Shirley Anugrah Hayati, Antonios Anastasopoulos, Olga Zamaraeva, Emily
Prud'hommeaux, Jennette Child, Sara Child, Rebecca Knowles, Sarah Moeller,
Jeffrey Micher, Yiyuan Li, Sydney Zink, Mengzhou Xia, Roshan S Sharma and
Patrick Littell
- Abstract要約: 2019年8月、カーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集結させようとした。
本報告では,ワークショップの結果を報告するとともに,9言語を対象とした様々な技術が開発され,実装されている。
- 参考スコア(独自算出の注目度): 70.14668193220528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in natural language processing and other language
technology, the application of such technology to language documentation and
conservation has been limited. In August 2019, a workshop was held at Carnegie
Mellon University in Pittsburgh to attempt to bring together language community
members, documentary linguists, and technologists to discuss how to bridge this
gap and create prototypes of novel and practical language revitalization
technologies. This paper reports the results of this workshop, including issues
discussed, and various conceived and implemented technologies for nine
languages: Arapaho, Cayuga, Inuktitut, Irish Gaelic, Kidaw'ida, Kwak'wala,
Ojibwe, San Juan Quiahije Chatino, and Seneca.
- Abstract(参考訳): 近年の自然言語処理や他の言語技術の発展にもかかわらず、このような技術の言語文書化や保存への応用は限られている。
2019年8月、ピッツバーグのカーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集めて、このギャップを埋め、新しい実用的な言語再生技術のプロトタイプを作成する方法について議論した。
Arapaho, Cayuga, Inuktitut, Irish Gaelic, Kidaw'ida, Kwak'wala, Ojibwe, San Juan Quiahije Chatino, Senecaの9つの言語で議論され, 実装された様々な技術について報告する。
関連論文リスト
- LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Shaping the Future of Endangered and Low-Resource Languages -- Our Role in the Age of LLMs: A Keynote at ECIR 2024 [3.2362171533623054]
セビリアのイシドール(Isidore of Seville)は、人々が生まれる言語であり、その逆ではないと主張されている。
現在、7100以上の言語のうち、かなりの数が絶滅危惧されている。
論文 参考訳(メタデータ) (2024-09-05T06:54:30Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal [0.0]
Kallaamaプロジェクトは、音声技術開発のための国語コーパスの作成と普及を目的としている。
プロジェクトはセネガル人の主要言語であるWolof、Pulaar、Sereerの3つに焦点を当てている。
上記各言語における農業に関する125時間の記録を含む音声データセットを作成した。
論文 参考訳(メタデータ) (2024-04-02T14:31:14Z) - Building a Language-Learning Game for Brazilian Indigenous Languages: A Case of Study [0.0]
本稿では,依存ツリーバンクから言語演習や質問を自動的に生成するプロセスと,トゥピアン言語のための語彙データベースについて述べる。
我々は、新たなデータ収集プロセスは、先住民コミュニティと連携して確立され、教育目的に向けられるべきであると結論付けている。
論文 参考訳(メタデータ) (2024-03-21T16:11:44Z) - "It's how you do things that matters": Attending to Process to Better
Serve Indigenous Communities with Language Technologies [2.821682550792172]
本稿では,NLP技術の構築における倫理的考察について考察する。
本稿では,AbgenousおよびTorres Strait Islanderコミュニティの研究者17人とのインタビューについて報告する。
我々はNLP研究者に対して、先住民コミュニティとの関わりのプロセスに注意を向けるよう推奨する。
論文 参考訳(メタデータ) (2024-02-04T23:23:51Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language [91.79339725967073]
世界で話されている言語の43%以上が危険にさらされている。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
私たちは、深刻な絶滅危惧言語であるチェロキーをケーススタディとして捉えています。
論文 参考訳(メタデータ) (2022-04-25T18:25:57Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - A Digital Corpus of St. Lawrence Island Yupik [8.961418142411487]
セントローレンス島ユピク語(St. Lawrence Island Yupik)は、アラスカやチュコッカに自生するイヌイット・ユピク語族の絶滅の危機的多合成言語である。
この研究は、文章のデジタル化のためのステップバイステップパイプラインと、セントローレンス島ユピックで公開された最初のデジタルコーパスを提示する。
論文 参考訳(メタデータ) (2021-01-26T00:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。