論文の概要: A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization
- arxiv url: http://arxiv.org/abs/2004.13203v1
- Date: Mon, 27 Apr 2020 22:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:19:43.861837
- Title: A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization
- Title(参考訳): 言語ドキュメンテーションと再生のための言語技術に関する第1回ワークショップの概要
- Authors: Graham Neubig, Shruti Rijhwani, Alexis Palmer, Jordan MacKenzie,
Hilaria Cruz, Xinjian Li, Matthew Lee, Aditi Chaudhary, Luke Gessler, Steven
Abney, Shirley Anugrah Hayati, Antonios Anastasopoulos, Olga Zamaraeva, Emily
Prud'hommeaux, Jennette Child, Sara Child, Rebecca Knowles, Sarah Moeller,
Jeffrey Micher, Yiyuan Li, Sydney Zink, Mengzhou Xia, Roshan S Sharma and
Patrick Littell
- Abstract要約: 2019年8月、カーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集結させようとした。
本報告では,ワークショップの結果を報告するとともに,9言語を対象とした様々な技術が開発され,実装されている。
- 参考スコア(独自算出の注目度): 70.14668193220528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in natural language processing and other language
technology, the application of such technology to language documentation and
conservation has been limited. In August 2019, a workshop was held at Carnegie
Mellon University in Pittsburgh to attempt to bring together language community
members, documentary linguists, and technologists to discuss how to bridge this
gap and create prototypes of novel and practical language revitalization
technologies. This paper reports the results of this workshop, including issues
discussed, and various conceived and implemented technologies for nine
languages: Arapaho, Cayuga, Inuktitut, Irish Gaelic, Kidaw'ida, Kwak'wala,
Ojibwe, San Juan Quiahije Chatino, and Seneca.
- Abstract(参考訳): 近年の自然言語処理や他の言語技術の発展にもかかわらず、このような技術の言語文書化や保存への応用は限られている。
2019年8月、ピッツバーグのカーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集めて、このギャップを埋め、新しい実用的な言語再生技術のプロトタイプを作成する方法について議論した。
Arapaho, Cayuga, Inuktitut, Irish Gaelic, Kidaw'ida, Kwak'wala, Ojibwe, San Juan Quiahije Chatino, Senecaの9つの言語で議論され, 実装された様々な技術について報告する。
関連論文リスト
- "It's how you do things that matters": Attending to Process to Better
Serve Indigenous Communities with Language Technologies [2.821682550792172]
本稿では,NLP技術の構築における倫理的考察について考察する。
本稿では,AbgenousおよびTorres Strait Islanderコミュニティの研究者17人とのインタビューについて報告する。
我々はNLP研究者に対して、先住民コミュニティとの関わりのプロセスに注意を向けるよう推奨する。
論文 参考訳(メタデータ) (2024-02-04T23:23:51Z) - Conversations in Galician: a Large Language Model for an
Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。
52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。
データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文 参考訳(メタデータ) (2023-11-07T08:52:28Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language [91.79339725967073]
世界で話されている言語の43%以上が危険にさらされている。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
私たちは、深刻な絶滅危惧言語であるチェロキーをケーススタディとして捉えています。
論文 参考訳(メタデータ) (2022-04-25T18:25:57Z) - Language Resources and Technologies for Non-Scheduled and Endangered
Indian Languages [0.9137554315375919]
インドの非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術の調査。
インド憲法第8条に記載されている22の言語のうち、他の言語で利用可能な実質的な資源や技術はほとんどない。
論文 参考訳(メタデータ) (2022-04-06T13:33:24Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - A Digital Corpus of St. Lawrence Island Yupik [8.961418142411487]
セントローレンス島ユピク語(St. Lawrence Island Yupik)は、アラスカやチュコッカに自生するイヌイット・ユピク語族の絶滅の危機的多合成言語である。
この研究は、文章のデジタル化のためのステップバイステップパイプラインと、セントローレンス島ユピックで公開された最初のデジタルコーパスを提示する。
論文 参考訳(メタデータ) (2021-01-26T00:14:00Z) - Towards Neural Machine Translation for Edoid Languages [2.144787054581292]
多くのナイジェリアの言語は、現代の社会における彼らの以前の名声と目的を、英語とナイジェリアのピジンに放棄した。
本研究は,南ナイジェリアの江戸語族におけるニューラルマシン翻訳の実現可能性について考察する。
論文 参考訳(メタデータ) (2020-03-24T07:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。