論文の概要: Ve'rdd. Narrowing the Gap between Paper Dictionaries, Low-Resource NLP
and Community Involvement
- arxiv url: http://arxiv.org/abs/2012.02578v1
- Date: Fri, 4 Dec 2020 13:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:43:43.382473
- Title: Ve'rdd. Narrowing the Gap between Paper Dictionaries, Low-Resource NLP
and Community Involvement
- Title(参考訳): Ve'rdd
紙辞書と低リソースNLPとコミュニティ関与のギャップを狭める
- Authors: Khalid Alnajjar, Mika H\"am\"al\"ainen, Jack Rueter, Niko Partanen
- Abstract要約: 本稿では,草の根辞書を再評価し,編集する機会を提供する,オープンソースのオンライン辞書編集システムであるVe'rddを紹介する。
コミュニティの活動は、深刻な絶滅危惧言語であるSkolt Samiの、最先端の有限状態言語記述に組み込むことが目的である。
- 参考スコア(独自算出の注目度): 1.0896567381206714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present an open-source online dictionary editing system, Ve'rdd, that
offers a chance to re-evaluate and edit grassroots dictionaries that have been
exposed to multiple amateur editors. The idea is to incorporate community
activities into a state-of-the-art finite-state language description of a
seriously endangered minority language, Skolt Sami. Problems involve getting
the community to take part in things above the pencil-and-paper level. At
times, it seems that the native speakers and the dictionary oriented are
lacking technical understanding to utilize the infrastructures which might make
their work more meaningful in the future, i.e. multiple reuse of all of their
input. Therefore, our system integrates with the existing tools and
infrastructures for Uralic language masking the technical complexities behind a
user-friendly UI.
- Abstract(参考訳): 本稿では,複数のアマチュア編集者に公開されている草の根辞書の再評価と編集の機会を提供する,オープンソースのオンライン辞書編集システムve'rddを提案する。
コミュニティの活動は、深刻な絶滅危惧言語であるSkolt Samiの、最先端の有限状態言語記述に組み込むことが目的である。
問題は、コミュニティが鉛筆と紙のレベル以上のものに参加することにある。
時々、ネイティブスピーカーと辞書指向は、将来自分たちの仕事をより意味のあるものにするであろうインフラを利用するための技術的な理解を欠いているようです。
すべての入力を複数回再利用する。
そこで本システムは,ユーザフレンドリなUIを支える技術的複雑さを隠蔽するUralic言語のための既存のツールやインフラと統合する。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Vocab-Expander: A System for Creating Domain-Specific Vocabularies Based
on Word Embeddings [0.0]
Vocab-Expanderは、エンドユーザ(例えば技術スカウト)が自身の関心領域の語彙を作成し拡張できるオンラインツールである。
それは、Webテキストと常識知識ベースであるConceptNetに基づいて、最先端の単語埋め込みテクニックのアンサンブルを利用する。
論文 参考訳(メタデータ) (2023-08-07T12:13:25Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Dealing with Semantic Underspecification in Multimodal NLP [3.5846770619764423]
人間として言語を習得しようとするインテリジェントなシステムは、その意味的過小評価に対処しなければならない。
標準のNLPモデルは、原則として、そのような余分な情報にアクセスできないか制限されている。
言語を他のモダリティ、例えば視覚に基礎を置くマルチモーダルシステムは、この現象を説明するために自然に装備されている。
論文 参考訳(メタデータ) (2023-06-08T14:39:24Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for
Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。
我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。
入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。
我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文 参考訳(メタデータ) (2022-03-01T15:29:35Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。