論文の概要: Creating Lexical Resources for Endangered Languages
- arxiv url: http://arxiv.org/abs/2208.03876v1
- Date: Mon, 8 Aug 2022 02:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:01:08.365651
- Title: Creating Lexical Resources for Endangered Languages
- Title(参考訳): 絶滅危惧言語のための語彙資源の作成
- Authors: Khang Nhut Lam, Feras Al Tarouti and Jugal Kalita
- Abstract要約: 我々のアルゴリズムは公開ワードネットと機械翻訳装置(MT)を用いてバイリンガル辞書と多言語シソーラスを構築する。
我々の研究は、絶滅危惧言語と「中間ヘルパー」言語の間のバイリンガル辞書にのみ依存しているため、既存のリソースが不足している言語に適用できる。
- 参考スコア(独自算出の注目度): 2.363388546004777
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper examines approaches to generate lexical resources for endangered
languages. Our algorithms construct bilingual dictionaries and multilingual
thesauruses using public Wordnets and a machine translator (MT). Since our work
relies on only one bilingual dictionary between an endangered language and an
"intermediate helper" language, it is applicable to languages that lack many
existing resources.
- Abstract(参考訳): 本稿では,絶滅危惧言語のための語彙資源生成手法について検討する。
本アルゴリズムは,公開ワードネットと機械翻訳装置(MT)を用いてバイリンガル辞書と多言語シソーラスを構築する。
我々の研究は、絶滅危惧言語と「中間ヘルパー」言語の間のバイリンガル辞書にのみ依存しているため、既存のリソースが不足している言語に適用できる。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Automatically Creating a Large Number of New Bilingual Dictionaries [2.363388546004777]
本稿では,低リソース言語に対して,多数のバイリンガル辞書を自動生成する手法を提案する。
提案アルゴリズムは,利用可能なWordnetと機械翻訳器を用いて,ソースコード中の単語を多言語に翻訳する。
論文 参考訳(メタデータ) (2022-08-12T04:25:23Z) - Creating Reverse Bilingual Dictionaries [2.792030485253753]
本稿では,既存のバイリンガル辞書から新たなリバースバイリンガル辞書を作成するアルゴリズムを提案する。
提案アルゴリズムは,英単語ネットを用いた単語概念ペア間の類似性を利用して,逆辞書エントリを生成する。
論文 参考訳(メタデータ) (2022-08-08T01:41:55Z) - When Word Embeddings Become Endangered [0.685316573653194]
本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
論文 参考訳(メタデータ) (2021-03-24T15:42:53Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Discovering Bilingual Lexicons in Polyglot Word Embeddings [32.53342453685406]
本研究では,多言語単語の埋め込みを生成する多言語コーパスで訓練された1つのスキップグラムモデルを利用する。
本稿では, 比較的単純な近傍サンプリング手法により, バイリンガル辞書を検索できることを示す。
3つのヨーロッパ語対にまたがって、多言語単語の埋め込みは、確かに単語のリッチな意味表現を学習する。
論文 参考訳(メタデータ) (2020-08-31T03:57:50Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。