論文の概要: Low-resource Bilingual Dialect Lexicon Induction with Large Language
Models
- arxiv url: http://arxiv.org/abs/2304.09957v1
- Date: Wed, 19 Apr 2023 20:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 15:17:14.290733
- Title: Low-resource Bilingual Dialect Lexicon Induction with Large Language
Models
- Title(参考訳): 大規模言語モデルを用いた低リソース二言語辞書生成
- Authors: Ekaterina Artemova and Barbara Plank
- Abstract要約: バイエルン方言とアレマン方言の2つの方言について,バイリンガル語彙誘導パイプラインの解析を行った。
この設定は、リソースの不足、言語の関連性、方言の正書法における標準化の欠如など、いくつかの課題を引き起こす。
- 参考スコア(独自算出の注目度): 24.080565202390314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bilingual word lexicons are crucial tools for multilingual natural language
understanding and machine translation tasks, as they facilitate the mapping of
words in one language to their synonyms in another language. To achieve this,
numerous papers have explored bilingual lexicon induction (BLI) in
high-resource scenarios, using a typical pipeline consisting of two
unsupervised steps: bitext mining and word alignment, both of which rely on
pre-trained large language models~(LLMs).
In this paper, we present an analysis of the BLI pipeline for German and two
of its dialects, Bavarian and Alemannic. This setup poses several unique
challenges, including the scarcity of resources, the relatedness of the
languages, and the lack of standardization in the orthography of dialects. To
evaluate the BLI outputs, we analyze them with respect to word frequency and
pairwise edit distance. Additionally, we release two evaluation datasets
comprising 1,500 bilingual sentence pairs and 1,000 bilingual word pairs. They
were manually judged for their semantic similarity for each Bavarian-German and
Alemannic-German language pair.
- Abstract(参考訳): バイリンガル語の語彙は、ある言語の単語から他の言語の同義語へのマッピングを容易にするため、多言語自然言語理解と機械翻訳タスクにとって重要なツールである。
これを達成するために、多くの論文が高リソースシナリオにおいて、bitext miningとword alignmentという2つの教師なしのステップからなる典型的なパイプラインを使用して、bilingual lexicon induction(bli)を探求している。
本稿では、ドイツ語と2つの方言であるバイエルン語とアレマン語のbliパイプラインの分析を行う。
この設定には、リソースの不足、言語の関連性、方言の正書法における標準化の欠如など、いくつかの固有の課題がある。
BLI出力を評価するために,単語頻度とペア編集距離を解析する。
さらに,二言語間文ペア1,500と二言語間単語ペア1,000からなる評価データセットを2つ公開する。
彼らはバイエルン語とドイツ・アレマン語の各言語対について意味的類似性について手動で判断された。
関連論文リスト
- Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - Massively Multilingual Lexical Specialization of Multilingual
Transformers [18.766379322798837]
本稿では,2つの標準言語間語彙タスクにおいて,多言語レキシカル特殊化が著しく向上することを示す。
我々は,語彙制約のない言語への多言語語彙の特殊化によって一般化できることを示唆し,特殊化に欠かせない言語に対するゲインを観察する。
論文 参考訳(メタデータ) (2022-08-01T17:47:03Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。