論文の概要: Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages
- arxiv url: http://arxiv.org/abs/2311.12489v1
- Date: Tue, 21 Nov 2023 09:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:03:36.923798
- Title: Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages
- Title(参考訳): アンカーと関連言語連鎖を用いた低リソース言語のための多言語単語埋め込み
- Authors: Viktor Hangya, Silvia Severini, Radoslav Ralev, Alexander Fraser,
Hinrich Sch\"utze
- Abstract要約: 我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
- 参考スコア(独自算出の注目度): 54.832599498774464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Very low-resource languages, having only a few million tokens worth of data,
are not well-supported by multilingual NLP approaches due to poor quality
cross-lingual word representations. Recent work showed that good cross-lingual
performance can be achieved if a source language is related to the low-resource
target language. However, not all language pairs are related. In this paper, we
propose to build multilingual word embeddings (MWEs) via a novel language
chain-based approach, that incorporates intermediate related languages to
bridge the gap between the distant source and target. We build MWEs one
language at a time by starting from the resource rich source and sequentially
adding each language in the chain till we reach the target. We extend a
semi-joint bilingual approach to multiple languages in order to eliminate the
main weakness of previous works, i.e., independently trained monolingual
embeddings, by anchoring the target language around the multilingual space. We
evaluate our method on bilingual lexicon induction for 4 language families,
involving 4 very low-resource (<5M tokens) and 4 moderately low-resource (<50M)
target languages, showing improved performance in both categories.
Additionally, our analysis reveals the importance of good quality embeddings
for intermediate languages as well as the importance of leveraging anchor
points from all languages in the multilingual space.
- Abstract(参考訳): 数百万のトークンしか持たない非常に低リソースの言語は、品質の低い言語間ワード表現のため、多言語NLPアプローチでは十分にサポートされていない。
最近の研究は、ソース言語が低リソースターゲット言語と関連している場合、優れた言語間性能が得られることを示した。
しかし、すべての言語ペアが関連しているわけではない。
本稿では,言語連鎖に基づく新しい手法により,言語間関係の言語を組み込んだ多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
対象言語を多言語空間に固定することにより,従来の作品,すなわち独立に訓練された単言語埋め込みの主な弱点を取り除くために,半単言語アプローチを多言語に拡張する。
5mトークン)と4つの中程度の低リソース(<50m)ターゲット言語を含む4つの言語ファミリのバイリンガルレキシコン誘導法を評価し,両方のカテゴリで性能が向上した。
さらに,中間言語における高品質な組込みの重要性と,多言語空間におけるすべての言語からのアンカーポイントの活用の重要性について分析を行った。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - xCoT: Cross-lingual Instruction Tuning for Cross-lingual
Chain-of-Thought Reasoning [36.34986831526529]
CoT(Chain-of-Thought)は、大規模言語モデルにおける推論を誘発する強力なテクニックとして登場した。
本稿では,ハイソース言語から低リソース言語へ知識を伝達するための言語間命令微調整フレームワーク(xCOT)を提案する。
論文 参考訳(メタデータ) (2024-01-13T10:53:53Z) - When Is Multilinguality a Curse? Language Modeling for 250 High- and
Low-Resource Languages [25.52470575274251]
私たちは250以上の言語で1万以上のモノリンガルおよび多言語言語モデルを事前訓練しています。
モデレーションでは、多言語データを追加することで、低リソース言語モデリングのパフォーマンスが向上する。
データセットのサイズが大きくなるにつれて、マルチリンガルデータの追加は、低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
論文 参考訳(メタデータ) (2023-11-15T18:47:42Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。