論文の概要: ProMap: Effective Bilingual Lexicon Induction via Language Model
Prompting
- arxiv url: http://arxiv.org/abs/2310.18778v1
- Date: Sat, 28 Oct 2023 18:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:27:39.757243
- Title: ProMap: Effective Bilingual Lexicon Induction via Language Model
Prompting
- Title(参考訳): ProMap: 言語モデルによる効果的なバイリンガル語彙誘導
- Authors: Abdellah El Mekki, Muhammad Abdul-Mageed, ElMoatez Billah Nagoudi,
Ismail Berrada and Ahmed Khoumsi
- Abstract要約: バイリンガル誘導(BLI)の新しいアプローチであるProMapを紹介する。
ProMapは、言語モデルの効果的なパッドドプロンプトと、独立して使用する場合に優れたパフォーマンスを実現するシード辞書に依存している。
リッチ・ソース言語とロー・ソース言語の両方で評価すると、ProMapは一貫して最先端の結果が得られます。
- 参考スコア(独自算出の注目度): 22.743097175747575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bilingual Lexicon Induction (BLI), where words are translated between two
languages, is an important NLP task. While noticeable progress on BLI in rich
resource languages using static word embeddings has been achieved. The word
translation performance can be further improved by incorporating information
from contextualized word embeddings. In this paper, we introduce ProMap, a
novel approach for BLI that leverages the power of prompting pretrained
multilingual and multidialectal language models to address these challenges. To
overcome the employment of subword tokens in these models, ProMap relies on an
effective padded prompting of language models with a seed dictionary that
achieves good performance when used independently. We also demonstrate the
effectiveness of ProMap in re-ranking results from other BLI methods such as
with aligned static word embeddings. When evaluated on both rich-resource and
low-resource languages, ProMap consistently achieves state-of-the-art results.
Furthermore, ProMap enables strong performance in few-shot scenarios (even with
less than 10 training examples), making it a valuable tool for low-resource
language translation. Overall, we believe our method offers both exciting and
promising direction for BLI in general and low-resource languages in
particular. ProMap code and data are available at
\url{https://github.com/4mekki4/promap}.
- Abstract(参考訳): 単語を2つの言語間で翻訳するバイリンガル語彙誘導(BLI)は重要なNLPタスクである。
静的な単語埋め込みを用いたリッチリソース言語におけるBLIの顕著な進歩は達成されている。
文脈化された単語埋め込みからの情報を取り入れることで、単語翻訳性能をさらに向上することができる。
本稿では,事前学習された多言語・多言語モデルを用いて,これらの課題を解決するための新しいアプローチ promap を提案する。
これらのモデルでのサブワードトークンの使用を克服するため、ProMapは、独立して使用する場合に優れたパフォーマンスを実現するシード辞書による言語モデルの効果的なパッドドプロンプトに依存している。
また, 静的な単語埋め込みなどの他のBLI手法による結果の再評価において, ProMapの有効性を示す。
リッチリソース言語と低リソース言語の両方で評価すると、ProMapは一貫して最先端の結果を達成する。
さらに、ProMapは、(トレーニング例が10未満であっても)少数のシナリオで強力なパフォーマンスを実現しており、低リソースの言語翻訳に有用なツールである。
全体として、当社の手法はbli全般、特に低リソース言語において、エキサイティングで有望な方向性を提供します。
promapのコードとデータは \url{https://github.com/4mekki4/promap} で入手できる。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - How Lexical is Bilingual Lexicon Induction? [1.3610643403050855]
近年の検索・ランクアプローチに語彙情報を追加することで,語彙誘導が向上すると考えられる。
提案手法の有効性を実証し,全言語対で平均2%改善した。
論文 参考訳(メタデータ) (2024-04-05T17:10:33Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Cross-lingual alignments of ELMo contextual embeddings [0.0]
言語間埋め込みは、低リソース言語から高リソース言語への単語の埋め込みをマッピングする。
最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは、同じ文脈における単語でなければならない。
ELMo埋め込みのための新しい言語間マッピング手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:26:43Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Mining Knowledge for Natural Language Inference from Wikipedia
Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文 参考訳(メタデータ) (2020-10-03T00:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。