論文の概要: How Good is BLI as an Alignment Measure: A Study in Word Embedding Paradigm
- arxiv url: http://arxiv.org/abs/2511.13040v1
- Date: Mon, 17 Nov 2025 06:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.784206
- Title: How Good is BLI as an Alignment Measure: A Study in Word Embedding Paradigm
- Title(参考訳): BLIがアライメント尺度としていかに優れているか: 単語埋め込みパラダイムにおける研究
- Authors: Kasun Wickramasinghe, Nisansa de Silva,
- Abstract要約: 2つの埋め込み空間のアライメントの程度を評価する尺度として,BLIの強度と限界について検討する。
我々は,従来の埋め込みアライメント技術,新しい多言語モデル,複合アライメント技術がいかにBLIタスクを実行するかを評価する。
そこで本研究では,入力された言語の性質を考慮に入れた2つの組込み空間を評価するための,新しいステムベースBLI手法を提案する。
- 参考スコア(独自算出の注目度): 1.4712349476860904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sans a dwindling number of monolingual embedding studies originating predominantly from the low-resource domains, it is evident that multilingual embedding has become the de facto choice due to its adaptability to the usage of code-mixed languages, granting the ability to process multilingual documents in a language-agnostic manner, as well as removing the difficult task of aligning monolingual embeddings. But is this victory complete? Are the multilingual models better than aligned monolingual models in every aspect? Can the higher computational cost of multilingual models always be justified? Or is there a compromise between the two extremes? Bilingual Lexicon Induction is one of the most widely used metrics in terms of evaluating the degree of alignment between two embedding spaces. In this study, we explore the strengths and limitations of BLI as a measure to evaluate the degree of alignment of two embedding spaces. Further, we evaluate how well traditional embedding alignment techniques, novel multilingual models, and combined alignment techniques perform BLI tasks in the contexts of both high-resource and low-resource languages. In addition to that, we investigate the impact of the language families to which the pairs of languages belong. We identify that BLI does not measure the true degree of alignment in some cases and we propose solutions for them. We propose a novel stem-based BLI approach to evaluate two aligned embedding spaces that take into account the inflected nature of languages as opposed to the prevalent word-based BLI techniques. Further, we introduce a vocabulary pruning technique that is more informative in showing the degree of the alignment, especially performing BLI on multilingual embedding models. Often, combined embedding alignment techniques perform better while in certain cases multilingual embeddings perform better (mainly low-resource language cases).
- Abstract(参考訳): 低リソースドメインから派生したモノリンガル埋め込み研究の減少数は少ないが、コード混在言語の使用に適応可能であること、言語に依存しない方法でマルチリンガル文書を処理できること、およびモノリンガル埋め込みの整合性の難しいタスクを除去できることから、マルチリンガル埋め込みが事実上の選択肢となっていることは明らかである。
しかし、この勝利は終わったのか?
マルチリンガルモデルは、あらゆる面において整列したモノリンガルモデルよりも優れているか?
多言語モデルの計算コストは、常に正当化できるのか?
それとも、両極端の間に妥協があるのか?
バイリンガルレキシコン誘導は、2つの埋め込み空間間のアライメントの度合いを評価するために最も広く用いられる指標の1つである。
本研究では,2つの埋め込み空間のアライメントの程度を評価する尺度として,BLIの強度と限界について検討する。
さらに, 従来の組込みアライメント手法, 新規多言語モデル, 複合アライメント手法が, 高リソース言語と低リソース言語の両文脈において, BLI タスクをいかにうまく行うかを評価する。
さらに,2つの言語が属する言語族の影響について検討する。
我々は、BLIが真のアライメントの度合いを測ることができないことを確認し、それらの解を提案する。
本稿では,単語ベースのBLI手法とは対照的に,言語の性質を考慮に入れた2つの組込み空間の評価手法を提案する。
さらに,多言語埋め込みモデルにおいて,アライメントの程度,特にBLIの性能を示す上で,より有意義なボキャブラリープルーニング手法を提案する。
組み合わされた埋め込みアライメント技術は、場合によっては、多言語埋め込みの方が良い(主に低リソース言語の場合)。
関連論文リスト
- Cross-Domain Bilingual Lexicon Induction via Pretrained Language Models [22.297388572921477]
本稿では、一般ドメインと対象ドメインの単言語コーパスを用いて、ドメイン固有のバイリンガル辞書を抽出するBLIの新しいタスクを提案する。
事前学習モデルの能力に触発されて,BLIの最近の研究に基づいて構築された単語の埋め込みを改善する手法を提案する。
実験結果から,本手法は3つの領域におけるロバストなBLIベースラインの性能を平均0.78ポイント向上させることで向上できることがわかった。
論文 参考訳(メタデータ) (2025-05-29T06:37:02Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - When your Cousin has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages [29.346191691508125]
非教師付きバイリンガルレキシコン誘導は、大規模なデータセットが利用できない低リソース言語にとって最も有用である。
文献における最先端のBLI手法は,データ不均衡な言語ペアに対してほぼゼロに近い性能を示す。
本稿では,関連するLRLとHRLの間には,HRLのマスキング言語モデルに対してのみ推論を必要とする,教師なしBLIの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:49:21Z) - Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - Improving Bilingual Lexicon Induction with Cross-Encoder Reranking [31.142790337451366]
BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる新しい半教師付きポストホックリグレード法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
BLICErは、多様な言語にまたがる2つの標準BLIベンチマークで、新しい結果を確立している。
論文 参考訳(メタデータ) (2022-10-30T21:26:07Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。