論文の概要: Discovering Lexical Gaps Using Embeddings from Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2605.24310v1
- Date: Sat, 23 May 2026 00:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.865846
- Title: Discovering Lexical Gaps Using Embeddings from Multilingual LLMs
- Title(参考訳): 多言語LLMからの埋め込みを用いた語彙ギャップの発見
- Authors: Yoonwon Jung, Aaron S. Cohen, Benjamin K. Bergen,
- Abstract要約: 語彙ギャップは特定の言語に存在しない単語である。
本稿では,言語間の語彙間ギャップを識別するためのデータ駆動型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.217547045999963
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Lexical gaps are words that do not exist in certain languages. They pose challenges for building multilingual lexical resources, for machine translation, and for cross-lingual transfer. Existing lexical gap detection relies on human judgments or fixed conceptual taxonomies. We propose a data-driven framework for identifying cross-lingual lexical gaps. We extracted contextualized embeddings from Korean-English bilingual LLMs for Korean-to-English and English-to-Korean translation pairs. Combinations of LLMs, embedding types, dimensionality, and orthogonal transformations across 100 train-test splits yielded 4000 distinct embedding spaces in each source language. In each space, we computed the semantic similarity between each source word and its nearest neighbor in the target language, and compared their distribution for gap words versus non-gap words. In 94% (Korean-to-English) and 97% (English-to-Korean) of embedding spaces, gap words showed weaker cross-lingual semantic alignment than non-gap words. Logistic classifiers trained on unaligned embedding spaces can reliably separate gap words from non-gap words, achieving AUCs of 0.81 (Korean-to-English) and 0.76 (English-to-Korean) and retrieving 18/19 Korean and 26/27 English gap words. This approach provides a language-agnostic and taxonomy-free method for scalable lexical gap identification.
- Abstract(参考訳): 語彙ギャップは特定の言語に存在しない単語である。
彼らは多言語語彙資源の構築、機械翻訳、言語間移動の課題を提起する。
既存の語彙ギャップ検出は人間の判断や固定された概念分類に依存している。
本稿では,言語間の語彙間ギャップを識別するためのデータ駆動型フレームワークを提案する。
韓国語-英語-韓国語-韓国語-韓国語-英語-韓国語訳対に対する韓国語-英語両言語LLMの文脈的埋め込みを抽出した。
LLM、埋め込み型、次元変換、直交変換を100個の列車分割で組み合わせた結果、各ソース言語に4000個の異なる埋め込み空間が得られた。
各空間において、対象言語における各ソース語とその隣人間の意味的類似性を計算し、その分布をギャップ語と非ギャップ語の比較を行った。
組込み空間の94%(韓国語-英語)と97%(韓国語-韓国語)では、ギャップワードは非ギャップワードよりも言語間セマンティックアライメントが弱かった。
不整合埋め込み空間で訓練されたロジスティック分類器は、ギャップ語を非ギャップ語から確実に分離し、AUCを0.81(韓国語対英語)と0.76(韓国語対韓国語)とし、18/19韓国語と26/27英語のギャップ語を取得する。
このアプローチは、スケーラブルな語彙ギャップ識別のための言語に依存しない、分類なしの手法を提供する。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Crowdsourcing Lexical Diversity [7.569845058082537]
本稿では,レキシコンのバイアス低減のための新しいクラウドソーシング手法を提案する。
群衆労働者は2つの言語からの語彙を比較し、親族や食べ物といった語彙の多様性に富む領域に焦点を当てる。
食品関連用語に焦点をあてた2つのケーススタディに適用し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-10-30T15:45:09Z) - Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。