論文の概要: Benchmarking Cross-Lingual Semantic Alignment in Multilingual Embeddings
- arxiv url: http://arxiv.org/abs/2601.09732v1
- Date: Mon, 29 Dec 2025 14:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.714266
- Title: Benchmarking Cross-Lingual Semantic Alignment in Multilingual Embeddings
- Title(参考訳): 多言語埋め込みにおける言語間セマンティックアライメントのベンチマーク
- Authors: Wen G. Gong,
- Abstract要約: タスク駆動ベンチマーク(MTEB)は基本的なアライメントの欠点を隠蔽する可能性がある。
意味的親和性 (Semantic Affinity, SA) は, 言語間比と言語内拡散比の有界(0, 1)の測定値である。
4つのデータセット(52の実験)に13のモデルをベンチマークすると、3層構造が明らかになる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With hundreds of multilingual embedding models available, practitioners lack clear guidance on which provide genuine cross-lingual semantic alignment versus task performance through language-specific patterns. Task-driven benchmarks (MTEB) may mask fundamental alignment shortcomings. We introduce Semantic Affinity (SA), a bounded (between 0 and 1) metric measuring inter-lingual to intra-lingual spread ratio using cosine distance, combined with PHATE visualization in our Semanscope framework. Benchmarking 13 models across 4 datasets (52 experiments) reveals a three-tier structure: (1) Top BERT models (LaBSE SA = 0.70, USE SA = 0.68, S-BERT SA = 0.68) achieve strong alignment via translation-pair supervision; (2) LLM embeddings plateau at SA between 0.55 and 0.61 regardless of 0.6 B to 8 B scale; (3) MLM-only BERT models (mBERT, XLM-R, SA < 0.50) fail despite more than 100 language training. Training objective, not architecture or scale, determines alignment. Oracle Bone primitives (1200 BCE) expose semantic drift-models learn corpus patterns rather than cognitive primitives. This work provides semantic benchmarking to help practitioners select quality multilingual embeddings from hundreds of available models, showing cross-lingual alignment requires explicit translation supervision, not merely model scale or multilingual data.
- Abstract(参考訳): 数百の多言語埋め込みモデルが利用可能であるため、実践者は言語固有のパターンを通じて、真の言語間セマンティックアライメントとタスクパフォーマンスを提供するための明確なガイダンスを欠いている。
タスク駆動ベンチマーク(MTEB)は基本的なアライメントの欠点を隠蔽する可能性がある。
セマンティック親和性(Semantic Affinity, SA)は,コサイン距離を用いた言語間拡散比と言語間拡散比を計測し,セマンスコープでPHATEを可視化する手法である。
1 上位BERTモデル (LaBSE SA = 0.70, USE SA = 0.68, S-BERT SA = 0.68) は翻訳ペアの監督によって強い整合性を達成する; (2) LLM 埋め込みは SA 0.55 から 0.61 の高原を 0.6 B から 8 B のスケールに関係なく埋め込む; (3) MLM のみの BERT モデル (mBERT, XLM-R, SA < 0.50) は100以上の言語訓練にもかかわらず失敗する。
アーキテクチャやスケールではなく、トレーニング対象がアライメントを決定する。
Oracle Boneプリミティブ(1200BCE)は、認知プリミティブではなく、コーパスパターンを学ぶセマンティックドリフトモデルを公開する。
この作業は、数百の利用可能なモデルから品質の高い多言語埋め込みを選択するのに役立つセマンティックベンチマークを提供する。
関連論文リスト
- XplaiNLP at CheckThat! 2025: Multilingual Subjectivity Detection with Finetuned Transformers and Prompt-Based Inference with Large Language Models [2.749729059235755]
このノートには、XplaiがCheckThat!に提出されたことを報告しています。
単言語および機械翻訳によるトレーニングデータに基づいて,変換器エンコーダの教師付き微調整,EuroBERT,XLM-RoBERTa,ジャーマン-BERTの2つの手法を評価する。
ドイツ語の場合、タイポロジーに関連のある言語から翻訳されたトレーニングデータに基づいて微調整されたドイツ語-BERTモデルでは、ベースライン上での競争性能が向上する。
論文 参考訳(メタデータ) (2025-09-15T16:53:41Z) - Mario at EXIST 2025: A Simple Gateway to Effective Multilingual Sexism Detection [8.40042895828361]
EXIST 2025 Task 1は、Llama 3.1 8Bの階層的低ランク適応(LoRA)を通じて、英語とスペイン語のツイートでテキストベースの性差別を検出する。
本手法では,3つの階層的なサブタスク間の依存関係を明示的にモデル化する条件付きアダプタルーティングを導入する。
提案手法は,トレーニング時間を75%削減し,モデルストレージを98%削減すると同時に,すべてのサブタスクで競合性能を実現する。
論文 参考訳(メタデータ) (2025-07-15T05:30:32Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations [25.50509874992198]
Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。
既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。
XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
論文 参考訳(メタデータ) (2023-06-07T01:09:37Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。