論文の概要: Hubness, Not Anisotropy, Drives Cross-Lingual Retrieval Asymmetry in Multilingual Embedding Models
- arxiv url: http://arxiv.org/abs/2605.26575v1
- Date: Tue, 26 May 2026 05:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.68817
- Title: Hubness, Not Anisotropy, Drives Cross-Lingual Retrieval Asymmetry in Multilingual Embedding Models
- Title(参考訳): 異方性ではなくハブ性は多言語埋め込みモデルにおける言語間検索非対称性を駆動する
- Authors: Adib Sakhawat, Fardeen Sadab, Atik Shahriar,
- Abstract要約: 我々は、英語、バングラ語、ヒンディー語、アラビア語で6,518の慣用表現のコーパスを用いて、この失敗を互いに最も近い隣の相互関係の欠陥として定式化する。
我々は、多言語空間の幾何学的病理学の中で、異方性ではなく、ハブ性、遠心性ドリフト、大きさが支配的な因果ドライバーである、という単一の力学的主張を検証した。
多言語埋め込みパイプラインのデフォルト検索基準として,コサイン類似性をCSLSに置き換えることを推奨する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilingual embedding models are deployed under the assumption that cross-lingual retrieval is symmetric: if a query in language A retrieves its translation in language B, the reverse should also hold. In practice it does not. Using a parallel corpus of 6,518 idiomatic and proverbial expressions in English, Bangla, Hindi, and Arabic, embedded by five production-grade encoders (Gemini, Mistral, OpenAI-L, OpenAI-S, Qwen), we formalise this failure as a deficit in mutual nearest-neighbour reciprocity and test a single mechanistic claim: among the geometric pathologies of multilingual spaces, hubness, not anisotropy, centroid drift, or magnitude, is the dominant causal driver. Across five pre-registered experiments with falsification conditions specified in advance, hub mass dominates a joint regression on reciprocity (49.5% dominance share, 1.68x the next predictor; partial R^2 = 0.302 versus 0.003 for anisotropy), while a hub-aware score correction (CSLS) closes 63.5% of the worst-to-best reciprocity gap and yields a mean within-model effect size 130x larger than surgical hub-vector ablation. The latter contrast pinpoints the mechanism: hubness is a pathology of the similarity metric, not of individual hub vectors. We resolve the well-known anisotropy-hubness paradox by showing the two are statistically dissociable, and we recommend replacing cosine similarity with CSLS as the default retrieval metric for multilingual embedding pipelines.
- Abstract(参考訳): 多言語埋め込みモデルは、言語間検索が対称であるという仮定の下で展開される: 言語Aのクエリが言語Bの翻訳を検索した場合、その逆も保持されるべきである。
実際にはそうではない。
5つの生産級エンコーダ(Gemini, Mistral, OpenAI-L, OpenAI-S, Qwen)が組み込んだ、6,518の慣用的および証明的表現の並列コーパスを用いて、我々はこの失敗を相互に近接する隣り合う相互の相反性の欠陥として定式化し、単一の機械的クレームをテストする:多言語空間、ハブネス、異方性、セントロイドドリフト、マグニチュードの幾何学的病理の中で、この失敗は支配的な因果ドライバーである。
前述したファルシフィケーション条件による5つの事前登録実験において、ハブ質量は相反性に関する共同回帰(49.5%のドミナンスシェア、1.68倍の予測値、部分的なR^2 = 0.302 vs 0.003の異方性)を支配し、一方、ハブ認識スコア補正(CSLS)は最悪の相反性ギャップの63.5%を閉じ、外科的ハブベクトルアブレーションよりも平均モデル内効果サイズ130x大きい。
ハブ性は、個々のハブベクトルではなく、類似度計量の病理である。
統計的に解離可能であることを示すことにより、よく知られた異方性-疎結合パラドックスを解消し、多言語埋め込みパイプラインのデフォルトの検索基準としてCSLSにコサイン類似性を置き換えることを推奨する。
関連論文リスト
- Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Phonological Subspace Collapse Is Aetiology-Specific and Cross-Lingually Stable: Evidence from 3,374 Speakers [0.0]
HuBERTをベースとした5言語890話者を対象にした音韻的特徴部分空間に基づく難聴度評価のためのトレーニングフリーフレームワーク。
12言語および5言語にまたがる25言語話者の分析(パーキンソン病、脳性麻痺、ALSダウン症候群、脳卒中)
代表標本における言語間プロファイル形状と安定性のクロスバックボーン
論文 参考訳(メタデータ) (2026-04-23T14:12:27Z) - SA-CycleGAN-2.5D: Self-Attention CycleGAN with Tri-Planar Context for Multi-Site MRI Harmonization [3.5109108807229403]
本稿では,Ben-David らによる$HH$-divergence 境界によるドメイン適応フレームワーク SA-CycleGAN-2.5D を提案する。
2D効率と3D一貫性をブリッジすることで,腫瘍の病態を保ったボクセルレベルの高調波画像が得られる。
論文 参考訳(メタデータ) (2026-03-17T23:49:46Z) - Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems [0.0]
加害者治療では、犯罪者は反省するが、行動の変化は従わない。
我々は、アライメントの介入が構造的に類似した現象を生じさせ、表面の安全性は、集合的な病理や内部の解離を覆い隠すか、あるいは発生させることを示した。
これらの所見は, リスクホメオスタシスと子宮新生にともなう行動介入としてのアライメントを再構成した。
論文 参考訳(メタデータ) (2026-03-05T07:46:59Z) - How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Interference Matrix: Quantifying Cross-Lingual Interference in Transformer Encoders [55.749883010057545]
可能な全ての言語対上で,小さなBERT様のモデルを訓練し,評価することにより,干渉行列を構築する。
分析の結果,言語間の干渉は非対称であり,そのパターンが従来の言語特性と一致しないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-04T10:02:19Z) - Mitigate One, Skew Another? Tackling Intersectional Biases in Text-to-Image Models [73.20190633746442]
テキスト・ツー・イメージ・モデルにおけるバイアス相互作用を解析・定量化するための新しいツールであるBiasConnectを紹介する。
ユーザが定義した目標分布と優先度重みを導出する交叉バイアス緩和アルゴリズムであるInterMitを提案する。
論文 参考訳(メタデータ) (2025-05-22T20:56:38Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Relative Pose from SIFT Features [50.81749304115036]
基本行列の未知元と向きとスケールに関する新しい線形制約を導出する。
提案した制約は、合成環境における多くの問題と、80000以上の画像ペア上で公開されている実世界のデータセットでテストされる。
論文 参考訳(メタデータ) (2022-03-15T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。