論文の概要: SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges
- arxiv url: http://arxiv.org/abs/2605.26002v1
- Date: Mon, 25 May 2026 16:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.464187
- Title: SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges
- Title(参考訳): SemBridge:多言語セマンティックブリッジによるスパースエンコーダにおける言語伝達
- Authors: Seongtae Hong, Youngjoon Jang, Jia-Heui Ju, Hyeonseok Moon, Heuiseok Lim,
- Abstract要約: スパースエンコーダは語彙空間内の項の重要性を表すことによって高精度な検索を提供する。
英語中心の構造は、非英語言語への言語移動に重大な障害となる。
スパースエンコーダにおける言語間適応のための新しい埋め込み手法であるSemBridgeを提案する。
- 参考スコア(独自算出の注目度): 24.40853617971479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse encoders offer high-precision retrieval by representing term importance within a vocabulary space, yet their English-centric structures pose a critical impediment to language transfer for non-English languages. To overcome this structural limitation, we propose SemBridge, a novel embedding initialization method designed for cross-lingual adaptation in sparse encoders by leveraging multilingual bridge models. SemBridge establishes semantic alignments between source and target vocabularies using multilingual dense embeddings as a bridge. Rather than directly relying on all source tokens, SemBridge selects a small set of semantically related source-language tokens and uses them to initialize each target-language token, effectively filtering out semantic noise and reconstructing target tokens as precise linear combinations of core synonyms. This accelerates convergence during fine-tuning and improves training efficiency. Extensive experiments across five languages and four sparse architectures demonstrate that SemBridge achieves superior zero-shot retrieval performance and consistently improves retrieval performance after fine-tuning compared to existing baselines. These results validate SemBridge as a practical solution for deploying high-performance sparse retrieval systems in diverse linguistic environments.
- Abstract(参考訳): スパースエンコーダは語彙空間における項の重要性を表すことによって高精度な検索を提供するが、その英語中心の構造は非英語言語への言語移動に重大な障害をもたらす。
この構造的制限を克服するために,多言語ブリッジモデルを利用してスパースエンコーダの言語間適応を設計した新しい埋め込み初期化法であるSemBridgeを提案する。
SemBridgeは、多言語で密接な埋め込みをブリッジとして使用して、ソースとターゲットの語彙間のセマンティックアライメントを確立する。
すべてのソーストークンを直接依存するのではなく、SemBridgeは、セマンティック関連のソース言語トークンの小さなセットを選択して、それぞれのターゲット言語トークンを初期化するために使用し、セマンティックノイズを効果的にフィルタリングし、コアシノニムの正確な線形結合としてターゲットトークンを再構築する。
これにより、微調整時の収束が加速し、訓練効率が向上する。
5つの言語と4つのスパースアーキテクチャにわたる大規模な実験により、SemBridgeはゼロショット検索性能が優れ、既存のベースラインと比較して微調整後の検索性能が一貫して向上していることが示された。
これらの結果から,SemBridgeは多様な言語環境において,高性能なスパース検索システムを実現するための実用的なソリューションであることがわかった。
関連論文リスト
- Generating Concept Lexicalizations via Dictionary-Based Cross-Lingual Sense Projection [11.136711217530157]
目的語補題と既存の語彙概念をセマンティック・プロジェクションで関連付けることで感覚を生成する。
提案手法は,英語の構文をアライメントされたターゲット言語トークンに投影し,対応する補題をそれらの合成集合に割り当てる。
本手法を,辞書ベースおよび大規模言語モデルベースラインと同様に,先行手法と比較し,複数の言語で評価する。
論文 参考訳(メタデータ) (2026-04-15T20:27:26Z) - Simultaneous Speech-to-Speech Translation Without Aligned Data [52.467808474293605]
同時音声翻訳では、ソース音声を対象言語にリアルタイムで翻訳する必要がある。
単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。
Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T17:41:01Z) - LANGSAE EDITING: Improving Multilingual Information Retrieval via Post-hoc Language Identity Removal [34.73949500194166]
多言語埋め込みは、セマンティクスと共に言語アイデンティティをエンコードする。
本稿では,プール埋め込みを訓練したポストホックスパースオートエンコーダであるLangSAE EDIINGを提案する。
複数の言語にわたる実験では、ランキング品質と言語間カバレッジが一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-08T09:36:41Z) - What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models [0.19116784879310025]
リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントの相違により、言語間情報検索は困難である。
既存のパイプラインは、しばしば翻訳と単言語検索に依存し、計算オーバーヘッドとノイズ、パフォーマンスを追加する。
この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリー文書レベルのコントラスト学習、および3つのベンチマークデータセットにおけるクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
論文 参考訳(メタデータ) (2025-11-24T17:17:40Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。