論文の概要: LANGSAE EDITING: Improving Multilingual Information Retrieval via Post-hoc Language Identity Removal
- arxiv url: http://arxiv.org/abs/2601.04768v1
- Date: Thu, 08 Jan 2026 09:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.141606
- Title: LANGSAE EDITING: Improving Multilingual Information Retrieval via Post-hoc Language Identity Removal
- Title(参考訳): LANGSAE EDITING:ポストホック言語同一性除去による多言語情報検索の改善
- Authors: Dongjun Kim, Jeongho Yoon, Chanjun Park, Heuiseok Lim,
- Abstract要約: 多言語埋め込みは、セマンティクスと共に言語アイデンティティをエンコードする。
本稿では,プール埋め込みを訓練したポストホックスパースオートエンコーダであるLangSAE EDIINGを提案する。
複数の言語にわたる実験では、ランキング品質と言語間カバレッジが一貫して改善されている。
- 参考スコア(独自算出の注目度): 34.73949500194166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrieval in multilingual settings often searches over mixed-language collections, yet multilingual embeddings encode language identity alongside semantics. This language signal can inflate similarity for same-language pairs and crowd out relevant evidence written in other languages. We propose LANGSAE EDITING, a post-hoc sparse autoencoder trained on pooled embeddings that enables controllable removal of language-identity signal directly in vector space. The method identifies language-associated latent units using cross-language activation statistics, suppresses these units at inference time, and reconstructs embeddings in the original dimensionality, making it compatible with existing vector databases without retraining the base encoder or re-encoding raw text. Experiments across multiple languages show consistent improvements in ranking quality and cross-language coverage, with especially strong gains for script-distinct languages.
- Abstract(参考訳): 多言語設定でのダンス検索はしばしば混合言語コレクションを検索するが、多言語埋め込みはセマンティクスと共に言語アイデンティティを符号化する。
この言語信号は、同言語ペアの類似性を増大させ、他の言語で書かれた関連する証拠を収集することができる。
本稿では,言語同一性信号を直接ベクトル空間内で直接除去可能な,プール埋め込みを訓練したポストホックスパースオートエンコーダであるLANGSAE EDIINGを提案する。
言語間のアクティベーション統計を用いて言語関連潜伏単位を特定し、これらの単位を推論時に抑制し、元の次元における埋め込みを再構築し、ベースエンコーダをリトレーニングしたり、原文を再エンコードしたりすることなく、既存のベクトルデータベースと互換性を持たせる。
複数の言語にまたがる実験では、ランキング品質と言語間カバレッジが一貫した改善が見られ、特にスクリプト固有の言語では顕著に向上している。
関連論文リスト
- Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。
言語固有のデコーディングと多言語表現を共有できるのでしょうか?
層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文 参考訳(メタデータ) (2025-11-13T22:51:06Z) - Language Drift in Multilingual Retrieval-Augmented Generation: Characterization and Decoding-Time Mitigation [11.110312833458421]
複数のデータセット,言語,LLMのバックボーンにまたがる多言語RAGにおける出力言語ドリフトについて検討した。
実験の結果,デコーダレベルの崩壊によるドリフトの結果が明らかとなり,そこではトークン分布が支配的であり,高頻度の英文パターンが意図された生成言語を支配下に置くことがわかった。
そこで本研究では,対象言語を優雅に操る軽量でトレーニング不要なデコーディング戦略であるSoft Constrained Decoding (SCD)を提案する。
論文 参考訳(メタデータ) (2025-11-13T05:36:31Z) - DIVERS-Bench: Evaluating Language Identification Across Domain Shifts and Code-Switching [8.14614722074297]
言語識別(Language Identification、LID)は多言語NLPにおける中核的なタスクである。
本研究はDIVERS-BENCHを導入し,多分野にわたる最先端のLIDモデルの包括的評価を行った。
これらの結果から, モデルが評価されたデータセットに対して高い精度を達成する一方で, ノイズや非公式な入力に対して, 性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-09-22T13:32:31Z) - Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。