論文の概要: Lost in Transliteration: Bridging the Script Gap in Neural IR
- arxiv url: http://arxiv.org/abs/2505.08411v1
- Date: Tue, 13 May 2025 10:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.518516
- Title: Lost in Transliteration: Bridging the Script Gap in Neural IR
- Title(参考訳): 翻訳の損失:ニューラルIRにおけるスクリプトギャップのブリッジ
- Authors: Andreas Chari, Iadh Ounis, Sean MacAvaney,
- Abstract要約: 本稿では,多言語で高密度な埋め込みを含む現在の検索システムが,翻訳クエリに一般化していないことを示す。
本研究は,多言語情報検索手法の堅牢性を高めるために,一般的な「翻訳訓練」パラダイムを音訳に適用するかどうかを考察する。
- 参考スコア(独自算出の注目度): 23.572881425446074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most human languages use scripts other than the Latin alphabet. Search users in these languages often formulate their information needs in a transliterated -- usually Latinized -- form for ease of typing. For example, Greek speakers might use Greeklish, and Arabic speakers might use Arabizi. This paper shows that current search systems, including those that use multilingual dense embeddings such as BGE-M3, do not generalise to this setting, and their performance rapidly deteriorates when exposed to transliterated queries. This creates a ``script gap" between the performance of the same queries when written in their native or transliterated form. We explore whether adapting the popular ``translate-train" paradigm to transliterations can enhance the robustness of multilingual Information Retrieval (IR) methods and bridge the gap between native and transliterated scripts. By exploring various combinations of non-Latin and Latinized query text for training, we investigate whether we can enhance the capacity of existing neural retrieval techniques and enable them to apply to this important setting. We show that by further fine-tuning IR models on an even mixture of native and Latinized text, they can perform this cross-script matching at nearly the same performance as when the query was formulated in the native script. Out-of-domain evaluation and further qualitative analysis show that transliterations can also cause queries to lose some of their nuances, motivating further research in this direction.
- Abstract(参考訳): ほとんどの人間の言語はラテン文字以外の文字を使っている。
これらの言語の検索ユーザは、入力を容易にするために、翻訳された(通常はラテン語化された)フォームで情報のニーズを定式化することが多い。
例えば、ギリシャ語話者はギリシャ語を使い、アラビア語話者はアラビジを使う。
本稿では,BGE-M3などの多言語密埋め込みを用いた検索システムを含む現在の検索システムは,この設定を一般化せず,翻訳クエリに曝すと,その性能が急速に低下することを示す。
これにより、ネイティブまたはトランスリテラル形式で書かれた場合、同じクエリのパフォーマンスの ``script gap' が生成される。我々は、人気のある ``translate-train" パラダイムをトランスリテラルに適用することで、多言語情報検索(IR)メソッドの堅牢性を高め、ネイティブとトランスリテラルされたスクリプト間のギャップを埋めるかどうかを探る。
学習用非ラテン語とラテン語の問合せテキストの様々な組み合わせを探索することにより、既存のニューラル検索技術の能力を高め、それらがこの重要な設定に適用できるかどうかを検討する。
さらに、ネイティブテキストとラテン文字を混在させたIRモデルを微調整することで、クエリがネイティブスクリプトで定式化された時とほぼ同じパフォーマンスで、このクロススクリプトマッチングを実行することができることを示す。
領域外評価とさらに質的な分析は、翻訳によってクエリがいくつかのニュアンスを失う可能性があることを示し、この方向にさらなる研究を動機付けている。
関連論文リスト
- SoftMatcha: A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches [5.80278230280824]
本稿では,単語埋め込みと曲面レベルのマッチングを緩和することにより,意味的かつ効率的なパターンマッチングを実現する新しいアルゴリズムを提案する。
提案手法は,数十億のコーパスを1秒以内で探索できることを実証した。
論文 参考訳(メタデータ) (2025-03-05T17:53:11Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval [15.902630454568811]
本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。
翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
論文 参考訳(メタデータ) (2021-09-07T00:33:14Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。