論文の概要: Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers
- arxiv url: http://arxiv.org/abs/2604.17632v1
- Date: Sun, 19 Apr 2026 22:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.613028
- Title: Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers
- Title(参考訳): コードスイッチング情報検索: ベンチマーク, 解析, 電流リトライバーの限界
- Authors: Qingcheng Zeng, Yuheng Lu, Zeqi Zhou, Heli Qi, Puxuan Yu, Fuheng Zhao, Hitomi Yanaka, Weihao Xuan, Naoto Yokoya,
- Abstract要約: CSR-L(Code-Switching Retrieval benchmark-Lite)を導入し、人間のアノテーションを用いてデータセットを構築し、混合言語クエリの真の自然性を捉える。
コードスイッチングが基本的なパフォーマンスボトルネックとして機能し、堅牢な多言語モデルの有効性を低下させることを示す。
- 参考スコア(独自算出の注目度): 32.12010196874932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.
- Abstract(参考訳): コードスイッチングはグローバル通信において広汎な言語現象であるが、現代の情報検索システムは、モノリンガルな文脈において主に設計され、評価されている。
この重要な切断を埋めるために、コードスイッチングIRに特化した総合的研究を紹介する。
CSR-L(Code-Switching Retrieval benchmark-Lite)を導入し、人間のアノテーションを用いてデータセットを構築し、混合言語クエリの真の自然性を捉える。
統計的、高密度、遅延相互作用のパラダイムによる評価は、コードスイッチングが基本的なパフォーマンスボトルネックとして機能し、堅牢な多言語モデルの有効性を低下させることを示している。
この失敗は、純粋テキストとコードスイッチングテキストの埋め込み空間において、かなりのばらつきに起因することを実証する。
本研究では,11種類のタスクを対象とした総合的なベンチマークCS-MTEBを提案し,最大27%のパフォーマンス低下を観測した。
最後に,語彙展開のような標準多言語技術は,これらの欠点を完全に解決するには不十分であることを示す。
これらの知見は、現在のシステムの脆弱さを浮き彫りにして、将来のIR最適化における重要なフロンティアとしてコードスイッチングを確立する。
関連論文リスト
- Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining [59.2578488860426]
不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
論文 参考訳(メタデータ) (2026-03-02T11:38:12Z) - SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset [34.40254709148148]
コードスイッチング(Code-Switching, CS)とは、会話や発話の中で2つ以上の言語を交互に使用する方法である。
この言語現象は、自動音声認識(ASR)システムに課題をもたらす。
textbfSwitchLinguaは、最初の大規模多言語および多民族のコードスイッチングデータセットである。
論文 参考訳(メタデータ) (2025-05-30T05:54:46Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding [10.154013836043816]
赤チームクエリのコードスイッチングは、大規模言語モデル(LLM)の望ましくない振る舞いを効果的に引き出すことができる
我々は,コードスイッチングされた赤チームクエリを合成するシンプルな,効果的なフレームワークCSRTを紹介した。
CSRTは,既存の多言語リピート技術よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T06:08:18Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。