論文の概要: Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.05678v1
- Date: Tue, 07 Oct 2025 08:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.161073
- Title: Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models
- Title(参考訳): 大規模言語モデルの言語間移動のためのコード変換型インコンテキスト学習
- Authors: Haneul Yoo, Jiho Jin, Kyunghyun Cho, Alice Oh,
- Abstract要約: 我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
- 参考スコア(独自算出の注目度): 64.54005959758733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) exhibit strong multilingual abilities, their reliance on English as latent representations creates a translation barrier, where reasoning implicitly depends on internal translation into English. When this process fails, performance in non-English languages deteriorates sharply, limiting the inclusiveness of LLM-based applications. Existing cross-lingual in-context learning (X-ICL) methods primarily leverage monolingual demonstrations, often failing to mitigate this barrier and instead reinforcing it. In this work, we introduce code-switching in-context learning (CSICL), a simple yet effective prompting strategy that progressively transitions from a target language to English within demonstrations and instruction to facilitate their latent reasoning in English. By explicitly scaffolding the reasoning process through controlled code-switching, CSICL acts as an implicit linguistic bridge that enhances cross-lingual alignment and reduces reliance on the translation barrier. We conduct extensive experiments across 4 LLMs, 6 datasets, and 10 languages, spanning both knowledge-intensive and reasoning-oriented domains. Our results demonstrate that CSICL consistently outperforms X-ICL baselines, achieving gains of 3.1%p and 1.9%p in both target and unseen languages, respectively. The improvement is even more pronounced in low-resource settings, with gains of 14.7% in target and 5.3% in unseen languages. These findings establish code-switching as a principled and robust approach for overcoming the translation barrier during inference, moving LLMs toward more equitable and effective multilingual systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は強い多言語能力を示すが、潜在表現としての英語への依存は翻訳障壁を生み出し、推論は英語の内部翻訳に暗黙的に依存する。
このプロセスが失敗すると、非英語言語のパフォーマンスが急激に悪化し、LLMベースのアプリケーションの包括性が制限される。
既存の言語間インコンテキスト学習(X-ICL)メソッドは、主にモノリンガルなデモンストレーションを利用しており、しばしばこの障壁を緩和せず、その代わりに強化する。
本稿では,コードスイッチング・イン・コンテクスト学習(CSICL)について紹介する。これは,目的語から英語へ段階的に移行し,英語の潜伏推論を容易にする,シンプルかつ効果的なプロンプト戦略である。
CSICLは、制御されたコードスイッチングを通じて推論プロセスを明示的に把握することにより、言語間のアライメントを高め、翻訳障壁への依存を減らす暗黙の言語橋として機能する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と未確認言語でそれぞれ3.1%pと1.9%pを達成した。
この改善は低リソース環境でさらに顕著であり、ターゲットは14.7%、未確認言語は5.3%となっている。
これらの知見は、LLMをより公平で効果的な多言語システムへ移動させる、推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして、コードスイッチングを確立している。
関連論文リスト
- Language Surgery in Multilingual Large Language Models [32.77326546076424]
大規模言語モデル(LLM)はタスクや言語にまたがる顕著な一般化機能を示している。
本稿では, LLMにおける自然に出現する表現アライメント, 特に中層における表現アライメントについて検討する。
本稿では,言語間言語制御の高精度化と言語混乱を軽減するため,ITLC(Inference-Time Language Control)を提案する。
論文 参考訳(メタデータ) (2025-06-14T11:09:50Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Cross-Lingual Consistency: A Novel Inference Framework for Advancing Reasoning in Large Language Models [10.231866835957538]
大型言語モデル(LLM)における推論能力を高める重要なメカニズムとして、Chain-of-Thought(CoT)が登場した。
LLMの推論能力を高めるために,多数決による多言語推論経路を統合した言語間整合性(CLC)フレームワークを提案する。
CMATHデータセットの実証評価により、従来の自己整合性法よりもCLCの方が優れていることが明らかになった。
論文 参考訳(メタデータ) (2025-04-02T16:09:39Z) - Enhancing Non-English Capabilities of English-Centric Large Language Models through Deep Supervision Fine-Tuning [42.166438218926274]
本稿では、モデルの内部層にさらなる監視を取り入れ、ワークフローをガイドする深層監視微調整法(DFT)を提案する。
提案手法は,非英語入力処理における最終生成結果だけでなく,内部表現の精度も保証する。
論文 参考訳(メタデータ) (2025-03-03T07:59:32Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。