論文の概要: Language Drift in Multilingual Retrieval-Augmented Generation: Characterization and Decoding-Time Mitigation
- arxiv url: http://arxiv.org/abs/2511.09984v1
- Date: Fri, 14 Nov 2025 01:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.619643
- Title: Language Drift in Multilingual Retrieval-Augmented Generation: Characterization and Decoding-Time Mitigation
- Title(参考訳): 多言語検索音声生成における言語ドリフト:特徴付けと復号化
- Authors: Bo Li, Zhenghua Xu, Rui Xie,
- Abstract要約: 複数のデータセット,言語,LLMのバックボーンにまたがる多言語RAGにおける出力言語ドリフトについて検討した。
実験の結果,デコーダレベルの崩壊によるドリフトの結果が明らかとなり,そこではトークン分布が支配的であり,高頻度の英文パターンが意図された生成言語を支配下に置くことがわかった。
そこで本研究では,対象言語を優雅に操る軽量でトレーニング不要なデコーディング戦略であるSoft Constrained Decoding (SCD)を提案する。
- 参考スコア(独自算出の注目度): 11.110312833458421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual Retrieval-Augmented Generation (RAG) enables large language models (LLMs) to perform knowledge-intensive tasks in multilingual settings by leveraging retrieved documents as external evidence. However, when the retrieved evidence differs in language from the user query and in-context exemplars, the model often exhibits language drift by generating responses in an unintended language. This phenomenon is especially pronounced during reasoning-intensive decoding, such as Chain-of-Thought (CoT) generation, where intermediate steps introduce further language instability. In this paper, we systematically study output language drift in multilingual RAG across multiple datasets, languages, and LLM backbones. Our controlled experiments reveal that the drift results not from comprehension failure but from decoder-level collapse, where dominant token distributions and high-frequency English patterns dominate the intended generation language. We further observe that English serves as a semantic attractor under cross-lingual conditions, emerging as both the strongest interference source and the most frequent fallback language. To mitigate this, we propose Soft Constrained Decoding (SCD), a lightweight, training-free decoding strategy that gently steers generation toward the target language by penalizing non-target-language tokens. SCD is model-agnostic and can be applied to any generation algorithm without modifying the architecture or requiring additional data. Experiments across three multilingual datasets and multiple typologically diverse languages show that SCD consistently improves language alignment and task performance, providing an effective and generalizable solution in multilingual RAG.
- Abstract(参考訳): 多言語検索・拡張生成(RAG)により、検索した文書を外部証拠として活用することにより、多言語設定における知識集約的なタスクを大規模言語モデル(LLM)で実行することができる。
しかし、検索されたエビデンスがユーザクエリとコンテキスト内例と異なる場合、意図しない言語で応答を生成することで、しばしば言語ドリフトを示す。
この現象は、特にChain-of-Thought (CoT) 生成のような推論集約的な復号の際に顕著であり、中間段階では言語不安定が生じる。
本稿では,複数のデータセット,言語,LLMバックボーンにまたがる多言語RAGにおける出力言語ドリフトを系統的に研究する。
制御実験の結果,ドリフトの結果は理解不能ではなくデコーダレベルの崩壊によるものであることが判明した。
さらに、英語が言語間条件下での意味的魅力として機能し、最も強い干渉源と最も頻繁なフォールバック言語の両方として現れることを観察する。
そこで本研究では,ソフト制約デコーディング(SCD)を提案する。これは軽量でトレーニング不要なデコーディング戦略であり,非ターゲット言語トークンをペナルタイズすることで,ターゲット言語に対して優しく生成を行う。
SCDはモデルに依存しないため、アーキテクチャを変更したり追加データを必要とすることなく、任意の世代アルゴリズムに適用することができる。
3つの多言語データセットと多言語多言語間の実験により、SCDは言語アライメントとタスクパフォーマンスを一貫して改善し、多言語RAGにおいて効果的で一般化可能なソリューションを提供することが示された。
関連論文リスト
- Beyond Language Barriers: Multi-Agent Coordination for Multi-Language Code Generation [8.896718697354187]
XL-CoGenは、複数のプログラミング言語で高品質なコードを生成する。
中間表現、コード生成、翻訳、自動修復を統合する。
論文 参考訳(メタデータ) (2025-09-24T09:18:08Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [89.45111250272559]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - Investigating Language Preference of Multilingual RAG Systems [4.438698005789677]
MRAGシステムは、クエリとドキュメント間の言語的バリエーションによって、関連する情報を取得するのに苦労する。
DKM-RAG(Dual Knowledge Multilingual RAG)は,翻訳された多言語パスを相補的なモデル知識で融合するフレームワークである。
実験結果から,DKM-RAGは言語嗜好を緩和し,多様な言語環境における性能向上を図っている。
論文 参考訳(メタデータ) (2025-02-16T15:54:05Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。