論文の概要: How and Where to Translate? The Impact of Translation Strategies in Cross-lingual LLM Prompting
- arxiv url: http://arxiv.org/abs/2507.22923v1
- Date: Mon, 21 Jul 2025 19:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.945304
- Title: How and Where to Translate? The Impact of Translation Strategies in Cross-lingual LLM Prompting
- Title(参考訳): 翻訳方法と翻訳方法 : 言語間LLMプロンプトにおける翻訳方略の影響
- Authors: Aman Gupta, Yingying Zhuang, Zhou Yu, Ziji Zhang, Anurag Beniwal,
- Abstract要約: 多言語検索強化世代(RAG)ベースのシステムでは、知識ベース(KB)は高リソース言語(例えば英語)から低リソース言語(英語版)にしばしば共有される。
2つの一般的なプラクティスは、単言語的なプロンプトを生成するための事前翻訳と、直接推論のための言語間プロンプトである。
最適化されたプロンプト戦略は、言語間の知識共有を大幅に改善し、下流分類タスクの性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 15.388822834013599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in the multilingual capabilities of Large Language Models (LLMs), their performance varies substantially across different languages and tasks. In multilingual retrieval-augmented generation (RAG)-based systems, knowledge bases (KB) are often shared from high-resource languages (such as English) to low-resource ones, resulting in retrieved information from the KB being in a different language than the rest of the context. In such scenarios, two common practices are pre-translation to create a mono-lingual prompt and cross-lingual prompting for direct inference. However, the impact of these choices remains unclear. In this paper, we systematically evaluate the impact of different prompt translation strategies for classification tasks with RAG-enhanced LLMs in multilingual systems. Experimental results show that an optimized prompting strategy can significantly improve knowledge sharing across languages, therefore improve the performance on the downstream classification task. The findings advocate for a broader utilization of multilingual resource sharing and cross-lingual prompt optimization for non-English languages, especially the low-resource ones.
- Abstract(参考訳): LLM(Large Language Models)の多言語能力の進歩にもかかわらず、その性能は言語やタスクによって大きく異なる。
多言語検索強化世代 (RAG) ベースのシステムでは、知識ベース (KB) は高リソース言語 (英語など) から低リソース言語 (低リソース言語) に共有されることが多く、KB から取得した情報は他の文脈と異なる言語である。
このようなシナリオでは、単言語的なプロンプトを生成するための事前翻訳と、直接推論のための言語間プロンプトという2つの一般的なプラクティスがある。
しかし、これらの選択の影響はいまだ不明である。
本稿では,多言語システムにおけるRAG強化LLMを用いた分類タスクにおける異なるプロンプト翻訳戦略の影響を系統的に評価する。
実験の結果、最適化されたプロンプト戦略により言語間の知識共有が大幅に向上し、下流分類タスクの性能が向上することが示された。
この結果は、多言語リソース共有のより広範な活用と、非英語言語、特に低リソース言語に対する言語間プロンプト最適化を提唱している。
関連論文リスト
- Multilingual Information Retrieval with a Monolingual Knowledge Base [2.419638771866955]
強調学習のための重み付きサンプリングによる多言語埋め込みモデルを微調整する新しい手法を提案する。
重み付きサンプリング方式では,MRRでは最大31.03%,Recall@3では最大33.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-06-03T07:05:49Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [73.35882908048423]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - Beyond English: The Impact of Prompt Translation Strategies across Languages and Tasks in Multilingual LLMs [13.458891794688551]
我々は,低リソース言語と高リソース言語の両方をカバーする35言語を対象とした事前翻訳戦略を評価する。
本実験は,英語との類似性,翻訳品質,事前学習データのサイズなどの要因が,事前翻訳によるモデル性能に与える影響を示す。
論文 参考訳(メタデータ) (2025-02-13T13:49:30Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - A Framework for Hierarchical Multilingual Machine Translation [3.04585143845864]
本稿では,多言語機械翻訳戦略を構築するための階層的枠組みを提案する。
類似言語間の移動を可能にするために、類型的言語系木を利用する。
41言語からなるデータセット上での探索実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-05-12T01:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。