論文の概要: Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task
- arxiv url: http://arxiv.org/abs/2504.03616v1
- Date: Fri, 04 Apr 2025 17:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:35.457244
- Title: Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task
- Title(参考訳): 知識集約型タスクのための多言語検索型生成
- Authors: Leonardo Ranaldi, Barry Haddow, Alexandra Birch,
- Abstract要約: Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 73.35882908048423
- License:
- Abstract: Retrieval-augmented generation (RAG) has become a cornerstone of contemporary NLP, enhancing large language models (LLMs) by allowing them to access richer factual contexts through in-context retrieval. While effective in monolingual settings, especially in English, its use in multilingual tasks remains unexplored. This paper investigates the effectiveness of RAG across multiple languages by proposing novel approaches for multilingual open-domain question-answering. We evaluate the performance of various multilingual RAG strategies, including question-translation (tRAG), which translates questions into English before retrieval, and Multilingual RAG (MultiRAG), where retrieval occurs directly across multiple languages. Our findings reveal that tRAG, while useful, suffers from limited coverage. In contrast, MultiRAG improves efficiency by enabling multilingual retrieval but introduces inconsistencies due to cross-lingual variations in the retrieved content. To address these issues, we propose Crosslingual RAG (CrossRAG), a method that translates retrieved documents into a common language (e.g., English) before generating the response. Our experiments show that CrossRAG significantly enhances performance on knowledge-intensive tasks, benefiting both high-resource and low-resource languages.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は現代のNLPの基盤となり、大規模言語モデル(LLM)を拡張した。
単言語設定、特に英語では有効であるが、多言語タスクでの使用は未検討のままである。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
本稿では,検索前の質問を英語に翻訳する質問翻訳(tRAG)や,複数の言語間で直接検索を行う多言語RAG(MultiRAG)など,多言語RAG戦略の性能を評価する。
以上より,tRAGは有用ではあるが,カバー範囲が限られていることが明らかとなった。
対照的に、MultiRAGは多言語検索を可能にして効率を向上するが、検索したコンテンツの多言語間変動による不整合を導入する。
これらの問題に対処するため,検索した文書を共通言語(例えば英語)に変換する手法であるクロスリンガルRAG(CrossRAG)を提案する。
実験の結果、CrossRAGは知識集約型タスクの性能を著しく向上させ、高リソース言語と低リソース言語の両方に利益をもたらすことがわかった。
関連論文リスト
- Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - Investigating Language Preference of Multilingual RAG Systems [4.438698005789677]
MRAGシステムは、クエリとドキュメント間の言語的バリエーションによって、関連する情報を取得するのに苦労する。
本稿では,翻訳された多言語パスを相補的なモデル知識で融合するフレームワークであるDual Knowledge Multilingual RAGを提案する。
実験結果から,DKM-RAGは言語嗜好を緩和し,多様な言語環境における性能向上を図っている。
論文 参考訳(メタデータ) (2025-02-16T15:54:05Z) - Not All Languages are Equal: Insights into Multilingual Retrieval-Augmented Generation [38.631934251052485]
我々は,このベンチマークを用いて6つの多言語ALMを評価し,多言語ALMの課題について検討した。
オープンソースの言語はモノリンガル知識抽出において際立っている。
インド・ヨーロッパ語は RALM を指導し、文書から直接回答を提供する。
英語は、ALMsの選択バイアスから恩恵を受け、多言語知識の選択においてより大声で話す。
論文 参考訳(メタデータ) (2024-10-29T11:53:19Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。
実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。
言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z) - LAReQA: Language-agnostic answer retrieval from a multilingual pool [29.553907688813347]
LAReQAによる言語間アライメントの「強い」テスト。
機械翻訳による学習データの増強は効果的であることがわかった。
この発見は、言語に依存しない検索は、言語間評価の実質的な新しいタイプである、という我々の主張を裏付けるものである。
論文 参考訳(メタデータ) (2020-04-11T20:51:11Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。