論文の概要: The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora
- arxiv url: http://arxiv.org/abs/2507.07543v1
- Date: Thu, 10 Jul 2025 08:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.328502
- Title: The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora
- Title(参考訳): 言語横断コスト:アラビア語コーパスに対するRAGの検索ビアーズ
- Authors: Chen Amiraz, Yaroslav Fyodorov, Elad Haramaty, Zohar Karnin, Liane Lewin-Eytan,
- Abstract要約: 言語間検索強化生成(RAG)は、言語間で回答を検索し、生成する重要な能力である。
我々は、実世界の企業データセットから得られたベンチマークを用いて、アラビア語のRAGをドメイン固有の設定で研究する。
両言語から等価な検索を行うことにより,この失敗の原因を解消する簡単な検索戦略を提案する。
- 参考スコア(独自算出の注目度): 6.594531626178451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual retrieval-augmented generation (RAG) is a critical capability for retrieving and generating answers across languages. Prior work in this context has mostly focused on generation and relied on benchmarks derived from open-domain sources, most notably Wikipedia. In such settings, retrieval challenges often remain hidden due to language imbalances, overlap with pretraining data, and memorized content. To address this gap, we study Arabic-English RAG in a domain-specific setting using benchmarks derived from real-world corporate datasets. Our benchmarks include all combinations of languages for the user query and the supporting document, drawn independently and uniformly at random. This enables a systematic study of multilingual retrieval behavior. Our findings reveal that retrieval is a critical bottleneck in cross-lingual domain-specific scenarios, with significant performance drops occurring when the user query and supporting document languages differ. A key insight is that these failures stem primarily from the retriever's difficulty in ranking documents across languages. Finally, we propose a simple retrieval strategy that addresses this source of failure by enforcing equal retrieval from both languages, resulting in substantial improvements in cross-lingual and overall performance. These results highlight meaningful opportunities for improving multilingual retrieval, particularly in practical, real-world RAG applications.
- Abstract(参考訳): 言語間検索強化生成(RAG)は、言語間で回答を検索し、生成する重要な能力である。
この文脈における以前の研究は、主に生成に焦点をあて、オープンドメインソースから派生したベンチマーク、特にウィキペディアに依存していた。
このような設定では、言語の不均衡、事前学習データとの重複、記憶されたコンテンツのために、検索の課題は隠されていることが多い。
このギャップに対処するために、実世界の企業データセットから得られたベンチマークを用いて、ドメイン固有の設定でアラビア英語のRAGを研究する。
私たちのベンチマークには、ユーザクエリ用の言語と、独立してランダムに描画されるサポートドキュメントのすべての組み合わせが含まれています。
これにより、多言語検索行動の体系的な研究が可能になる。
その結果,検索は言語間ドメイン固有のシナリオにおいて重要なボトルネックであり,ユーザクエリと文書言語のサポートが異なる場合,大幅なパフォーマンス低下が生じることがわかった。
重要な洞察は、これらの失敗は主に、言語間で文書をランク付けするのが難しかったことに起因する。
最後に,両言語から等価な検索を行うことで,この失敗の原因に対処する簡単な検索手法を提案する。
これらの結果は,多言語検索,特に実世界のRAGアプリケーションにおいて,有意義な機会を浮き彫りにしている。
関連論文リスト
- CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents [2.0277446818410994]
本稿では,言語間の学術的探索を評価するための新しいデータセットであるCLIRuditを提案する。
データセットは、カナダのパブリッシングプラットフォームである'Erudit'のバイリンガルな記事メタデータを使って構築されている。
論文 参考訳(メタデータ) (2025-04-22T20:55:08Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [73.35882908048423]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - Investigating Language Preference of Multilingual RAG Systems [4.438698005789677]
MRAGシステムは、クエリとドキュメント間の言語的バリエーションによって、関連する情報を取得するのに苦労する。
DKM-RAG(Dual Knowledge Multilingual RAG)は,翻訳された多言語パスを相補的なモデル知識で融合するフレームワークである。
実験結果から,DKM-RAGは言語嗜好を緩和し,多様な言語環境における性能向上を図っている。
論文 参考訳(メタデータ) (2025-02-16T15:54:05Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
検索したウィキペディア文書と組み合わせた領土紛争のデータセットであるBordIRLinesを49言語で紹介する。
我々は多言語検索のための複数のモードを定式化することにより、このRAG設定の言語間ロバスト性を評価する。
実験の結果,多様な言語からの視点を取り入れることで,ロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。