論文の概要: Investigating Language Preference of Multilingual RAG Systems
- arxiv url: http://arxiv.org/abs/2502.11175v1
- Date: Sun, 16 Feb 2025 15:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:52.450228
- Title: Investigating Language Preference of Multilingual RAG Systems
- Title(参考訳): 多言語RAGシステムの言語選好の検討
- Authors: Jeonghyun Park, Hwanhee Lee,
- Abstract要約: MRAGシステムは、クエリとドキュメント間の言語的バリエーションによって、関連する情報を取得するのに苦労する。
本稿では,翻訳された多言語パスを相補的なモデル知識で融合するフレームワークであるDual Knowledge Multilingual RAGを提案する。
実験結果から,DKM-RAGは言語嗜好を緩和し,多様な言語環境における性能向上を図っている。
- 参考スコア(独自算出の注目度): 4.438698005789677
- License:
- Abstract: Multilingual Retrieval-Augmented Generation (mRAG) systems enhance language models by integrating external multilingual information to produce context-aware responses. However, mRAG systems struggle with retrieving relevant information due to linguistic variations between queries and documents, generating inconsistent responses when multilingual sources conflict. In this work, we systematically investigate language preferences in both retrieval and generation of mRAG through a series of experiments. Our analysis indicates that retrievers tend to prefer high-resource and query languages, yet this preference does not consistently improve generation performance. Moreover, we observe that generators prefer the query language or Latin scripts, leading to inconsistent outputs. To overcome these issues, we propose Dual Knowledge Multilingual RAG (DKM-RAG), a simple yet effective framework that fuses translated multilingual passages with complementary model knowledge. Empirical results demonstrate that DKM-RAG mitigates language preference in generation and enhances performance across diverse linguistic settings.
- Abstract(参考訳): マルチリンガル検索・拡張生成(mRAG)システムは、外部のマルチリンガル情報を統合して文脈認識応答を生成することにより、言語モデルを強化する。
しかし、mRAGシステムでは、クエリとドキュメント間の言語的バリエーションによる関連情報の検索に苦慮し、多言語ソースが衝突した場合に一貫性のない応答を生成する。
本研究では,一連の実験を通して,mRAGの検索と生成における言語嗜好を体系的に検討する。
分析の結果,検索者は高リソース・クエリ言語を好む傾向にあるが,この選好は生成性能を常に向上させるものではない。
さらに、ジェネレータはクエリ言語やラテン文字を好み、一貫性のない出力につながることを観察する。
これらの課題を克服するために,2つの知識多言語RAG(DKM-RAG)を提案する。
実験結果から,DKM-RAGは言語嗜好を緩和し,多様な言語環境における性能向上を図っている。
関連論文リスト
- Not All Languages are Equal: Insights into Multilingual Retrieval-Augmented Generation [38.631934251052485]
我々は,このベンチマークを用いて6つの多言語ALMを評価し,多言語ALMの課題について検討した。
オープンソースの言語はモノリンガル知識抽出において際立っている。
インド・ヨーロッパ語は RALM を指導し、文書から直接回答を提供する。
英語は、ALMsの選択バイアスから恩恵を受け、多言語知識の選択においてより大声で話す。
論文 参考訳(メタデータ) (2024-10-29T11:53:19Z) - MST5 -- Multilingual Question Answering over Knowledge Graphs [1.6470999044938401]
知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。
既存の多言語KGQAシステムは、英語システムに匹敵する性能を達成するための課題に直面している。
本稿では,言語コンテキストとエンティティ情報を言語モデルの処理パイプラインに直接組み込むことで,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-08T15:37:51Z) - Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models [7.615938028813914]
言語間RAGに基づく情報検索における言語嗜好について検討した。
その結果,LLMは問合せ言語と同じ言語で情報に対する体系的バイアスを示すことがわかった。
論文 参考訳(メタデータ) (2024-07-07T21:26:36Z) - Retrieval-augmented generation in multilingual settings [23.71228116313947]
Retrieval-augmented Generation (RAG)は,大規模言語モデル(LLM)に最新ないしドメイン固有知識を組み込むための,有望なソリューションとして登場した。
我々は、ユーザクエリと13言語のデータストアを備えたマルチ言語設定(mRAG)におけるRAGについて検討する。
この結果から,高品質なオフザシェルフ多言語レトリバーとジェネレータが利用可能であるにもかかわらず,タスク固有のプロンプトエンジニアリングがユーザ言語の生成に必要であることがわかった。
論文 参考訳(メタデータ) (2024-07-01T16:56:50Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - 1+1>2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? [46.43162333819418]
大規模言語モデル(LLM)は、様々な言語にまたがって情報を処理できることから、大きな注目を集めている。
それらの能力にもかかわらず、異なる言語で同じクエリを扱うことに矛盾を示し、さらなる進歩のための課題を提示している。
本稿では,多言語からの知識を集約することで,LLMの多言語的性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T20:32:53Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。