論文の概要: Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information Retrieval
- arxiv url: http://arxiv.org/abs/2511.19325v1
- Date: Mon, 24 Nov 2025 17:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.336922
- Title: Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information Retrieval
- Title(参考訳): 言語間情報検索のための多言語LLMを用いた生成クエリ拡張
- Authors: Olivia Macmillan-Scott, Roksana Goworek, Eda B. Özyiğit,
- Abstract要約: マルチ言語大言語モデル (mLLMs) は、セマンティック拡張から同義語や関連語によるクエリ拡張から擬文書生成へ移行した。
本研究は,近年のmLLMと,言語間検索性能を向上する要因を特定するために,複数の生成的拡張戦略にまたがる微調整変種を評価した。
- 参考スコア(独自算出の注目度): 0.19116784879310025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query expansion is the reformulation of a user query by adding semantically related information, and is an essential component of monolingual and cross-lingual information retrieval used to ensure that relevant documents are not missed. Recently, multilingual large language models (mLLMs) have shifted query expansion from semantic augmentation with synonyms and related words to pseudo-document generation. Pseudo-documents both introduce additional relevant terms and bridge the gap between short queries and long documents, which is particularly beneficial in dense retrieval. This study evaluates recent mLLMs and fine-tuned variants across several generative expansion strategies to identify factors that drive cross-lingual retrieval performance. Results show that query length largely determines which prompting technique is effective, and that more elaborate prompts often do not yield further gains. Substantial linguistic disparities persist: cross-lingual query expansion can produce the largest improvements for languages with the weakest baselines, yet retrieval is especially poor between languages written in different scripts. Fine-tuning is found to lead to performance gains only when the training and test data are of similar format. These outcomes underline the need for more balanced multilingual and cross-lingual training and evaluation resources.
- Abstract(参考訳): クエリ拡張(Query expansion)とは、セマンティックな関連情報を追加することでユーザクエリを再構築することであり、関連するドキュメントを見逃さないようにするために使用されるモノリンガルおよびクロスランガル情報検索の不可欠なコンポーネントである。
近年,多言語大言語モデル (mLLMs) は,同義語や関連語による意味拡張から擬文書生成へのクエリ拡張に移行している。
Pseudo-documentsはどちらも関連する用語を導入し、短いクエリと長いドキュメントのギャップを埋める。
本研究は,近年のmLLMと,言語間検索性能を向上する要因を特定するために,複数の生成的拡張戦略にまたがる微調整変種を評価した。
その結果、クエリ長は、どのプロンプトテクニックが有効かを大きく決定し、より精巧なプロンプトは、それ以上の利益を得られないことが示される。
言語間のクエリ拡張は、最も低いベースラインを持つ言語に対して最大の改善をもたらすが、異なるスクリプトで書かれた言語間での検索は特に貧弱である。
微調整は、トレーニングとテストデータが同様のフォーマットである場合にのみ、パフォーマンス向上につながる。
これらの結果は、よりバランスの取れた多言語および多言語間のトレーニングと評価リソースの必要性を浮き彫りにする。
関連論文リスト
- Bridging Language Gaps: Advances in Cross-Lingual Information Retrieval with Multilingual LLMs [0.19116784879310025]
言語間情報検索(CLIR)は、元のクエリとは異なる言語で書かれた関連文書を取得するという課題に対処する。
近年の進歩は、翻訳に基づく手法から埋め込みに基づくアプローチへと移行している。
この調査は、初期の翻訳に基づく手法から、最先端の埋め込み駆動および生成技術への展開の包括的概要を提供する。
論文 参考訳(メタデータ) (2025-10-01T13:50:05Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora [5.0908395672023055]
言語間検索強化生成(RAG)は、言語間で回答を検索し、生成する重要な能力である。
我々は、実世界の企業データセットから得られたベンチマークを用いて、アラビア語のRAGをドメイン固有の設定で研究する。
両言語から等価な検索を強制したり、クエリを翻訳することで、この失敗の原因に対処する2つの簡単な検索戦略を提案する。
論文 参考訳(メタデータ) (2025-07-10T08:38:31Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [89.45111250272559]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
検索したウィキペディア文書と組み合わせた領土紛争のデータセットであるBordIRLinesを49言語で紹介する。
我々は多言語検索のための複数のモードを定式化することにより、このRAG設定の言語間ロバスト性を評価する。
実験の結果,多様な言語からの視点を取り入れることで,ロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。