論文の概要: Bridging Language Gaps: Advances in Cross-Lingual Information Retrieval with Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2510.00908v1
- Date: Wed, 01 Oct 2025 13:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.592904
- Title: Bridging Language Gaps: Advances in Cross-Lingual Information Retrieval with Multilingual LLMs
- Title(参考訳): ブリッジング言語ギャップ:多言語LLMを用いた言語間情報検索の進歩
- Authors: Roksana Goworek, Olivia Macmillan-Scott, Eda B. Özyiğit,
- Abstract要約: 言語間情報検索(CLIR)は、元のクエリとは異なる言語で書かれた関連文書を取得するという課題に対処する。
近年の進歩は、翻訳に基づく手法から埋め込みに基づくアプローチへと移行している。
この調査は、初期の翻訳に基づく手法から、最先端の埋め込み駆動および生成技術への展開の包括的概要を提供する。
- 参考スコア(独自算出の注目度): 0.19116784879310025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual information retrieval (CLIR) addresses the challenge of retrieving relevant documents written in languages different from that of the original query. Research in this area has typically framed the task as monolingual retrieval augmented by translation, treating retrieval methods and cross-lingual capabilities in isolation. Both monolingual and cross-lingual retrieval usually follow a pipeline of query expansion, ranking, re-ranking and, increasingly, question answering. Recent advances, however, have shifted from translation-based methods toward embedding-based approaches and leverage multilingual large language models (LLMs), for which aligning representations across languages remains a central challenge. The emergence of cross-lingual embeddings and multilingual LLMs has introduced a new paradigm, offering improved retrieval performance and enabling answer generation. This survey provides a comprehensive overview of developments from early translation-based methods to state-of-the-art embedding-driven and generative techniques. It presents a structured account of core CLIR components, evaluation practices, and available resources. Persistent challenges such as data imbalance and linguistic variation are identified, while promising directions are suggested for advancing equitable and effective cross-lingual information retrieval. By situating CLIR within the broader landscape of information retrieval and multilingual language processing, this work not only reviews current capabilities but also outlines future directions for building retrieval systems that are robust, inclusive, and adaptable.
- Abstract(参考訳): 言語間情報検索(CLIR)は、元のクエリとは異なる言語で書かれた関連文書を取得するという課題に対処する。
この領域の研究は、典型的には、このタスクを翻訳によって強化された単言語検索、検索方法の扱い、単独での言語横断能力として定式化してきた。
モノリンガル検索とクロスランガル検索は、通常、クエリ拡張、ランク付け、再ランク付け、質問応答のパイプラインに従う。
しかし、近年の進歩は、翻訳に基づく手法から埋め込みベースのアプローチへ移行し、多言語大言語モデル(LLM)を活用している。
言語間埋め込みと多言語LLMの出現により,検索性能が向上し,回答生成が可能になった。
この調査は、初期の翻訳に基づく手法から、最先端の埋め込み駆動および生成技術への展開の包括的概要を提供する。
コアCLIRコンポーネント、評価プラクティス、利用可能なリソースの構造化された説明を提供する。
データ不均衡や言語的変動といった永続的な課題を識別し,適切な効果的な言語間情報検索を推し進める上で有望な方向性を提案する。
情報検索と多言語言語処理の広い視野にCLIRを配置することにより、本研究は現在の能力だけでなく、堅牢で包括的で適応可能な検索システムを構築するための今後の方向性を概説する。
関連論文リスト
- Investigating Language and Retrieval Bias in Multilingual Previously Fact-Checked Claim Detection [4.6738956348193]
大きな言語モデル(LLM)は言語間ファクトチェックに強力な機能を提供する。
LLMは、しばしば言語バイアスを示し、英語のような高リソース言語で不公平に優れた性能を発揮する。
我々は,情報検索システムが他者よりも特定の情報を好む傾向にある場合,検索バイアスという新しい概念を提示し,検証する。
論文 参考訳(メタデータ) (2025-09-29T17:50:32Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [73.35882908048423]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
検索したウィキペディア文書と組み合わせた領土紛争のデータセットであるBordIRLinesを49言語で紹介する。
我々は多言語検索のための複数のモードを定式化することにより、このRAG設定の言語間ロバスト性を評価する。
実験の結果,多様な言語からの視点を取り入れることで,ロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。