論文の概要: Evaluating Large Language Models for Cross-Lingual Retrieval
- arxiv url: http://arxiv.org/abs/2509.14749v1
- Date: Thu, 18 Sep 2025 08:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.133205
- Title: Evaluating Large Language Models for Cross-Lingual Retrieval
- Title(参考訳): 言語横断検索のための大規模言語モデルの評価
- Authors: Longfei Zuo, Pingjun Hong, Oliver Kraus, Barbara Plank, Robert Litschko,
- Abstract要約: 大規模言語モデル(LLM)を用いた2段階CLIRにおけるレトリバーとリランカーの相互作用について検討する。
以上の結果から,機械翻訳がなければ,CLIRに直接適用した場合,最先端のリランカーは著しく低下することが明らかとなった。
- 参考スコア(独自算出の注目度): 30.491003480391328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-stage information retrieval (IR) has become a widely-adopted paradigm in search. While Large Language Models (LLMs) have been extensively evaluated as second-stage reranking models for monolingual IR, a systematic large-scale comparison is still lacking for cross-lingual IR (CLIR). Moreover, while prior work shows that LLM-based rerankers improve CLIR performance, their evaluation setup relies on lexical retrieval with machine translation (MT) for the first stage. This is not only prohibitively expensive but also prone to error propagation across stages. Our evaluation on passage-level and document-level CLIR reveals that further gains can be achieved with multilingual bi-encoders as first-stage retrievers and that the benefits of translation diminishes with stronger reranking models. We further show that pairwise rerankers based on instruction-tuned LLMs perform competitively with listwise rerankers. To the best of our knowledge, we are the first to study the interaction between retrievers and rerankers in two-stage CLIR with LLMs. Our findings reveal that, without MT, current state-of-the-art rerankers fall severely short when directly applied in CLIR.
- Abstract(参考訳): マルチステージ情報検索(IR)は検索のパラダイムとして広く採用されている。
大規模言語モデル (LLM) はモノリンガルIRの第2段階の再分類モデルとして広く評価されているが、体系的な大規模比較はいまだにクロスリンガルIR (CLIR) に欠けている。
さらに,LLMをベースとしたリランカはCLIRの性能向上を図っているが,その評価設定は機械翻訳(MT)による語彙検索に依存している。
これは違法に高価であるだけでなく、ステージ間のエラーの伝播も困難である。
通過レベルおよび文書レベルCLIRの評価では,複数言語バイエンコーダを第1段レトリバーとし,翻訳の利点がより強いリグレードモデルで減少することが明らかとなった。
さらに、命令調整LLMに基づくペアワイズリランカがリストワイズリランカと競合することを示す。
我々の知る限り、我々は2段階CLIRにおけるレトリバーとリランカーの相互作用をLSMを用いて初めて研究している。
MTがなければ,CLIRに直接適用した場合,現在最先端のリランカーが著しく低下することが明らかとなった。
関連論文リスト
- Eliciting In-context Retrieval and Reasoning for Long-context Large Language Models [27.217391392240113]
長文言語モデル(LCLM)は知識ベース全体を処理し、直接検索と推論を行うことができる。
LOFTのような既存のベンチマークは、過度に単純化されたコンテキストを提供することでLCLMのパフォーマンスを過大評価することが多い。
ICR2はLCLMをより現実的なシナリオで評価するベンチマークである。
次に, LCLMの性能向上のための3つの手法を提案する。(1) 検索-then-generate fine-tuning, (2) 注意頭を用いてデコード中の長いコンテキストをフィルタリング・復調する検索-attention-probing, (3) 生成ヘッドと併用した共同検索ヘッドトレーニング。
論文 参考訳(メタデータ) (2025-01-14T16:38:33Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。