論文の概要: MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal
- arxiv url: http://arxiv.org/abs/2605.07249v1
- Date: Fri, 08 May 2026 05:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.810951
- Title: MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal
- Title(参考訳): MLAIRE:多言語言語対応情報検索手法
- Authors: Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim,
- Abstract要約: MLAIREは多言語対応情報検索評価プロトコルである。
クエリ言語嗜好から言語間セマンティック検索を分離する。
標準メトリクスが明らかに異なる振る舞いを示す。
- 参考スコア(独自算出の注目度): 26.186599286240362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.
- Abstract(参考訳): 多言語情報検索は、ユーザが混在するコーパス上でクエリを発行する現実世界の検索設定において、ますます重要になっている。
既存の評価は主に言語に依存しない意味的関連性に報いる。
検索ユーティリティは、検索されたパスの言語にも依存する:ユーザはクエリ言語で読み書きできる結果を好むかもしれないし、クエリ-パス言語ミスマッチは、Retrieval-Augmented Generationシステムにおける下流のグラウンドと回答の検証を複雑にすることができる。
この言語認識次元を評価するために,クエリ言語嗜好から言語間セマンティック検索を分離する多言語言語認識情報検索評価プロトコルMLAIREを導入する。
MLAIREは、言語横断の並列パスを持つ制御プールを構築し、等価翻訳が利用可能になったときの意味的検索精度とクエリ言語嗜好の測定を可能にする。
本稿では,LPR(Language Preference Rate)とLang-nDCG(Lang-nDCG)を含む言語対応メトリクスと,セマンティックとクエリ言語優先の障害を分離した4方向分解手法を提案する。
意味論的に強い検索者は非クエリ言語で正しい内容を返すことができるが、クエリ言語に強い好みを持つ検索者は意味論的に関係のないパスを検索することができる。
関連論文リスト
- Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information Retrieval [0.19116784879310025]
マルチ言語大言語モデル (mLLMs) は、セマンティック拡張から同義語や関連語によるクエリ拡張から擬文書生成へ移行した。
本研究は,近年のmLLMと,言語間検索性能を向上する要因を特定するために,複数の生成的拡張戦略にまたがる微調整変種を評価した。
論文 参考訳(メタデータ) (2025-11-24T17:18:25Z) - Bridging Language Gaps: Advances in Cross-Lingual Information Retrieval with Multilingual LLMs [0.19116784879310025]
言語間情報検索(CLIR)は、元のクエリとは異なる言語で書かれた関連文書を取得するという課題に対処する。
近年の進歩は、翻訳に基づく手法から埋め込みに基づくアプローチへと移行している。
この調査は、初期の翻訳に基づく手法から、最先端の埋め込み駆動および生成技術への展開の包括的概要を提供する。
論文 参考訳(メタデータ) (2025-10-01T13:50:05Z) - Linguistic Nepotism: Trading-off Quality for Language Preference in Multilingual RAG [55.258582772528506]
異なる文書言語の混合が意図しない方法で生成と引用に影響を及ぼすかどうかを検討する。
8つの言語と6つのオープンウェイトモデルにまたがって、クエリが英語である場合、モデルは優先的に英語ソースを引用する。
モデルが言語嗜好のトレードオフ文書関連性を示すことがあり、引用選択が情報のみによって常に駆動されるわけではないことが分かる。
論文 参考訳(メタデータ) (2025-09-17T12:58:18Z) - The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora [5.0908395672023055]
言語間検索強化生成(RAG)は、言語間で回答を検索し、生成する重要な能力である。
我々は、実世界の企業データセットから得られたベンチマークを用いて、アラビア語のRAGをドメイン固有の設定で研究する。
両言語から等価な検索を強制したり、クエリを翻訳することで、この失敗の原因に対処する2つの簡単な検索戦略を提案する。
論文 参考訳(メタデータ) (2025-07-10T08:38:31Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。