論文の概要: MiLQ: Benchmarking IR Models for Bilingual Web Search with Mixed Language Queries
- arxiv url: http://arxiv.org/abs/2505.16631v1
- Date: Thu, 22 May 2025 13:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.301515
- Title: MiLQ: Benchmarking IR Models for Bilingual Web Search with Mixed Language Queries
- Title(参考訳): MiLQ: 混合言語クエリによるバイリンガルWeb検索のためのIRモデルのベンチマーク
- Authors: Jonghwi Kim, Deokhyung Kang, Seonjeong Hwang, Yunsu Kim, Jungseul Ok, Gary Lee,
- Abstract要約: 混合言語クエリの最初の公開ベンチマークであるMiLQ,Mixed-Language Queryテストセットを紹介する。
実験の結果、多言語IRモデルはMiLQで適度に動作し、ネイティブ、イングリッシュ、ミックスランゲージで不整合に動作していることがわかった。
問合せにおける意図的な英語の混合は、英語文書を検索するバイリンガルにとって効果的な戦略であることを証明している。
- 参考スコア(独自算出の注目度): 7.198090470473247
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite bilingual speakers frequently using mixed-language queries in web searches, Information Retrieval (IR) research on them remains scarce. To address this, we introduce MiLQ,Mixed-Language Query test set, the first public benchmark of mixed-language queries, confirmed as realistic and highly preferred. Experiments show that multilingual IR models perform moderately on MiLQ and inconsistently across native, English, and mixed-language queries, also suggesting code-switched training data's potential for robust IR models handling such queries. Meanwhile, intentional English mixing in queries proves an effective strategy for bilinguals searching English documents, which our analysis attributes to enhanced token matching compared to native queries.
- Abstract(参考訳): ウェブ検索で混在語クエリを頻繁に使用するバイリンガル話者は多いが、情報検索(IR)による研究は乏しい。
そこで我々は,Mixed-Language Query test setを導入する。Mixed-Language Query test setは,Mixed-Language Queryの最初の公開ベンチマークである。
実験により、多言語IRモデルは、MiLQで適度に動作し、ネイティブ、イングリッシュ、ミックスランゲージクエリで不整合に動作し、また、そのようなクエリを扱う堅牢なIRモデルに対するコードスイッチトトレーニングデータの可能性も示唆されている。
一方、意図的な問合せにおける英語の混合は、英語文書を検索するバイリンガルにとって効果的な戦略であることを証明している。
関連論文リスト
- EqualizeIR: Mitigating Linguistic Biases in Retrieval Models [14.755831733659699]
既存の情報検索(IR)モデルでは、入力クエリの言語的複雑さに基づいた大きなバイアスが示される。
我々は、IRモデルの言語バイアスを軽減するためのフレームワークであるEqualizeIRを提案する。
論文 参考訳(メタデータ) (2025-03-22T03:24:34Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。
実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。
言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Pivot Through English: Reliably Answering Multilingual Questions without
Document Retrieval [4.4973334555746]
低リソース言語(LRL)における解答に対する既存の解答法は、英語に大きく遅れた。
文書検索を回避し、英語から低リソース言語への知識の確実に転送する、より現実的なタスクセットアップを利用可能なリソースに策定します。
このタスク設定内では、リランク付き英語学習セットに対する意味的類似性検索に類似した、Reranked Maximal Internal Product Search (RM-MIPS)を提案する。
論文 参考訳(メタデータ) (2020-12-28T04:38:45Z) - Acoustic span embeddings for multilingual query-by-example search [20.141444548841047]
低リソースまたはゼロリソース設定では、QbE検索は動的時間ワープ(DTW)に基づくアプローチで対処されることが多い。
近年の研究では、音響単語埋め込み(AWE)に基づく手法は、性能と探索速度の両方を改善することが判明している。
我々は、AWEトレーニングを単語のスパンに一般化し、音響スパン埋め込み(ASE)を生成し、複数の未知言語における任意の長さのクエリへのAWEの適用について検討する。
論文 参考訳(メタデータ) (2020-11-24T00:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。