論文の概要: Language Bias in Information Retrieval: The Nature of the Beast and Mitigation Methods
- arxiv url: http://arxiv.org/abs/2509.06195v1
- Date: Sun, 07 Sep 2025 20:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.8973
- Title: Language Bias in Information Retrieval: The Nature of the Beast and Mitigation Methods
- Title(参考訳): 情報検索における言語バイアス : ビースト・マイティゲーション法の性質
- Authors: Jinrui Yang, Fan Jiang, Timothy Baldwin,
- Abstract要約: 多言語情報検索(MLIR)システムにおける言語フェアネスは、多言語にわたる情報への公平なアクセスを確保するために重要である。
本論文は,異なる言語での問合せが同一のセマンティクスを持つ場合,同一の多言語文書を検索する場合に同等のランキングを得られるという仮定に基づいて,この問題に光を当てるものである。
従来の検索手法と,mBERTとXLM-Rに基づくDPRニューラルランサーを用いて,公正度を評価する。
- 参考スコア(独自算出の注目度): 34.309727925633354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language fairness in multilingual information retrieval (MLIR) systems is crucial for ensuring equitable access to information across diverse languages. This paper sheds light on the issue, based on the assumption that queries in different languages, but with identical semantics, should yield equivalent ranking lists when retrieving on the same multilingual documents. We evaluate the degree of fairness using both traditional retrieval methods, and a DPR neural ranker based on mBERT and XLM-R. Additionally, we introduce `LaKDA', a novel loss designed to mitigate language biases in neural MLIR approaches. Our analysis exposes intrinsic language biases in current MLIR technologies, with notable disparities across the retrieval methods, and the effectiveness of LaKDA in enhancing language fairness.
- Abstract(参考訳): 多言語情報検索(MLIR)システムにおける言語フェアネスは、多言語にわたる情報への公平なアクセスを確保するために重要である。
本論文は,異なる言語での問合せが同一のセマンティクスを持つ場合,同一の多言語文書を検索する場合に同等のランキングを得られるという仮定に基づいて,この問題に光を当てるものである。
従来の検索手法と,mBERTとXLM-Rに基づくDPRニューラルランサーを用いて,公正度を評価する。
さらに、ニューラルMLIRアプローチにおける言語バイアスを軽減するために設計された新しい損失である 'LaKDA' を導入する。
近年のMLIR技術では,検索手法の相違が顕著であり,言語フェアネス向上におけるLaKDAの有効性が指摘されている。
関連論文リスト
- How and Where to Translate? The Impact of Translation Strategies in Cross-lingual LLM Prompting [15.388822834013599]
多言語検索強化世代(RAG)ベースのシステムでは、知識ベース(KB)は高リソース言語(例えば英語)から低リソース言語(英語版)にしばしば共有される。
2つの一般的なプラクティスは、単言語的なプロンプトを生成するための事前翻訳と、直接推論のための言語間プロンプトである。
最適化されたプロンプト戦略は、言語間の知識共有を大幅に改善し、下流分類タスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-07-21T19:37:15Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [73.35882908048423]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
検索したウィキペディア文書と組み合わせた領土紛争のデータセットであるBordIRLinesを49言語で紹介する。
我々は多言語検索のための複数のモードを定式化することにより、このRAG設定の言語間ロバスト性を評価する。
実験の結果,多様な言語からの視点を取り入れることで,ロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Language Fairness in Multilingual Information Retrieval [9.358582006140903]
本研究は,異なる言語にまたがる文書が適切にランク付けされているかどうかを評価するための言語公正度尺度を提案する。
群フェアネスにおける多くの先行研究とは対照的に、いかなる言語も保護されていない群とはみなさない。
提案手法であるPEERは,MLIRシステムの言語フェアネスを捉えるために特別に設計された最初のフェアネス尺度である。
論文 参考訳(メタデータ) (2024-05-02T03:30:15Z) - Cross-lingual Text Classification Transfer: The Case of Ukrainian [11.508759658889382]
ウクライナ語は、言語間の方法論の継続的な洗練の恩恵を受けることができる言語である。
我々の知る限り、典型的なテキスト分類タスクにはウクライナのコーパスが欠如している。
本研究では,NLPの最先端技術を活用し,言語間知識伝達手法を探索する。
論文 参考訳(メタデータ) (2024-04-02T15:37:09Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - A Simple and Effective Method To Eliminate the Self Language Bias in
Multilingual Representations [7.571549274473274]
言語に依存しない意味言語情報の分離は、多言語表現モデルのための新たな研究方向である。
言語情報除去(LIR)は,多言語データに基づいて事前学習した多言語表現における意味関連コンポーネントから言語識別情報を抽出する。
LIRは、弱アライメント多言語システムでは、意味空間の主成分が言語アイデンティティ情報をエンコードしていることを明らかにする。
論文 参考訳(メタデータ) (2021-09-10T08:15:37Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。