論文の概要: Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval
- arxiv url: http://arxiv.org/abs/2311.01870v1
- Date: Fri, 3 Nov 2023 12:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 14:23:57.677859
- Title: Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval
- Title(参考訳): 情報検索におけるバイアス分析のための多言語欧州議会データセット
- Authors: Jinrui Yang, Timothy Baldwin, Trevor Cohn
- Abstract要約: このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
- 参考スコア(独自算出の注目度): 62.82448161570428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Multi-EuP, a new multilingual benchmark dataset, comprising 22K
multi-lingual documents collected from the European Parliament, spanning 24
languages. This dataset is designed to investigate fairness in a multilingual
information retrieval (IR) context to analyze both language and demographic
bias in a ranking context. It boasts an authentic multilingual corpus,
featuring topics translated into all 24 languages, as well as cross-lingual
relevance judgments. Furthermore, it offers rich demographic information
associated with its documents, facilitating the study of demographic bias. We
report the effectiveness of Multi-EuP for benchmarking both monolingual and
multilingual IR. We also conduct a preliminary experiment on language bias
caused by the choice of tokenization strategy.
- Abstract(参考訳): 欧州議会から収集された22万の多言語文書からなる,新しい多言語ベンチマークデータセットであるMulti-EuPを提案する。
このデータセットは、多言語情報検索(IR)コンテキストにおける公平性を調査し、ランキングコンテキストにおける言語と人口統計のバイアスを分析するように設計されている。
真正の多言語コーパスを持ち、24言語すべてに翻訳されたトピックと、言語間の関連性判断を特徴とする。
さらに、文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
単言語と多言語の両方のIRをベンチマークするためのMulti-EuPの有効性を報告する。
また,トークン化戦略の選択による言語バイアスに関する予備実験を行った。
関連論文リスト
- Not All Languages are Equal: Insights into Multilingual Retrieval-Augmented Generation [38.631934251052485]
我々は,このベンチマークを用いて6つの多言語ALMを評価し,多言語ALMの課題について検討した。
オープンソースの言語はモノリンガル知識抽出において際立っている。
インド・ヨーロッパ語は RALM を指導し、文書から直接回答を提供する。
英語は、ALMsの選択バイアスから恩恵を受け、多言語知識の選択においてより大声で話す。
論文 参考訳(メタデータ) (2024-10-29T11:53:19Z) - No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks [75.29561463156635]
ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。
多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
論文 参考訳(メタデータ) (2024-03-10T16:22:20Z) - A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets [1.1647644386277962]
多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
論文 参考訳(メタデータ) (2024-03-06T18:14:22Z) - Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。