Fugu-MT 論文翻訳(概要): Multi-EuP: The Multilingual European Parliament Dataset for Analysis of Bias in Information Retrieval

論文の概要: Multi-EuP: The Multilingual European Parliament Dataset for Analysis of Bias in Information Retrieval

arxiv url: http://arxiv.org/abs/2311.01870v1
Date: Fri, 3 Nov 2023 12:29:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 14:23:57.677859
Title: Multi-EuP: The Multilingual European Parliament Dataset for Analysis of Bias in Information Retrieval
Title（参考訳）: 情報検索におけるバイアス分析のための多言語欧州議会データセット
Authors: Jinrui Yang, Timothy Baldwin, Trevor Cohn
Abstract要約: このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
参考スコア（独自算出の注目度）: 62.82448161570428
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Multi-EuP, a new multilingual benchmark dataset, comprising 22K multi-lingual documents collected from the European Parliament, spanning 24 languages. This dataset is designed to investigate fairness in a multilingual information retrieval (IR) context to analyze both language and demographic bias in a ranking context. It boasts an authentic multilingual corpus, featuring topics translated into all 24 languages, as well as cross-lingual relevance judgments. Furthermore, it offers rich demographic information associated with its documents, facilitating the study of demographic bias. We report the effectiveness of Multi-EuP for benchmarking both monolingual and multilingual IR. We also conduct a preliminary experiment on language bias caused by the choice of tokenization strategy.
Abstract（参考訳）: 欧州議会から収集された22万の多言語文書からなる,新しい多言語ベンチマークデータセットであるMulti-EuPを提案する。このデータセットは、多言語情報検索(IR)コンテキストにおける公平性を調査し、ランキングコンテキストにおける言語と人口統計のバイアスを分析するように設計されている。真正の多言語コーパスを持ち、24言語すべてに翻訳されたトピックと、言語間の関連性判断を特徴とする。さらに、文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。単言語と多言語の両方のIRをベンチマークするためのMulti-EuPの有効性を報告する。また,トークン化戦略の選択による言語バイアスに関する予備実験を行った。

関連論文リスト

A Parallel Cross-Lingual Benchmark for Multimodal Idiomaticity Understanding [15.171586338601522]
潜在的に慣用的な表現(PIE)は、言語コミュニティの日常的な経験と本質的に結びついている意味を解釈する。 XMPIEは,潜在的慣用的表現の並列多言語・マルチモーダルデータセットである。
論文参考訳（メタデータ） (2026-01-13T15:20:28Z)
LangGPS: Language Separability Guided Data Pre-Selection for Joint Multilingual Instruction Tuning [49.22807995935406]
大規模言語モデル(LLM)の多言語命令追従能力と下流性能を改善するための多言語命令チューニングは広く採用されている手法である。既存の選択法は、しばしばテキストの品質、多様性、タスク関連性といった特徴に基づいており、典型的には多言語データの固有の言語構造を見落としている。言語分離性によって導かれる軽量な2段階事前選択フレームワークであるLangGPSを提案する。
論文参考訳（メタデータ） (2025-11-13T12:02:32Z)
Investigating Language and Retrieval Bias in Multilingual Previously Fact-Checked Claim Detection [4.6738956348193]
大きな言語モデル(LLM)は言語間ファクトチェックに強力な機能を提供する。 LLMは、しばしば言語バイアスを示し、英語のような高リソース言語で不公平に優れた性能を発揮する。我々は,情報検索システムが他者よりも特定の情報を好む傾向にある場合,検索バイアスという新しい概念を提示し,検証する。
論文参考訳（メタデータ） (2025-09-29T17:50:32Z)
A method for improving multilingual quality and diversity of instruction fine-tuning datasets [29.07537849245622]
マルチリンガルデータ品質・多様性(M-DaQ)を導入し,IFT(Multilingual Instruction Fine-Tuning)の改善を図る。 M-DaQは、高品質で意味的に多様な多言語IFTサンプルを選択することで、LLMの多言語性を改善する新しい方法である。 18言語にわたる実証的な結果から、M-DaQで微調整されたモデルでは、バニラベースラインの60%の勝利率よりも大きなパフォーマンス向上が達成されている。
論文参考訳（メタデータ） (2025-09-19T03:07:59Z)
SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset [34.40254709148148]
コードスイッチング(Code-Switching, CS)とは、会話や発話の中で2つ以上の言語を交互に使用する方法である。この言語現象は、自動音声認識(ASR)システムに課題をもたらす。 textbfSwitchLinguaは、最初の大規模多言語および多民族のコードスイッチングデータセットである。
論文参考訳（メタデータ） (2025-05-30T05:54:46Z)
High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。多言語 LLM は非一貫性な言語間アライメントを示す。
論文参考訳（メタデータ） (2025-03-14T10:39:27Z)
Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? [3.902360015414256]
この研究は、多言語設定におけるCLIPScore変種の評価に関連する、いくつかの戦略と広範な実験を提示する。機械翻訳データを用いたテストでは、多言語CLIPScoreモデルは、異なる言語にわたる人間の判断と高い相関を維持することができる。
論文参考訳（メタデータ） (2025-02-10T16:00:00Z)
BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.456351723077088]
このデータセットは、まず英語以外の言語で手作りされている。それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
論文参考訳（メタデータ） (2025-02-06T18:56:37Z)
Not All Languages are Equal: Insights into Multilingual Retrieval-Augmented Generation [38.631934251052485]
我々は,このベンチマークを用いて6つの多言語ALMを評価し,多言語ALMの課題について検討した。オープンソースの言語はモノリンガル知識抽出において際立っている。インド・ヨーロッパ語は RALM を指導し、文書から直接回答を提供する。英語は、ALMsの選択バイアスから恩恵を受け、多言語知識の選択においてより大声で話す。
論文参考訳（メタデータ） (2024-10-29T11:53:19Z)
Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文参考訳（メタデータ） (2024-10-02T01:59:07Z)
No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks [75.29561463156635]
ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
論文参考訳（メタデータ） (2024-03-10T16:22:20Z)
A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets [1.1647644386277962]
多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
論文参考訳（メタデータ） (2024-03-06T18:14:22Z)
Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文参考訳（メタデータ） (2024-02-21T11:07:07Z)
Towards a Deep Understanding of Multilingual End-to-End Speech Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。我々は分析から3つの大きな発見を得た。
論文参考訳（メタデータ） (2023-10-31T13:50:55Z)
Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。これは多言語コレクションの不均一性と不均衡性に起因する。 KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文参考訳（メタデータ） (2023-05-15T21:17:17Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文参考訳（メタデータ） (2020-05-02T04:34:37Z)
Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。我々の表現は類型学を組み込み、言語関係と相関関係を強化する。次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文参考訳（メタデータ） (2020-04-30T16:25:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。